小说分类

谷歌搜索背后的数学原理

简单的一类，即所谓的平稳马尔可夫过程(stationary markov process)[注一]，而 h 则是描述转移概率的所谓转移矩阵(transition matrix)。不过普通马尔可夫过程中的转移矩阵通常是随机矩阵(stochastic matrix)，即每一列的矩阵元之和都为 1 的矩阵(请读者想一想，这一特点的“物理意义”是什么？)[注二]。而我们的矩阵 h 却可能有一些列是零向量，从而矩阵元之和为 0，它们对应于那些没有对外链接的网页，即所谓的“悬挂网页”(dangling page)。

上述公式的求解是简单得不能再简单的事情，即：pn = hnp0

其中 p0 为虚拟读者初次浏览时访问各网页的几率分布(在佩奇和布林的原始论文中，这一几率分布被假定为是均匀分布)。

如前所述，佩奇和布林是用虚拟用户在经过很长(理论上为无穷长)时间的漫游后访问各网页的几率分布，即 limn∞pn，来确定网页排序的。这个定义要想管用，显然要解决三个问题：

1.极限 limn∞pn 是否存在？

2.如果极限存在，它是否与 p0 的选取无关？

3.如果极限存在，并且与 p0 的选取无关，它作为网页排序的依据是否真的合理？

如果这三个问题的答案都是肯定的，那么网页排序问题就算解决了。反之，哪怕只有一个问题的答案是否定的，网页排序问题也就不能算是得到满意的解决。那么实际答案如何呢？很遗憾，是后一种，而且是其中最糟糕的情形，即三个问题的答案全都是否定的。这可以由一些简单的例子看出。比方说，在只包含两个相互链接网页的迷你型互联网上，如果 p0 =(1， 0)t，极限就不存在(因为几率分布将在(1， 0)t和(0， 1)t 之间无穷振荡)。而存在几个互不连通(即互不链接)区域的互联网则会使极限——即便存在——与 p0 的选取有关(因为把 p0 选在不同区域内显然会导致不同极限)。至于极限存在，并且与 p0 的选取无关时它作为网页排序的依据是否真的合理的问题，虽然不是数学问题，答案却也是否定的，因为任何一个“悬挂网页”都能象黑洞一样，把其它网页的几率“吸收”到自己身上(因为虚拟用户一旦进入那样的网页，就会由于没有对外链接而永远停留在那里)，这显然是不合理的。这种不合理效应是如此显著，以至于在一个连通性良好的互联网上，哪怕只有一个“悬挂网页”，也足以使整个互联网的网页排序失效，可谓是“一粒老鼠屎坏了一锅粥”。

为了解决这些问题，佩奇和布林对虚拟用户的行为进行了修正。首先，他们意识到无论真实用户还是虚拟用户，当他们访问到“悬挂网页”时，都不可能也不应该“在一棵树上吊死”，而是会自行访问其它网页。对于真实用户来说，自行访问的网页