简单的一类,即所谓的平稳马尔可夫过程(stationary markov process)[注一],而 h 则是描述转移概率的所谓转移矩阵(transition matrix)。不过普通马尔可夫过程中的转移矩阵通常是随机矩阵(stochastic matrix),即每一列的矩阵元之和都为 1 的矩阵(请读者想一想,这一特点的“物理意义”是什么?)[注二]。而我们的矩阵 h 却可能有一些列是零向量,从而矩阵元之和为 0,它们对应于那些没有对外链接的网页,即所谓的“悬挂网页”(dangling page)。
上述公式的求解是简单得不能再简单的事情,即:pn = hnp0
其中 p0 为虚拟读者初次浏览时访问各网页的几率分布(在佩奇和布林的原始论文中,这一几率分布被假定为是均匀分布)。
如前所述,佩奇和布林是用虚拟用户在经过很长(理论上为无穷长)时间的漫游后访问各网页的几率分布,即 limn∞pn,来确定网页排序的。这个定义要想管用,显然要解决三个问题:
1.极限 limn∞pn 是否存在?
2.如果极限存在,它是否与 p0 的选取无关?
3.如果极限存在,并且与 p0 的选取无关,它作为网页排序的依据是否真的合理?
如果这三个问题的答案都是肯定的,那么网页排序问题就算解决了。反之,哪怕只有一个问题的答案是否定的,网页排序问题也就不能算是得到满意的解决。那么实际答案如何呢?很遗憾,是后一种,而且是其中最糟糕的情形,即三个问题的答案全都是否定的。这可以由一些简单的例子看出。比方说,在只包含两个相互链接网页的迷你型互联网上,如果 p0 =(1, 0)t,极限就不存在(因为几率分布将在(1, 0)t和(0, 1)t 之间无穷振荡)。而存在几个互不连通(即互不链接)区域的互联网则会使极限——即便存在——与 p0 的选取有关(因为把 p0 选在不同区域内显然会导致不同极限)。至于极限存在,并且与 p0 的选取无关时它作为网页排序的依据是否真的合理的问题,虽然不是数学问题,答案却也是否定的,因为任何一个“悬挂网页”都能象黑洞一样,把其它网页的几率“吸收”到自己身上(因为虚拟用户一旦进入那样的网页,就会由于没有对外链接而永远停留在那里),这显然是不合理的。这种不合理效应是如此显著,以至于在一个连通性良好的互联网上,哪怕只有一个“悬挂网页”,也足以使整个互联网的网页排序失效,可谓是“一粒老鼠屎坏了一锅粥”。
为了解决这些问题,佩奇和布林对虚拟用户的行为进行了修正。首先,他们意识到无论真实用户还是虚拟用户,当他们访问到“悬挂网页”时,都不可能也不应该“在一棵树上吊死”,而是会自行访问其它网页。对于真实用户来说,自行访问的网页