燕谈 » 文教•科技 » 卢昌海：谷歌背后的数学

showcraft

总版主

Rank: 9 Rank: 9 Rank: 9 Rank: 9 Rank: 9

UID: 12226
帖子: 6753
精华: 10
性别: 男
来自: 上海
注册时间: 2008-4-12

访问个人博客

楼主

打印

字体大小: tT

发表于 2012-9-28 20:15 | 只看该作者

[转帖] 卢昌海：谷歌背后的数学

http://www.changhai.org/articles/technology/misc/google_math.php

谷歌背后的数学

- 卢昌海 -

在如今这个互联网时代，有一家家喻户晓的公司，它自 1998 年问世以来，在极短的时间内就声誉鹊起，不仅超越了所有竞争对手，而且彻底改观了整个互联网的生态。这家公司就是当今互联网上的第一搜索引擎：谷歌 (Google)。
在这样一家显赫的公司背后，自然有许许多多商战故事，也有许许多多成功因素。但与普通商战故事不同的是，在谷歌的成功背后起着最关键作用的却是一个数学因素。
本文要谈的就是这个数学因素。
谷歌作为一个搜索引擎，它的核心功能顾名思义，就是网页搜索。说到搜索，我们都不陌生，因为那是凡地球人都会的技能。我们在字典里查个生字，在图书馆里找本图书，甚至在商店里寻一种商品等，都是搜索。如果我们稍稍推究一下的话，就会发现那些搜索之所以可能，并且人人都会，在很大程度上得益于以下三条：

搜索对象的数量较小——比如一本字典收录的字通常只有一两万个，一家图书馆收录的不重复图书通常不超过几十万种，一家商店的商品通常不超过几万种等。
搜索对象具有良好的分类或排序——比如字典里的字按拼音排序，图书馆里的图书按主题分类，商店里的商品按品种或用途分类等。
搜索结果的重复度较低——比如字典里的同音字通常不超过几十个，图书馆里的同名图书和商店里的同种商品通常也不超过几十种。

但互联网的鲜明特点却是以上三条无一满足。事实上，即便在谷歌问世之前，互联网上的网页总数就已超过了诸如图书馆藏书数量之类传统搜索对象的数目。而且这还只是冰山一角，因为与搜索图书时单纯的书名搜索不同，互联网上的搜索往往是对网页内容的直接搜索，这相当于将图书内的每一个字都变成了搜索对象，由此导致的数量才是真正惊人的，它不仅直接破坏了上述第一条，而且连带破坏了二、三两条。在互联网发展的早期，象 Yahoo 那样的门户网站曾试图为网页建立分类系统，但随着网页数量的激增，这种做法很快就 “挂一漏万” 了。而搜索结果的重复度更是以快得不能再快的速度走向失控。这其实是可以预料的，因为几乎所有网页都离不开几千个常用词，因此除非搜索生僻词，否则出现几十万、几百万、甚至几千万条搜索结果都是不足为奇的。
互联网的这些 “不良特点” 给搜索引擎的设计带来了极大的挑战。而在这些挑战之中，相对来说，对一、二两条的破坏是比较容易解决的，因为那主要是对搜索引擎的存储空间和计算能力提出了较高要求，只要有足够多的钱来买 “装备”，这些还算是容易解决的。套用电视连续剧《蜗居》中某贪官的台词来说， “能用钱解决的问题就不是大问题”。但对第三条的破坏却要了命了，因为无论搜索引擎的硬件如何强大，速度如何快捷，要是搜索结果有几百万条，那么任何用户想从其中 “海选” 出自己真正想要的东西都是几乎不可能的。这一点对早期搜索引擎来说可谓是致命伤，而且它不是用钱就能解决的问题。

这致命伤该如何治疗呢？药方其实很简单，那就是对搜索结果进行排序，把用户最有可能需要的网页排在最前面，以确保用户能很方便地找到它们。但问题是：网页的水平千差万别，用户的喜好更是万别千差，互联网上有一句流行语叫做： “在互联网上，没人知道你是一条狗” (On the Internet, nobody knows you're a dog)。连用户是人是狗都 “没人知道”，搜索引擎又怎能知道哪些搜索结果是用户最有可能需要的，并对它们进行排序呢？
在谷歌主导互联网搜索之前，多数搜索引擎采用的排序方法，是以被搜索词语在网页中的出现次数来决定排序，出现次数越多的网页排在越前面。这个判据不能说毫无道理，因为用户搜索一个词语，通常表明对该词语感兴趣。既然如此，那该词语在网页中的出现次数越多，就越有可能表示该网页是用户所需要的。可惜的是，这个貌似合理的方法实际上却行不大通。因为按照这种方法，任何一个象祥林嫂一样翻来复去倒腾某些关键词的网页，无论水平多烂，一旦被搜索到，都立刻会 “金榜题名”，这简直就是广告及垃圾网页制造者的天堂。事实上，当时几乎没有一个搜索引擎不被 “祥林嫂” 们所困扰，其中最具讽刺意味的是：堪称互联网巨子的当年四大搜索引擎在搜索自己公司的名字时，居然只有一个能使之出现在搜索结果的前十名内，其余全被 “祥林嫂” 们挤跑了。
就是在这种情况下， 1996 年初，谷歌公司的创始人，当时还是美国斯坦福大学 (Stanford University) 研究生的佩奇 (Larry Page) 和布林 (Sergey Brin) 开始了对网页排序问题的研究。这两位小伙子之所以研究网页排序问题，一来是导师的建议 (佩奇后来称该建议为 “我有生以来得到过的最好建议”)，二来则是因为他们对这一问题背后的数学产生了兴趣。
网页排序问题的背后有什么样的数学呢？这得从佩奇和布林看待这一问题的思路说起。在佩奇和布林看来，网页的排序是不能靠每个网页自己来标榜的，无论把关键词重复多少次，垃圾网页依然是垃圾网页。那么，究竟什么才是网页排序的可靠依据呢？出生于书香门第的佩奇和布林 (两人的父亲都是大学教授) 想到了学术界评判学术论文重要性的通用方法，那就是看论文的引用次数。在互联网上，与论文引用相类似的是显然是网页链接。因此，佩奇和布林萌生了一个网页排序的思路，那就是通过研究网页间的相互链接来确定排序。具体地说，一个网页被其它网页链接得越多，它的排序就越靠前。不仅如此，佩奇和布林还进一步提出，一个网页越是被排序靠前的网页所链接，它的排序就也应该越靠前。这一条的意义也是不言而喻的，就好比一篇论文被诺贝尔奖得主所引用，显然要比被普通研究者所引用更说明其价值。依照这个思路，网页排序问题就跟整个互联网的链接结构产生了关系，正是这一关系使它成为了一个不折不扣的数学问题。
思路虽然有了，具体计算却并非易事，因为按照这种思路，想要知道一个网页 Wi 的排序，不仅要知道有多少网页链接了它，而且还得知道那些网页各自的排序——因为来自排序靠前网页的链接更 “值钱”。但作为互联网大家庭的一员， Wi 本身对其它网页的排序也是有贡献的，而且基于来自排序靠前网页的链接更 “值钱” 的原则，这种贡献与 Wi 的排序有关。这样一来，我们就陷入了一个 “先有鸡还是先有蛋” 的循环之中：想要知道 Wi 的排序，就得知道与它链接的其它网页的排序，而想要知道那些网页的排序，却又首先得知道 Wi 的排序。
为了打破这个循环，佩奇和布林采用了一个很巧妙的思路，即分析一个虚拟用户在互联网上的漫游过程。他们假定：虚拟用户一旦访问了一个网页后，下一步将有相同的几率访问被该网页所链接的任何一个其它网页。换句话说，如果网页 Wi 有 Ni 个对外链接，则虚拟用户在访问了 Wi 之后，下一步点击这些链接中任何一个的几率均为 1/Ni。初看起来，这一假设并不合理，因为任何用户都有偏好，怎么可能以相同的几率访问一个网页的所有链接呢？但如果我们考虑到佩奇和布林的虚拟用户实际上是对互联网上全体用户的一种平均意义上的代表，这条假设就不象初看起来那么不合理了。那么网页的排序由什么来决定呢？是由该用户在漫游了很长时间 (理论上为无穷长时间) 后访问各网页的几率分布来决定，访问几率越大的网页排序就越靠前。
为了将这一分析数学化，我们用 pi(n) 表示虚拟用户在进行第 n 次浏览时访问网页 Wi 的几率。显然，上述假设可以表述为 (请读者自行证明)：

pi(n+1) = Σj pj(n)pj→i/Nj

这里 pj→i 是一个描述互联网链接结构的指标函数 (indicator function)，其定义是：如果网页 Wj 有链接指向网页 Wi，则 pj→i 取值为 1，反之则为 0。显然，这条假设所体现的正是前面提到的佩奇和布林的排序原则，因为右端求和式的存在表明与 Wi 有链接的所有网页 Wj 都对 Wi 的排名有贡献，而求和式中的每一项都正比于 pj，则表明来自那些网页的贡献与它们的自身排序有关，自身排序越靠前 (即 pj 越大)，贡献就越大。
为符号简洁起见，我们将虚拟用户第 n 次浏览时访问各网页的几率合并为一个列向量 pn，它的第 i 个分量为 pi(n)，并引进一个只与互联网结构有关的矩阵 H，它的第 i 行 j 列的矩阵元为 Hij = pj→i/Nj，则上述公式可以改写为：

pn+1 = Hpn

这就是计算网页排序的公式。
熟悉随机过程理论的读者想必看出来了，上述公式描述的是一种马尔可夫过程 (Markov process)，而且是其中最简单的一类，即所谓的平稳马尔可夫过程 (stationary Markov process)[注一]，而 H 则是描述转移概率的所谓转移矩阵 (transition matrix)。不过普通马尔可夫过程中的转移矩阵通常是随机矩阵 (stochastic matrix)，即每一列的矩阵元之和都为 1 的矩阵 (请读者想一想，这一特点的 “物理意义” 是什么？)[注二]。而我们的矩阵 H 却可能有一些列是零向量，从而矩阵元之和为 0，它们对应于那些没有对外链接的网页，即所谓的 “悬挂网页” (dangling page)[注三]。
上述公式的求解是简单得不能再简单的事情，即：

pn = Hnp0

其中 p0 为虚拟读者初次浏览时访问各网页的几率分布 (在佩奇和布林的原始论文中，这一几率分布被假定为是均匀分布)。
如前所述，佩奇和布林是用虚拟用户在经过很长 (理论上为无穷长) 时间的漫游后访问各网页的几率分布，即 limn→∞pn，来确定网页排序的。这个定义要想管用，显然要解决三个问题：

极限 limn→∞pn 是否存在？
如果极限存在，它是否与 p0 的选取无关？
如果极限存在，并且与 p0 的选取无关，它作为网页排序的依据是否真的合理？

如果这三个问题的答案都是肯定的，那么网页排序问题就算解决了。反之，哪怕只有一个问题的答案是否定的，网页排序问题也就不能算是得到满意的解决。那么实际答案如何呢？很遗憾，是后一种，而且是其中最糟糕的情形，即三个问题的答案全都是否定的。这可以由一些简单的例子看出。比方说，在只包含两个相互链接网页的迷你型互联网上，如果 p0 = (1, 0)T，极限就不存在 (因为几率分布将在 (1, 0)T 和 (0, 1)T 之间无穷振荡)。而存在几个互不连通 (即互不链接) 区域的互联网则会使极限——即便存在——与 p0 的选取有关 (因为把 p0 选在不同区域内显然会导致不同极限)。至于极限存在，并且与 p0 的选取无关时它作为网页排序的依据是否真的合理的问题，虽然不是数学问题，答案却也是否定的，因为任何一个 “悬挂网页” 都能象黑洞一样，把其它网页的几率 “吸收” 到自己身上 (因为虚拟用户一旦进入那样的网页，就会由于没有对外链接而永远停留在那里)，这显然是不合理的。这种不合理效应是如此显著，以至于在一个连通性良好的互联网上，哪怕只有一个 “悬挂网页”，也足以使整个互联网的网页排序失效，可谓是 “一粒老鼠屎坏了一锅粥”。
为了解决这些问题，佩奇和布林对虚拟用户的行为进行了修正。首先，他们意识到无论真实用户还是虚拟用户，当他们访问到 “悬挂网页” 时，都不可能也不应该 “在一棵树上吊死”，而是会自行访问其它网页。对于真实用户来说，自行访问的网页显然与各人的兴趣有关，但对于在平均意义上代表真实用户的虚拟用户来说，佩奇和布林假定它将会在整个互联网上随机选取一个网页进行访问。用数学语言来说，这相当于是把 H 的列向量中所有的零向量都换成 e/N (其中 e 是所有分量都为 1 的列向量， N 为互联网上的网页总数)。如果我们引进一个描述 “悬挂网页” 的指标向量 (indicator vector) a，它的第 i 个分量的取值视 Wi是否为 “悬挂网页” 而定，如果是 “悬挂网页”，取值为 1，否则为零，并用 S 表示修正后的矩阵，则：

S = H + aeT/N

显然，这样定义的 S 矩阵的每一列的矩阵元之和都是 1，从而是一个不折不扣的随机矩阵。这一修正因此而被称为随机性修正 (stochasticity adjustment)。这一修正相当于剔除了 “悬挂网页”，从而可以给上述第三个问题带来肯定回答 (当然，这一回答没有绝对标准，可以不断改进)。不过，这一修正解决不了前两个问题。为了解决那两个问题，佩奇和布林引进了第二个修正。他们假定，虚拟用户虽然是虚拟的，但多少也有一些 “性格”，不会完全死板地只访问当前网页所提供的链接。具体地说，他们假定虚拟用户在每一步都有一个小于 1 的几率 α 访问当前网页所提供的链接，同时却也有一个几率 1-α 不受那些链接所限，随机访问互联网上的任何一个网站。用数学语言来说 (请读者自行证明)，这相当于是把上述 S 矩阵变成了一个新的矩阵 G：

G = αS + (1-α)eeT/N

这个矩阵不仅是一个随机矩阵，而且由于第二项的加盟，它有了一个新的特点，即所有矩阵元都为正 (请读者想一想，这一特点的 “物理意义” 是什么？)，这样的矩阵是所谓的素矩阵 (primitive matrix)[注四]。这一修正因此而被称为素性修正 (primitivity adjustment)。
经过这两类修正，网页排序的计算方法就变成了：

pn = Gnp0

这个算法能给上述问题提供肯定答案吗？是的，它能。因为随机过程理论中有一个所谓的马尔可夫链基本定理 (Fundamental Theorem of Markov Chains)，它表明在一个马尔可夫过程中，如果转移矩阵是素矩阵，那么上述前两个问题的答案就是肯定的。而随机性修正已经解决了上述第三个问题，因此所有问题就都解决了。如果我们用 p 表示 pn 的极限[注五]，则 p 给出的就是整个互联网的网页排序——它的每一个分量就是相应网页的访问几率，几率越大，排序就越靠前。
这样，佩奇和布林就找到了一个不仅含义合理，而且数学上严谨的网页排序算法，他们把这个算法称为 PageRank，不过要注意的是，虽然这个名称的直译恰好是 “网页排序”，但它实际上指的是 “佩奇排序”，因为其中的 “Page” 不是指网页，而是佩奇的名字。这个算法就是谷歌排序的数学基础，而其中的矩阵 G 则被称为谷歌矩阵 (Google matrix)。
细心的读者可能注意到了，我们还遗漏了一样东西，那就是谷歌矩阵中描述虚拟用户 “性格” 的那个 α 参数。那个参数的数值是多少呢？从理论上讲，它应该来自于对真实用户平均行为的分析，不过实际上另有一个因素对它的选取产生了很大影响，那就是 Gnp0 收敛于 p 的快慢程度。由于 G 是一个 N×N 矩阵，而 N 为互联网上——确切地说是被谷歌所收录的——网页的总数，在谷歌成立之初为几千万，目前为几百亿，是一个极其巨大的数字。因此 G 是一个超大型矩阵，甚至很可能是人类有史以来处理过的最庞大的矩阵。对于这样的矩阵， Gnp0 收敛速度的快慢是关系到算法是否实用的重要因素，而这个因素恰恰与 α 有关。可以证明， α 越小， Gnp0 的收敛速度就越快。但 α 也不能太小，因为太小的话， “佩奇排序” 中最精华的部分，即以网页间的彼此链接为基础的排序思路就被弱化了 (因为这部分的贡献正比于 α)，这显然是得不偿失的。因此，在 α 的选取上有很多折衷的考虑要做，佩奇和布林最终选择的数值是 α = 0.85。
以上就是谷歌背后最重要的数学奥秘。与以往那种凭借关键词出现次数所作的排序不同，这种由所有网页的相互链接所确定的排序是不那么容易做假的，因为做假者再是把自己的网页吹得天花乱坠，如果没有真正吸引人的内容，别人不链接它，一切就还是枉然[注六]。而且 “佩奇排序” 还有一个重要特点，那就是它只与互联网的结构有关，而与用户具体搜索的东西无关。这意味着排序计算可以单独进行，而无需在用户键入搜索指令后才临时进行。谷歌搜索的速度之所以快捷，在很大程度上得益于此。

谷歌公司创始人佩奇 (左) 和布林 (右)

在本文的最后，我们顺便介绍一点谷歌公司的历史。佩奇和布林对谷歌算法的研究由于需要收集和分析大量网页间的相互链接，从而离不开硬件支持。为此，早在研究阶段，他们就四处奔走，为自己的研究筹集资金和硬件。 1998 年 9 月，他们为自己的试验系统注册了公司——即如今大名鼎鼎的谷歌公司。但这些行为虽然近乎于创业，他们两人当时却并无长期从商的兴趣。 1999 年，当他们觉得打理公司干扰了自己的研究时，甚至萌生了卖掉公司的想法。他们的开价是一百万美元。与谷歌在短短几年之后的惊人身价相比，那简直就是 “跳楼大甩卖”。可惜当时却无人识货。佩奇和布林在硅谷 “叫卖” 了一圈，连一个买家都没找到。被他们找过的公司包括了当时搜索业巨头之一的 Excite (该公司后来想必连肠子都悔青了)。为了不让自己的心血荒废，佩奇和布林只得将公司继续办了下去，一直办到今天，这就是谷歌的 “发家史”。
谷歌成立之初跟其它一些 “发迹于地下室” (one-man-in-basement) 的 IT 公司一样寒酸：雇员只有一位 (两位老板不算)，工作场所则是一位朋友的车库。但它出类拔萃的排序算法很快为它赢得了声誉。公司成立仅仅三个月，《PC Magzine》杂志就把谷歌列为了年度最佳搜索引擎。 2001 年，佩奇为 “佩奇排序” 申请到了专利，专利的发明人为佩奇，拥有者则是他和布林的母校斯坦福大学。 2004 年 8 月，谷歌成为了一家初始市值约 17 亿美元的上市公司。不仅公司高管在一夜间成为了亿万富翁，就连当初给过他们几十美元 “赞助费” 的某些同事和朋友也得到了足够终身养老所用的股票回报。作为公司摇篮的斯坦福大学则因拥有 “佩奇排序” 的专利而获得了 180 万股谷歌股票。 2005 年 12 月，斯坦福大学通过卖掉那些股票获得了 3.36 亿美元的巨额收益，成为美国高校因支持技术研发而获得的有史以来最巨额的收益之一[注七]。
谷歌在短短数年间就横扫整个互联网，成为搜索引擎业的新一代霸主，佩奇和布林的那个排序算法无疑居功至伟，可以说，是数学成就了谷歌[补注一]。当然，这么多年过去了，谷歌作为 IT 界研发能力最强的公司之一，它的网页排序方法早已有了巨大的改进，由当年单纯依靠 “佩奇排序” 演变为了由两百多种来自不同渠道的信息 (其中包括与网页访问量有关的统计数据) 综合而成的更加可靠的方法。而当年曾给佩奇和布林带来过启示的学术界，则反过来从谷歌的成功中借鉴了经验，如今一些学术机构对论文影响因子 (impact factor) 的计算已采用了类似 “佩奇排序” 的算法。
在本文的最后，还有一件事情在这里提一下，那就是与佩奇和布林研究排序算法几乎同时，有另外几人也相互独立地沿着类似的思路从事着研究[注八]。他们中有一位是当时在美国新泽西州工作的中国人，他的算法后来也成就了一家公司——一家中国公司。此人的名字叫做李彦宏 (Robin Li)，他所成就的那家公司就是百度。这些新公司的发展极好地印证了培根 (Francis Bacon) 的一句名言：知识就是力量。

注释

马尔可夫过程，也称为马尔可夫链 (Markov chain)，是一类离散随机过程，它的最大特点是每一步的概率分布都只与前一步有关。而平稳马尔可夫过程则是指转移概率与步数无关的马尔可夫过程 (体现在我们的例子中，即 H 与 n 无关)。另外要说明的是，本文在表述上不同于佩奇和布林的原始论文，后者并未使用诸如 “马尔可夫过程” 或 “马尔可夫链” 那样的术语，也并未直接运用这一领域内的定理。
在更细致的分类中，这种每一列的矩阵元之和都为 1 的随机矩阵称为左随机矩阵 (left stochastic matrix)，以区别于每一行的矩阵元之和都等于 1 的所谓右随机矩阵 (right stochastic matrix)。这两者在应用上基本是等价的，区别往往只在于约定。
这种几乎满足随机矩阵条件，但有些列 (或行) 的矩阵元之和小于 1 的矩阵也有一个名称，叫做亚随机矩阵 (substochastic matrix)。
确切地说，这种所有矩阵元都为正的矩阵不仅是素矩阵，而且还是所谓的正矩阵 (positive matrix)。这两者的区别是：正矩阵要求所有矩阵元都为正，而素矩阵只要求自己的某个正整数次幂为正矩阵。
读者们想必看出来了， p 其实是矩阵 G 的本征值为 1 的本征向量，而利用虚拟用户确定网页排序的思路其实是在用迭代法解决上述本征值问题。在数学上可以证明，上述本征向量是唯一的，而且 G的其它本征值 λ 全都满足 |λ|<1 (更准确地说，是 |λ|≤α ——这也正是 Gnp0 的收敛速度与 α 有关的原因)。
当然，这绝不意味着在网页排序上已不可能再做假。相反，这种做假在互联网上依然比比皆是，比如许多广告或垃圾网页制造者用自动程序到各大论坛发贴，建立对自己网页的链接，以提高排序，就是一种常见的做假手法。为了遏制做假，谷歌采取了很多技术手段，并对有些做假网站采取了严厉的惩罚措施。这种惩罚 (有时是误罚) 对于某些靠互联网吃饭的公司有毁灭性的打击力。
从投资角度讲，斯坦福大学显然是过早卖掉了股票，否则获利将更为丰厚。不过，这正是美国名校的一个可贵之处，它们虽擅长从支持技术研发中获利，却并不唯利是图。它们有自己的原则，那就是不能让商业利益干扰学术研究。为此，它们通常不愿长时间持有特定公司的股票，以免在无形中干扰与该公司存在竞争关系的学术研究的开展。
那些研究与 “佩奇排序” 的类似仅仅在于大方向 (即都利用互联网的链接结构来决定网页排序)，而非具体算法类似。

参考文献

D. Austin, How Google Finds Your Needle in the Web's Haystack.
J. Battelle, The Birth of Google, Wired (August 2005).
S. Brin and L. Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine, Seventh International World-Wide Web Conference, April 14-18, 1998, Brisbane, Australia.
O. Ibe, Markov Processes for Stochastic Modeling, (Elsevier Academic Press, 2009).
A. N. Langville and C. D. Meyer, Google's PageRank and Beyond: The Science of Search Engine Rankings, (Princeton University Press, 2006).
C. Rousseau and Y. Saint-Aubin, Mathematics and Technology, (Springer, 2008).

二零一零年十二月四日写于纽约
二零一零年十二月五日发表于本站
http://www.changhai.org/

补注

有些读者对 “是数学成就了谷歌” 这一说法不以为然，认为是佩奇和布林的商业才能，或将数学与商业结合起来的才能成就了谷歌。这是一个见仁见智的问题，看法不同不足为奇。我之所以认为是数学成就了谷歌，是因为谷歌当年胜过其它搜索引擎的地方只有算法。除算法外，佩奇和布林当年并无其它胜过竞争对手的手段，包括商业手段。如果让他们去当其它几家搜索引擎公司的老总，用那几家公司的算法，他们是不可能脱颖而出的；而反过来，如果让其它几家搜索引擎公司的老总来管理谷歌，用谷歌的算法，我相信谷歌依然能超越对手。因此，虽然谷歌后来确实用过不少出色的商业手段 (任何一家那样巨型的公司都必然有商业手段上的成功之处)，而当年那个算法在今天的谷歌——如正文所述——则早已被更复杂的算法所取代，但我认为谷歌制胜的根基和根源在于那个算法，而非商业手段，因此我说 “是数学成就了谷歌”。 [2011-01-01]

收藏分享评分

豆瓣http://www.douban.com/people/knowcraft
博客http://www.yantan.cc/blog/?12226
微博http://weibo.com/1862276280

回复引用

订阅 TOP

showcraft

总版主

Rank: 9 Rank: 9 Rank: 9 Rank: 9 Rank: 9

UID: 12226
帖子: 6753
精华: 10
性别: 男
来自: 上海
注册时间: 2008-4-12

访问个人博客

沙发

发表于 2012-9-28 20:17 | 只看该作者

http://blog.csdn.net/MONKEY_D_MENG/article/details/6554518

深入探讨PageRank（一）：PageRank算法原理入门

一、PageRank简介

大名鼎鼎的PageRank算法是Google排名运算法则（排名公式）的一个非常重要的组成部分，其用于衡量一个网站好坏的标准。在揉合了诸如Title、Keywords标识等所有其它因素之后，Google利用PageRank来调整网页的排名，使得“等级/重要性”的网页会相对排在前面。简单来说，Google通过下述几个步骤来实现网页在其搜索结果页面中排名：

（1）找到所有与搜索关键词匹配的网页

（2）根据页面因素如标题、关键词密度等排列等级

（3）计算导入链接的锚文本中关键词

（4）通过PageRank得分调整网站排名结果

事实上，真正的网站的排名过程并非这么简单，我们会在后面进行详细深入阐述。

PageRank于2001年9月被授予美国专利，专利人是Google创始人之一的拉里.佩奇（Larry Page）。所以，PageRank里面的Page并不是指网页，而是指佩奇~PageRank对于网页重要性的级别分为1~10级，10级为满级。PR值越高说明该网页越受欢迎，也即越重要。一个PR值为1的网站表明该网站不具备流行度，而PR值为7~10的网站则表明该网站是非常受欢迎的，或者说极其重要。一般PR值达到4，就算是一相当不错的网站了。Google把自己网站的PR值设置为10~类似里氏震级，PageRank级别并不是线性增长的，而是按照一种指数刻度，打个比方PageRank4比PageRank3虽然只是高了一级，但却在影响力上高上6~7倍，因此，一个PageRank5的网页和一个PageRank8的网页之间差距会比你可能认为的要大的多。

在讨论之前，先介绍两个概念：导入链接，又称逆向链接，是指链至你网站的站点，也就是我们一般所说的外部链接。而当你链至另外一个站点，那么这个站点就是你的导出链接，即你向其他网站提供本站的链接。

PageRank的思路很简单，打个比方：如何判断一篇论文的价值，即被其他论文引述的次数越多就越重要，如果被权威的论文引用，那么该论文也很重要。PageRank就是借鉴于这一思路，根据网站的外部链接和内部链接的数量和质量来衡量这个网站的价值，相当于每个到该页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。这个就是所谓的链接流行度----衡量多少人愿意将他们的网站和你的网站挂钩。

搜索引擎网站排名算法中各排名因子的重要性取决于它们所提供信息的质量。但如果排名因子具有易操纵性，则往往会被一些网站管理员利用来实现不良竞争。例如初引入的排名因子之一----关键词元标识（Meta Keywords），是由于理论上它可以很好地概括反映一个页面的内容，但后来却由于一些网站管理员的恶意操纵而不得不黯然退出。

PageRank最初推出时针对的只是链接的数量，PageRank值较高的页面排名往往要比PageRank值较低的页面高，这导致了人们对于链接引用的着魔。在过去几年间，整个SEO社区人们忙于争夺、交换甚至销售链接，它是人们关注的焦点，所以被一些网站管理员钻了空子，利用链接工厂和访问簿大量低劣外部链接轻而易举地达到了自己的目的。Google意识到这个问题之后，便在系统中融合了对链接质量分析，开始放弃某些类型的链接，并对发现作弊的站点进行封杀，从而不但有效地打击了这种作法，而且保证了结果的和精准度。比如，被人们广泛接受的一条规定，来自缺乏内容的“link farm”（链接工厂）网站的链接将不会提供页面的PageRank，从PageRank较高的页面得到的链接但是内容不相差，比如说某个流行音乐网站链接到一个汽车网站就不会提供页面的PageRank。Google选择降低了对PageRank的更新频率，以便不鼓励人们不断地对其进行监测。

PageRank一般一年更新4次，所以刚上线不久的新网站是不可能获得PR值的。你的网站很有可能在相当长的时间内是看不到PR值的变化的，特别是一些新的网站。PR值暂时没有，这不是什么不好的事情，耐心等待就好~
那么，我们如何知道一个网页的PageRank值呢？可以从http://toolbar.google.com上下载安装Google工具栏，这样就能显示所浏览网页的PageRank值了。若不能显示，可检查所安装版本号，需将老版本完全卸载，重启机器后安装最新版本即可

为你的网站获得外部的链接是一件好事，但是无视其他SEO领域的工作而进行急迫的链接建设就是在浪费时间，要时刻保持一个整体思路并记住以下几点：

（1）Google的排名算法并不是完全基于外部链接的。

（2）高PageRank并不能保证Google的高排名。

（3）PageRank值更新的比较慢，今天看到的PageRank的值可能是三个月前的值。

一般来说，网站排名因素包括网页的标题（META TITLE），网页正文中的关键词密度，锚文本（也叫链接文本，指链接或超链的文本内容）和PageRank所决定的。请记住：单靠PageRank是无法使你获得比较理想的网站排名的。PageRank只是网站排名算法中的一个乘积因子，若你网站的其它排名因子的得分是0，就算你的PageRank值是1个亿都木有用，最后得分还是0。但这并不是说PageRank就毫无价值，而是在什么情况下PageRank能够完全发挥其功力。

如果在Google上进行广泛搜索，看起来好象有几千个结果，但实际显示最多前1000项结果。例如对“car rental”，显示搜索结果为5,110,000，但实际显示结果只有826个。而且用时只有0.81秒。试想一下，0.84秒的时间就可以计算这五百万搜索结果的每个排名因子得分，然后给出最终我们所看到的网站排名结果吗？

答案就在于：搜索引擎选取与查询条件最相关的那些网页形成一个子集来加快搜索的速度。例如：假设子集中包含2000个元素，搜索引擎所做的就是使用排名因子中的两到三个因素对整个数据库进行查询，找到针对这两三个排名因子得分较高的前2000个网页。(请记住，虽然可能有五百多万搜索结果，但最终实际显示的1000项搜索结果却是从这个2000页的子集中提炼出来的。) 然后搜索引擎再把所有排名因子整合进这2000项搜索结果组成的子集中并进行相应的网站排名。由于按相性进行排序，子集中越靠后的搜索结果(不是指网页)相关性(质量)也就越低，所以搜索引擎只向用户显示与查询条件最相关的前1000项搜索结果。

请注意，在搜索引擎生成这2000项网页的子集中我们强调了“相关性”这个词。即搜索引擎找寻的是与查询条件有共同主题的网页。如果这时候我们把PageRank考虑进去，就很可能得到一些PageRank很高但主题只是略微相关的一些搜索结果。显然这有违搜索引擎为用户提供最为相关和精准的搜索结果的原则。

一旦理解了为什么会如此，就说明了为什么你应当首先努力在“页面”因子和锚文本上下足工夫，最后才是PageRank。所以关键在于：你必须首先在页面因素和/或锚文本上下足工夫，使这些排名因子能够获得足够的得分，从而使你的网站能够按目标关键词跻身于这2,000项搜索结果的子集中，否则PageRank再高也与事无补。

因此，我们不鼓励刻意地去追求PageRank，因为决定排名的因素可以有上百种。尽管如此，PageRank还是一个用来了解Google对你的网站页面如何评价的相当好的指标，建议网站设计者要充分认识PageRank在Google判断网站质量的重要作用，从设计前的考虑到后期网站更新都要给予PageRank足够的分析，很好的利用。我们要将PageRank看作一种业余爱好而不是一种信仰。

二、PageRank原理

通过对由超过50000万个变量和20亿个词汇组成的方程进行计算，PageRank能够对网页的重要性做出客观评价。PageRank并不计算直接链接的数量，而是将从网页A指向网页B的链接解释为由网页A对网页B所投的一票。这样，PageRank会根据网页B所收到的投票数量来评估该网页的重要性。此外，PageRank还会评估每个投票网页的重要性，因为某些重要网页的投票被认为具有较高的价值，这样，它所链接的网页就能获得较高的价值。这就是PageRank的核心思想，当然PageRank算法的实际实现上要复杂很多。

但是问题又来了，计算其他网页PageRank的值需要用到网页本身的PageRank值，而其他网页的PageRank值反过来又影响本网页的PageRank的值，这不就成了一个先有鸡还是先有蛋的问题了吗？Google的两个创始人拉里.佩奇（Larry Page）和谢耳盖.布林（Sergey Brin）把这个问题变成一个二维矩阵相乘的问题，并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的，并且根据这个初始值，算出各个网页的第一次迭代的排名，然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取，这种算法都将能够保证了网页排名的估计值能够收敛到它们就有的真实值。值得一提的是，这种算法的执行是完全没有任何人工干预的。

理论问题解决了，但在实际的应用中，互联网上网页的数量是巨大的，上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有10亿个网页，那么这个矩阵就要有100亿亿个元素。这样大的矩阵相乘，计算量是非常之大。怎么办？怎么办？Larry和Sergey两利用稀疏矩阵计算的技巧，大大简化了计算量，并实现了这个网页排名算法。今天Google的工程师把这个算法移植移植到并行的计算机中，进一步缩短了计算的时间，使得网页的周期比以前短了许多。

网页排名的高明之处在于它把整个互联网当作了一个整体对等。它无意识中符合了系统论的观点。相比之下，之前的信息检索大多把每一个网页当作独立的个体对等，很多人当初只注意了网页的内容和查询语句的相差性，忽略了网页之间的关联。

今天，Google搜索引擎比最初复杂、完善了许多。但是网页的排名在Google所有算法中依然是到头重要的。在学术界，这个算法被公认为是文献检索中最大的贡献之一，并且被很多大学引入了信息检索课程的教程。

在计算网站排名时，PageRank会将网站的外部链接数考虑进去。并不能说一个网站的外部链接数越多其PR值就越高，如果这样的话，一个网站尽可能地获得最多的外部链接就OK了，这种想法是错误的。Google对一个网站上的外部链接数的重视程度并不意味着你因此可以不求策略与任何网站建立连接。这是因为Google并不是简单地由计算网站的外部链接数来决定其等级的。Google的PageRank系统不单考虑一个网站的外部链接数量，也会考虑其质量，这个问题看来很复杂。

首先来解释一下阻尼系数：当你投票或链接到另外一个站点时所获得的实际PR分值。阻尼系数一般是0.85。当然比起你网站的实际PR值，它就显得微不足道了。具体的PR值计算公式为：

PR(A) = (1 - d) + d (PR(t1) / C(t1) + … + PR(tn) / C(tn))
其中，PR(A)表示从一个外部链接站点t1上，依据PageRank系统给你的网站所增加的PR值。PR(t1)表示该外部链接网站本身的PR值，C(t1)表示该外部链接站点所拥有的外部链接数量。大家要谨记：一个网站的投票权值只有该网站PR值的0.85倍。

必须要注意的一点是：PageRank不单考虑一个网站的外部链接质量，还需要考虑其数量。打个比方：对于网站X而言，网站Y是它唯一的一个外部链接，那么Google就相信网站X将网站Y视为它最好的一个外部链接，从而给网站Y更多的分值。可是，如果网站X上已经存在了49个外部链接，那么Google就相信网站X只是将网站Y视为它第50个好网站。因而一个网站上外部链接的数量越多，它所能够提供的PR值则会越低。如果一个PR值大于等于6的外部链接站点，可显著提升你的PR值。但如果这个外部链接站点已经有100个其它的外部链接时，那么你能够得到的PR值就几乎为0了。同样，如果一个外部链接站点PR值为2，但你却是它唯一一个外部链接，那么你所能够获得的PR值要远远大于那个PR值为6，外部链接数为100的网站。

影响Google PageRank的几个重要因素：

（1）与PR高的网站做链接

（2）内容质量高的网站链接

（3）加入搜索引擎分类目录

（4）加入免费开源目录

（5）你的链接出现在流量大、知名度高、频繁更新的重要网站上

（6）Google对PDF格式的文件比较看重

（7）域名和Title标题出现关键词与Meta标签等

（8）反向链接数量和反向链接等级

（9）Google抓取你网站的页面数量

（10）导出链接数量

PageRank和其他排名因子之间存在不同：网页Title标识仅能被列出一次；正文中出现的关键词连续的重复只会降低关键词的重要性，重要的是接近度；锚文本加权值极高，但存在上限，超过上限的锚文本信息将被忽略或降低权值；PageRank潜质无穷，没有上限的限制，但需要大量工作。除了PageRank外，其它排名因子都存在一个阙值，也叫临界值或差值。即当增长到一定值时，因子的重要性反而开始慢慢降低，则该值就是非PageRank因子的阙值。

设阙值为1000，如果网页A和B是我们对某一查询条件的其中两个查询结果，且A的总分数(包括页面因子得分和PageRank得分)是900，B是500，则显然A会排在B的前面。但由于A和B的分数均低于我们上面假设的非PageRank因子阙值，因而在不改变PageRank的情况下，我们可以通过对B页进行精心的页面优化使页面因子分数得到提高来使其排名超过A。但如果A的总得分升至1100分，则B若还只是一味优化页面因子是远远不够的。在这种情况下，提升PageRank就成为首要任务了。

一般说来，Google的查询结果页中既可能包含一些分数超过阙值的网页，也可能包含一些分数低于阙值的网页。所以为了提高竞争能力，必须在阙值范围内尽可能提高页面的搜索引擎排名得分，否则会降低页面的竞争力。“页面因子”是接近和达到阙值最迅捷的方式，它与PageRank的结合使用才是提升网站排名得分的最佳优化策略。阙值解释了搜索引擎商所遵循的原则和不同的实施途径，同时亦阐述了为什么会产生关于PageRank的一些误解。我们可以把这两种策略当成两个人A和B。

A认为“PageRank”并不重要。他们已有数年网页优化经验并知道如何完美地利用“页面因素”来达到优化的目的。他们亦理解基本的锚文本，但对PageRank得分毫不在意。结果如何呢？由于最大化地使用了“页面因子”，从而使A迅速达到“非PageRank因子的阙值”。所以通过精心选择关键词可使他们获得较好的网站排名。而且只要网站内容比较好，随着时间推移总会有排名高的站点链接，涓涓细流汇成河。A最后亦得到了PageRank得分，并籍此巩固了排名。

B认为“PageRank”十分重要。他掌握了很多关于提升PageRank得分的信息，并为提高该得分下足了工夫。结果又如何呢？B的做法和A相反，但A在非PageRank因子上下工夫，结果却得到了PageRank得分。而B在PageRank因子上下工夫，结果却得到非PageRank因子得分。究其原因，就是由于提高PageRank得分需要外部链接，链接又具有锚文本，从而通过精心挑选外部链接的锚文本，B自发提高了其非PageRank因子的得分，从而赢得了较高的PageRank得分。虽然这只是两个极端，但我们可以利用它们来推知这两种途径各自的优缺点：

A：忽略PageRank 网站排名在短期内就可得到提升，自我生成链接节省了工作量，需投入大量工作维持网站排名，对新竞争者的应变速度较慢。

B：忽略页面排名因子，可获得可靠网站排名，并可在需要时轻松修改页面因素使排名迅速提升，极可能从非搜索类引擎来源上获得更高访问量，网站排名提升较慢，操作难度较大，容易为SPAM过滤程序所制。

事实上，我们前面说过，最终排名得分=所有非PageRank因子实际得分x实际PageRank得分。亦即二者相辅相成，再加上随着网上营销方式的发展壮大，关键词的竞争也变的愈来愈激烈，这种情况下只靠非PageRank因子得到好排名显然是不可能的。而且非PageRank因子存在着阙值的局限性。同时，对于竞争性极高的关键词，还存在着PageRank下限的问题。也就是说，除非网站的PageRank得分超过这个下限标准，否则网站排名很难上去。PageRank的下限由关键词的竞争度所决定。竞争性一般的关键词PageRank下限也不高，而对竞争较为激烈的关键词来说，它所要求的PageRank下限相应就要高。而PageRank得分的提升又非常有难，这时候非PageRank因子就变的非常重要了。

综上所述：我们需要充分发挥各排名因子的优势来赢取理想的综合排名得分。同时关键词（竞争度适宜）的精心选择亦变的非常重要，它可以节省大量的支出。

三、总结

关于PageRank，最权威的发言人自然还是Google。虽然Google不会也不可能提供相关的技术信息，但我们亦可从中窥得一斑：

Chris：PageRank的命名是基于“Page”，还是和某个创始人有关？

Google：PageRank是以Google的联合创始人兼总裁Larry Page的名字命名的。

Chris：Google是否把PageRank视做显著区别于其它搜索引擎的一个特性？

Google：PageRank是一种能够使Google在搜索速度和搜索结果的相关性上区别于其它搜索引擎的技术。不唯如此，在排名公式中Google还使用了100种其它的算法。

Chris：Google是否认为引入PageRank可以显著提高搜索结果的质量？以后是否仍将继续使用PageRank？

Google：由于PageRank使用了量化方法来分析链接，所以它仍将是决定Google搜索结果页排名的一个重要因素。

Chris：您认为Google工具栏上的PageRank的信息对普通用户/网站管理员/搜索引擎优化专家来说各有什么意义？

Google：Google工具栏上所提供的PageRank信息仅作为一种网站评估信息使用。用户们会觉得它很有趣，网站管理员一般用它来衡量网站性能。不过，由于PageRank只是一个大体评估，所以对搜索引擎专家的价值并不大。

Chris：常有网站试图通过“链接工厂”和访客簿的手段达到提升PageRank的目的。对这样的网站Google有什么举措？

Google：Google的工程师会经常更新Google的排名算法以防止对Google排名的恶意操纵。

选择导入链接时应首先考虑对方网站的内容如何，然后再考察其导出链接的数量进行决策。而在建立本站的导出链接时则应尽量使自己网站的PageRank维持在最大回馈和最小流失上。应确保合理的网站设计结构和内部联接方式。网站的结构和内部联接方式也会对PageRank产生影响，可利用其特性有效进行PagaRank在网站内部页面的再分布及尽可能保持网站整体的PageRank。网站的PageRank的提升应与该网站的访问者体验息息相关。即使获得再高的PageRank，如果没有客户访问，一样毫无价值。所以网站的内容始终是提升PageRank最关键的因素之一。

豆瓣http://www.douban.com/people/knowcraft
博客http://www.yantan.cc/blog/?12226
微博http://weibo.com/1862276280

回复引用

TOP

showcraft

总版主

Rank: 9 Rank: 9 Rank: 9 Rank: 9 Rank: 9

UID: 12226
帖子: 6753
精华: 10
性别: 男
来自: 上海
注册时间: 2008-4-12

访问个人博客

板凳

发表于 2012-9-28 20:45 | 只看该作者

相对于网民无人不知的聊天工具QQ而言，32岁的QQ创始人马化腾还是算很不出名，但这并不妨碍他成为国内互联网上一匹狂奔的黑马。在过去的一年里，凭借手中掌握的3.5亿QQ注册用户资源，马化腾不仅将自己的腾讯科技推上了香港股市，在业务上也突破聊天工具的范围，出人意料地建立起目前国内最大的休闲游戏平台和紧跟三大门户之后的门户网站。

　　但谁曾想到，仅仅就在4年前的2000年前后，由于自己无力继续投资，马化腾曾经到处叫卖自己的公司，当时他开价100万元，结果包括深圳电信数据局、搜狐等在内买家都拒绝接受这个价格。

什么叫眼光？就是在1999年，你拿100万美元去硅谷买google，然后2000年拿100万人民币去深圳买腾讯。

豆瓣http://www.douban.com/people/knowcraft
博客http://www.yantan.cc/blog/?12226
微博http://weibo.com/1862276280

回复引用

TOP

psyzjs

雅士

Rank: 4 Rank: 4 Rank: 4 Rank: 4

UID: 2012
帖子: 4949
精华: 0
性别: 男
注册时间: 2004-10-19

访问个人博客

4楼

发表于 2012-9-28 21:52 | 只看该作者

先验信息仍然是重要的。

主帖中貌似遗漏了这点。

没有先验信息的概型几乎没有研究与应用的价值。

大树就是个广济寺旁穷扫地的.

回复引用

TOP

showcraft

总版主

Rank: 9 Rank: 9 Rank: 9 Rank: 9 Rank: 9

UID: 12226
帖子: 6753
精华: 10
性别: 男
来自: 上海
注册时间: 2008-4-12

访问个人博客

5楼

发表于 2012-11-14 12:16 | 只看该作者

http://www.bghseo.com/htm/2009811/477.htmPageRank，网页排名，又称网页级别、Google左侧排名或佩奇排名
Net Reprint 时间:2009-8-11

http://www.bghseo.com BGHSEO网站优化管理顾问

搜索引擎优化的最高境界是忘记搜索引擎优化。
7月份PageRank快要更新, 虽说PR值现在Google算法中占的比例越来越小，但是当PR值更新时，看到自己的网站PR又升了，对于站长来说，还是有那种满足感,自豪感的。以下内容可能是比较旧点，就算是重新温故一下，风采依扬也会把自己的一些经验及看法写进里面。 PageRank，网页排名，又称网页级别、Google左侧排名或佩奇排名。PageRank™是以公司創辦人拉里·佩奇（Larry Page）命名。是一种由搜索引擎根据网页之间相互的超链接计算的网页排名。它经常和搜索引擎优化有关。 PageRank系统被Google用来体现网页的相关性和重要性。Google的创始人拉里·佩奇和谢尔盖·布林1998年在斯坦福大学发明了这项技术。首先让我们看看Google官方网站是怎么介绍它们自己的技术的： PageRank 技术：通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算，PageRank 能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量，而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样，PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。此外，PageRank 还会评估每个投票网页的重要性，因为某些网页的投票被认为具有较高的价值，这样，它所链接的网页就能获得较高的价值。重要网页获得的 PageRank（网页排名）较高，从而显示在搜索结果的顶部。Google 技术使用网上反馈的综合信息来确定某个网页的重要性。搜索结果没有人工干预或操纵，这也是为什么 Google 会成为一个广受用户信赖、不受付费排名影响且公正客观的信息来源。 2005年初，Google 为网页链接推出一项新属性 nofollow，令网站管理员和SEOer可以做出一些 Google 不会計算為投票的链接；这些链接不算作”投票”。nofollow 的设置可以抵制评论垃圾。风采依扬在网上收集了一些关于PageRanK的算法，整理了一下，PageRank大体可以分为二种：

一、简单算法：
例如一个由4个页面组成的小团体：A，B， C 和 D。如果所有页面都链向A，那么A的PR（PageRank）值将是B，C 及 D的和。
PR(A) = PR(B) + PR(C) + PR(D)
继续假设B也有链接到C，并且D也有链接到包括A的3个页面。一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑，D投出的票只有三分之一算到了A的 PageRank 上。

风采依扬觉得，根据链处总数平分一个页面的PR值。

最后，所有这些被换算为一个百分比再乘上一个系数q。由于下面的算法，没有页面的PageRank会是0。所以，Google通过数学系统给了每个页面一个最小值1 − q。

所以一个页面的 PageRank 是由其他页面的PageRank计算得到。Google 不断的重复计算每个页面的 PageRank。如果您给每个页面一个随机 PageRank 值（非0），那么经过不断的重复计算，这些页面的 PR 值会趋向于正常和稳定。这就是搜索引擎使用它的原因。
二、完整的算法：
这个方程式引入了随机浏览的概念，即有人上网无聊随机打开一些页面，点一些链接。一个页面的PageRank值也影响了它被随机浏览的概率。为了便于理解，这里假设上网者不断点网页上的链接，最终到了一个没有任何链出页面的网页，这时候上网者会随机到另外的网页开始浏览。
为了对那些有链出的页面公平，q = 0.15(q的意义见上文)的算法被用到了所有页面上, 估算页面可能被上网者放入书签的概率。
所以，这个等式如下:

p1,p2,…,pN是被研究的页面，M(pi)是链入pi页面的数量，L(pj)是pj链出页面的数量，而N是所有页面的数量
PageRank值是一个特殊矩阵中的特征向量。这个特征向量为

R是等式的答案

如果pj不链向pi, 而且对每个j都成立时，等于 0

这项技术主要的弊端是，旧的页面等级会比新页面高，因为新页面，即使是非常好的页面，也不会有很多链接，除非他是一个站点的子站点。
这就是 PageRank 需要多项算法结合的原因。之前石头也说了wikipedia.com在google的一些关键词内表现很好整体的访问量超过一些门户网站，另一方面也是数万网民的共同努力。
Google对维基百科情有独钟之一，风采依扬想应该是：PageRank 似乎倾向于维基百科页面，在条目名称的搜索结果中总在大多数或者其他所有页面之前。原因主要是维基百科内相互的链接很多，并且有很多站点链入。
Google 经常处罚恶意提高 PageRank 的行为。Google 究竟怎样区分正常的链接交换和不正常的链接堆积仍然是商业机密。
相信看完以上内容后对PageRank了解更深入。
我们可以知道搜索引擎用来评估网页质量的一种方法，就是PageRank，它经常被用来当作对Google搜索引擎网页要素评分之一。
你可以找到任何网页的PageRank分数，通过使用你的浏览器去浏览网页，并下载GOOGLE工具栏。将你的鼠标放在绿色的PageRank栏上，马上就会显示出一个从0到10之间的数字，这就是PageRank值，是google对该页面的重要性的分配。工具栏按照PageRank比例范围显示出网页的PageRank，但是在现在的PageRank算法中就是不单单是0到10的数据了，在google的服务器中，PageRank的分配数有可能是0精确到100，甚至是到1000的数值。
PageRank是平均每三个月更新一次的，它不是按照一般的线性刻度计算，而是按照一种指数刻度。这是一种非常繁杂的数学术语（之前文章也有提到），意思是PageRank4不是比PageRank3好一级—而是会好6到7倍。因此一个PageRank5的网页和PageRank8的网页之间的差距会比你可能认为的要大很多。
PageRank值在这几天要更新了，我们谈谈现在PR的算法吧！当一个网页链接到你的网页时，搜索引擎是怎样转移这个网页的权威性到你的网站的（也就是PageRank的转移）。因此你希望从有最高PageRank得分的网页上获得链接，去不断的寻找高PR的站点，是不是呢？
这种方式在以前还管用，但是现在实际情况比这复杂了很多，一个权威性的转移与网页上存在的链接数量有关—链接越少，每个链接所转移的权威性就越高，因些，通常PageRank5网页上唯一的链接要比PageRank7上一百个链接中的一个要有价值。当然这也是有前提的，就是站于站之间的链接内容相似度要高一些。

豆瓣http://www.douban.com/people/knowcraft
博客http://www.yantan.cc/blog/?12226
微博http://weibo.com/1862276280

回复引用

TOP

psyzjs