Only Me and Me

慢慢看就知道了

Google抄Baidu or Baidu抄Google?

两个礼拜Keso写了一个考证百度和Google的技术专利起源的帖子,见此,结果招来无数的口水,仔细读了文章和后面无数的reply,觉得精彩纷呈。今天我也拿来聊聊,顺便也给自己对这件公案的结论作个理清。

事情的大致主题是蛮清楚的:百度(or maybe李彦宏, Robin Li)一直明里暗里地说基于超链接(hyperlink)分析的搜索技术是Robin Li首创的。百度或者李彦宏本人倒是没有直接说过Google也是参考了他的思路这类的狂话(至少我没发现过),不过至少是想在名分上给自己争到这个"首创"的。而Google作为搜索的老大,再加上创始人Stanford大学PhD的research背景,自然是不需要去给自己正名什么。

不过百度这样那样的暗示却挑动了神州大地无数Google粉丝的神经。Keso就是那无数Google饭的领头羊,这个大家都是知道的,所以文章肯定不会倾向于百度。他基本的观点和细节总结如下:

(以下所有专利信息来自于:美国专利和商标局网站)

1. Lawrence Page(即Larry Page)共有两项专利被批准,其中于1998年1月9日提交的PageRank的专利申请,于2001年9月4日被批准。

2. 根据百度页面上的提示,Robin Li(李彦宏)于1996年即在美国提交了超链分析的相关专利申请(filed a patent on the hyperlink analysis in the United States。

3. 于是"我"(即Keso)以发明人姓名"Robin Li"为关键字(IN/li-robin),在USPTO网站查询,结果没有查到任何有关超链接分析或者搜索引擎的专利资料。

4. 百度自己的网站上,能找到一些有关超链分析的说法,并称李彦宏是这一专利的惟一持有人的,但关于该专利申请和获得的详情几乎没有。(言下之意是百度心虚,yeah?)

5. 李彦宏说上世纪90年代中期,他在澳大利亚讲超链分析,有两个斯坦福的学生坐在台下,后来这两个学生做出了Google。不过"我"(Keso)一直没太搞清楚这事儿的先后次序,到底是李彦宏的启蒙在前,还是Page和Brin的实践在前。

6. 后来在梁冬的书中找到了答案,这个会议的时间是1998年4月,地点是澳大利亚的布里斯班。如果没有搞错,这应该就是第七届国际WWW大会。不过这时候,Google的前身BackRub已经在斯坦福大学的网络上运行了两年多

7. 我在这次大会的网站上,找到了一些更有趣的信息。Larry Page和Sergey Brin著名的论文,《一种大规模超文本Web搜索引擎的分析》就是在这次大会上提交的,作为对PageRank技术最早的公开阐述,这个论文后来被大量引用。

8. 不过,在这个网站上,我没能找到有关Robin Li的任何信息,包含Page和Brin的网页,倒是可以找到一些。

好了,说到这里,虽然Keso自己讲"本文只有疑问,没有结论",呵呵,我不否认Keso是想把事情搞搞清楚的,不过他文章带给读者的第一印象已经很明显了。

不过Keso没有注意到,他很多的论证虽然都不错(比如关于WWW7方面的内容),但他犯了一个很致命很致命的错误,那也成为被反对者拼命攻击的首要原因:

他居然用Robin Li作为姓名去查找!!!???不错,那是李彦宏的英文名,但总该想到他正式的名字应该是"Yanhong Li"吧?

好了,用"Li Yanhong"这个名字再去查找,果然找到了:

9. 专利提交日期为1997年2月5日,批准日期为1999年7月6日。这项专利是关于超文本文档检索系统和方法(Hypertext document retrieval system and method)。

到了这步,Keso基本已经输掉了,至少在这篇文章上。这个失误太基本也太致命,以至于整篇文章的公正性都一起毁了。

不过作为旁观者,还是有人做出了客观的分析。

从时间上来看,李彦宏先生提交的专利确实先于Larry Page的,这点首先要明确。

我们再进一步把两项专利的内容拿出来仔细审查一下:

Li Yanhong的Patent的概述摘要:

A search engine for retrieving documents pertinent to a query indexes documents in accordance with hyperlinks pointing to those documents. The indexer traverses the hypertext database and finds hypertext information including the address of the document the hyperlinks point to and the anchor text of each hyperlink.

Page的Patent的概述摘要:

A method assigns importance ranks to nodes in a linked database, such as any database of documents containing citations, the world wide web or any other hypermedia database. The rank assigned to a document is calculated from the ranks of documents citing it.

有兴趣的人可以查看更详细的资料:Li YanghongPage.

另外IT静夜思也有一篇分析文章

我不想做专业上的分析了,因为我blog的读者未必有兴趣看,只是想说几句自己的结论:

1. 李彦宏先生的专利是先于Larry Page的,而且基于专利的内容,硬要说百度抄Google是完全没有道理的。

2. 李彦宏先生在第7届WWW大会上所作的报告是否为Larry和Sergey所借鉴,或者说,从多大程度上促进了Google技术的成熟与发展,这个很难断定,恐怕这有当事人自己知道了。

3. 两个专利本质上是有蛮大区别的,所以硬要说Google抄百度,也站不住脚(这是我的个人观点,也有认为Larry的专利只是对Robin Li的进行refine,这个见仁见智)。

4. 其实基于超链接分析的搜索技术只是Google成功的原因之一(也是百度成功的原因之一),很多人觉得(包括我)Google更令人着迷的是一个庞大的基于PC(而不是传统的高端服务器)的并行处理网络架构,Google抛弃了传统的基于Client/Server的架构,采用了诸如GFS,MapReduce等的并行计算技术,使得大规模高容错高负荷易扩展的网络系统成为现实,这才是很多企业想学而学不来的。更不用说现在Google所关注的基于machine learning的data mining等一系列前沿的人工智能技术,这些新的idea,新的innovation才是一个技术企业安身立命的保证。我相信百度也有着许多这样的新技术新发明,所以整天吵吵8,9年前的一些东西,似乎太小儿科了。

5. 科学技术很多时候都是这样,你中有我我中有你,到后来大家搞不清谁是最初的原创者,就是杨振宁李政道这样的大家,也不是为了到底谁最先提出"宇称不守恒"的思想而翻了脸皮么?结果谁也说不清。

6. 不过做企业则不同,规则只有一个:成王败寇。高渐离在死前大喊:"史书上会记载,在秦王登基的那一天,有一个叫高渐离的人袭击了他"。秦始皇说:"你错了,史书由我来写"。谁最后生存下来,谁做的更好,谁就有权力书写历史。

Technorati : , ,

=========================================================
前天去理发,结果理了一个被同学讥笑为“幼稚学生头”的发型:

15 responses to “Google抄Baidu or Baidu抄Google?

  1. Guan May 23, 2006 at 12:56 am

    呵呵!前刘海再长些就有点像“西瓜太郎”了:P
    学生头有啥不好?别人想理还理不出这气质呢,是吧?
    还有这张照片的光线用得好好噢!看上去皮肤很白很好:D

  2. May 23, 2006 at 1:41 am

    这个刘海赞的…………
     
     

  3. Demon May 23, 2006 at 4:56 am

    @管管:果然是“西瓜太郎”头啊,这才回想起来,高中的时候也被人这样嘲笑过,结果江湖漂泊这些年,还是如此幼稚…… 照片是在机房随手拍的,没有特意追求光线,咳咳……@兴兴:汗,谢谢  -_-!!============================唉,技术的内容无人看,遗憾哪……

  4. Guan May 23, 2006 at 6:16 am

    有认真看,只是没MAKE COMMENT而已么!
    看来大家对你的发型感兴趣程度甚于前者:)
    如果我没猜错的话,你也是右眼FAR SIGHTED,左眼SHORT SIGHTED

  5. Demon May 23, 2006 at 4:02 pm

    You got it, : )

  6. Swing May 23, 2006 at 8:02 pm

    侬自己靠自爆八卦照片来吸引流量,还要怪广大人民群众不看你的技术内容啊…… -..-

  7. Demon May 24, 2006 at 12:10 am

    切,这话讲的,俺这把年纪了还需要追求流量之类的东东?再说我blog里本就没什么自恋的内容,照片也不是什么八卦,8 )
     
    你不要煽动人民群众啊,和谐社会,和谐。

  8. Swing May 24, 2006 at 12:54 am

    你年纪多大?为什么就不要追求流量了?
     
    自从你明白了八卦是流量的保证、而流量又是最高王道D时候!侬就开始了一轮又一轮的自爆,不要再掩饰了,我一直看在眼里,哼哼~~

  9. Demon May 24, 2006 at 1:01 am

    晕,我要那流量干什么,我又不放广告,也没有fans,即使有,也不可能来美国看我,汗……xena火气好大,汗……

  10. Swing May 25, 2006 at 1:08 am

    我才汗,我哪里有什么火气,开个玩笑也看不出来啊……哎~

  11. Demon May 25, 2006 at 1:25 am

    偶小心眼了,呼呼……

  12. Goden May 29, 2006 at 8:13 pm

    你以前就是这个造型啊。

  13. Demon May 30, 2006 at 12:23 am

    呵呵,后来有改变,现在又变回去了,: – )

  14. Steven May 31, 2006 at 8:08 am

    不错,google最让我着迷的就是他的cluster技术,似乎这个是不外传的。:-)

  15. Demon May 31, 2006 at 6:18 pm

    嘿嘿,对吧,我就说是Google的cluster技术。

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: