珍爱生命 远离百度 分享自建Google镜像

最近两天,微信和微博上出现了有关魏则西这个人的一些新闻和评论。这位我素不相识的西安电子科技大学计算机专业学生,因身患滑膜肉瘤于4月12日去世,年仅21岁。世界上的悲剧很多,有的是自然灾害,如地震、洪水等,有的则是人类自己制造出的悲剧,如车祸、战争、贫穷等。自然灾害大多很难避免,但如果我们能避免一些人类自己的悲剧,这个世界将多一份安全和幸福。

几十年来,信息技术的发展不断造福人类。从帮助尖端科学研究,到实现全球信息互联互通,再到辅助我们生活的点点滴滴,信息技术让不可能变为可能,是人类社会发展的强劲动力。但正如其他科学技术一样,信息技术也是一把双刃剑。它对世界的影响是由使用它的人来决定的。比如,信息加密技术即可以作为保障个人信息安全和隐私的有力工具,也可能被犯罪分子用来作为逃避调查,隐藏罪行的手段。最近的Apple VS FBI的著名案例就是如此。

搜索引擎也是一个例子。自从上世纪90年代末Google成立以来,搜索引擎已经成为现代互联网信息的主要获取平台。它让本来散落在世界各地的信息和知识在一个地方集中呈现出来,极大地方便了人的工作、学习和生活。Google由于拥有先进的算法和高性能高可靠的服务器,成为了搜索引擎市场当之无愧的王者。

但由于众所周知的原因Google无法在中国访问,给了中国本土公司一个黄金机会。于是在中国,绝大部分人使用的搜索引擎不是Google,而是百度。百度也拥有高性能高可靠的服务器,从中国任何地方访问都非常快,以致于很多人把它作为测试自己网络是否通畅的工具。不可否认,百度作为中国本土搜索引擎,的确为千千万万中国人访问互联网带来了便利,在没有Google的时候肩负起了为全国人民提供搜索服务的重担。作为当代中国互联网三雄之一(BAT,百度、阿里、腾讯),百度已经成为中国互联网一个不可分割的组成部分。

但百度有一个致命的问题——它的结果不是中立的。也就是说,搜索结果的显示与否以及显示的顺序是人为操纵的。这是百度和Google的根本不同,也因此决定了一个公司利用技术造福人类,而另一个公司利用技术牟利。Google的搜索引擎使用各种各样的算法自动为它抓取的页面建立索引和排序。这些算法当中包括创始人Larry Page发明的PageRank算法。Google不会对搜索结果进行人为排序。页面的排序由机器决定,取决于页面对于关键词的重要性和关联度。而百度则不同,百度在机器索引和排序的基础上,引入了一套自创的“竞价排名”的系统。凡是出钱购买了关键词的企业,只要是合法经营,都可以将自己的网站放入搜索结果的前排位置,不论相关性强弱。”竞价排名”是百度的盈利模式之一,靠的是将搜索结果作为广告而卖出。与之不同的是,Google是在搜索结果的旁边打广告,并清楚地显示哪些内容是广告,哪些内容是搜索结果。

“竞价排名”系统从根本上是一套低效系统。它人为地抑制了电脑处理信息的能力,将人的主观意愿凌驾于电脑程序之上。而在互联网浩如烟海的数据之中,只有高性能的电脑才能客观而准确地提取信息,这点人类是永远无法企及的。所以“竞价排名”的结果不可能有公正性和准确性。

普通日常的搜索,“竞价排名”显得人畜无害。但有许多关乎人命的搜索,百度也玩这一套,就非常危险和无耻了。这次事件中,魏则西身患滑膜肉瘤,因相信了百度搜索结果中排名第一的武总二院的所谓“生物免疫疗法”后,采用了完全错误的治疗方法,延误了病情,浪费了宝贵的金钱和时间。等到他从网友那里知道了美国真正靠谱的治疗方法时,为时已晚。这件事的经过可以参考他本人的知乎回答《你认为人性最大的「恶」是什么?》。事情发生后,百度没有任何悔改之意,也根本不反思“竞价排名”在医疗领域的影响,而是将责任抛给武总二院,自己一身清(参考《如何看待百度推广针对魏则西事件的回复?》)。这正说明百度其实只在乎钱,而根本不在乎它这一套卖搜索结果赚钱的方法对社会有什么危害。

本来写到这儿就可以介绍我新建的Google镜像站点了,但是我无意中测试了一下现在的百度搜索,又发现了惊人的现象。

这是现在百度搜索“横纹肌肉瘤”的搜索结果(原始的“滑膜肉瘤”搜索结果已经被公关处理了)。在上面这篇知乎帖子发表后,“竞价排名”的结果删得干干净净。
with_js

真的干净吗?我似乎隐约看到什么东西在页面加载的时候闪了一下。由于百度引用的JS复杂,所以我干脆禁用JS再搜一遍。结果如下。
without_js
我惊讶地发现,排名前三的结果依然都是“竞价排名”的结果,同魏则西看到的类似。傻子都能看出,这些页面全都是骗人的。百度在爆出这件事之后仅仅是用了简单的JavaScript在前端屏蔽了部分结果。可以想象,在你阅读这篇文章的时候,有多少饱受病痛折磨的病人,仍然在用百度搜索他们的疾病,仍然遭受这些虚假结果的欺骗。本来搜索引擎能够通过机器算法降低这些虚假信息的排名。但百度受着金钱的诱惑,反而越过算法,人为将这些丧尽天良的骗子网站放在搜索结果的前排位置。

作为对比,我在Google搜索了同样的关键词,结果如下。
google
排名第一的结果是一个专门介绍肿瘤知识的国际组织发表的一篇由国外医生写作,华人医生翻译的介绍文章。没有虚假,没有欺骗。而搜索结果中的其他页面也都是在中立客观地介绍这种疾病。这才是搜索引擎应该发挥的作用——帮助人们获取高质量的知识。

不用我说大家也能看清楚,Google利用技术传递有价值的信息,而百度则利用技术赚黑心钱。其实,就算不涉及这些医疗健康领域,Google在其他各方面的搜索精准度和公正性都远远超过百度,就连百度引以为豪的中文搜索,Google的准确度都要甩百度几条街。而我们仅仅是因为某些众所周知的原因无法访问Google,只能退而求其次使用百度。

凭什么让我们为这种愚蠢的做法买单?

其实很早以前,技术社区的程序员们就想到了解决方法。既然Google网站访问不了,我们就把Google放在千千万万的网站上。一个Google倒下了,有千万个Google诞生。这就是Google镜像站点技术诞生的原因。Google镜像站点其实就是Google,只不过可以用其他域名访问。我也利用已经开源的Google镜像代理源码,建立了自己的Google镜像。访问这个镜像,就和访问Google简体中文版一模一样,任何搜索都没有问题。我的服务器上不会有任何访问日志,而所有数据经过我的服务器到达Google都经过TLS强加密,任何人都无法劫持和伪造。我会尽全力维护好这个镜像站点,就当是我为改善中国网络环境做的一点微不足道的事吧。程序的源代码见https://github.com/cuber/ngx_http_google_filter_module

让我们从今天开始,珍惜生命,远离百度。

最后附上镜像站点地址:
g.alexyang.me

1 comment

Comments are closed.