在Alexa各种公开的资料或是网友对它的讨论中,都没有人明确提出过Alexa除工具条以外是否还有其他能够获取公网流量的监测手段,而长期为多个著名网站提供技术支持的小林,通过对这些网站的日志分析,认为Alexa还有很多技术隐私。由于无法得到Alexa的官方回应,我们只好说这些可能被采用的技术手段是“莫须有”的。
为了进一步探寻Alexa的隐私,我们还要先看看Web浏览的过程。当用户打开IE浏览器,在地址栏中输入一串网址并回车后,一些包含了http请求的数据包就被发送出去,与其他流量一样,这些数据包也要经过用户所在内网的网关,被路由到公网,经过一个个电信机房,最终传送到某个提供DNS解析的服务器上,在获得目的网址的IP地址后再被放到一个可以最终路由到目的IP的路径上传送过去。从http请求的发送过程来看,如果Alexa对全球所有的DNS解析服务器进行嗅探,将有可能得到一份非常接近事实的全球http请求数据,由此就可以非常清晰地勾勒出哪些网站被哪些用户所关注。
不过,要嗅探全球的http请求,对Alexa来说几乎是天方夜谭。退一万步,即使Alexa能抓取到这些数据,它也不可能有以这些数据为基础进行计算的能力。但是,Alexa排名所显示出的一些“抖动”迹象似乎在告诉人们,除工具条之外,Alexa确实有使用其他技术手段的嫌疑。
2004年夏天,小林发现中国Hong Kong的网站排名出现异常的提升,像“太阳报”这样的小网站,居然能超过很多内地大网站的排名。由于电信网关和简繁体系统的原因,内地与Hong Kong网民一般是不做“跨地区互访的”,而Hong Kong网民安装Alexa工具条的绝对数也不会比内地用户高。从前文的分析和计算来看,内地网民中Alexa工具条的安装量恐怕比全Hong Kong网民的数量都不低,这样的情况下,Hong Kong网站在Alexa排名的普遍大幅度提升就显得毫无道理。
经过两个月的高排名期后,Hong Kong网站的排名开始逐渐回落,但至今仍有部分网站的排名高出其实际应处的名次。小林认为,这个现象与韩国网站在2003年出现的情况有很大相似性,而韩国的很多网站目前仍有偏高的排名。这种现象如果用Alexa工具条的普及率来解释是不合情理的,但如果用Alexa增加了其他采样机的说法来解释,就很容易说得通。
据小林推断,Alexa可能在全球不同地方设置了一些采样机,通过与一些电信机构进行或明或暗的合作,甚至在临近电信网关的节点进行网络嗅探,得到一些“弥补性”的采样数据。而寻求这些采样数据的目的恰恰是为了照顾Alexa所认为的“工具条低安装率”地区的抽样效果。打个比方,如果Alexa认为韩国互联网已经非常普及,而韩国用户却一直没有安装Alexa工具条的习惯,它就可能会设法在韩国安插一些采样机,以弥补在韩国用工具条采样的不足。同样的情况,也可能导致Hong Kong在刚刚设置采样机时网站排名的猛增。而经过一段时间的考察,Alexa就会逐步调整在每个地区的采样数量,以得到它所认为的最合理的结果。
甚至小林还认为,今年内地网站排名的大规模提升也有采样机在作怪,而国庆后内地网站排名的普遍下降也许就是因为Alexa在经过一年的考察后,重新调整了在中国内地采样比重的结果。
当然,Alexa要维护其排名的权威性和公正性,不仅要完善流量数据的采样过程,更要在防止作弊方面做出巨大努力,那些防作弊的技术也都是Alexa的不宣之秘。那么Alexa到底是用什么办法来防止作弊呢?事实上,对于前文中记者提到的以编程模拟Alexa工具条返回数据包的作弊方式,Alexa几乎没什么好办法去防范,甚至要探测到这样的作弊手段都比较难。
其实,对于现在网上常见的作弊手段,Alexa都已经有了足够的免疫力。一般来说,由于现在多数搜索引擎都无法处理JS脚本,所以针对搜索引擎的作弊往往都是用JS脚本编写恶意代码来实现,而Alexa和Google采用的爬行程序则是目前仅有的可识别JS脚本的此类程序。
小林在对几个大型网站的流量监测中发现,Alexa启用了一个叫做IA_Archiver的机器人程序,这个机器人程序类似Google等搜索引擎使用的蜘蛛程序,专门在互联网上爬行,刺探每个Web页面的流量信息。尤其是当某个网站的流量超过Alexa设定的阈值时,IA_Archiver就会马上爬到该网站的服务器上,分析此网站的流量是否正常,有没有作弊行为。据小林对IA_Archiver的监测,该机器人程序已经可以识别大部分基于网站服务器端的流量作弊行为。但现在业内对IA_Archiver的认知普遍不足,记者也只是在Alexa网站的一个帮助页面上看到有关IA_Archiver机器人程序的简单介绍,而国内知道这个机器人程序的人不多,更缺乏相关的技术研究。
信任Alexa?
针对Alexa排名的可信度,不同的人有不同的看法,从事Web技术研究与应用的业内人士多倾向于这样一个说法:Alexa排名不一定是绝对准确的,但却是相对可信的。下面记者举出的一些例子,将从不同方面对Alexa排名的可信度进行对比。
必须承认,尽管Alexa用很多技术手段提高了网站流量监测数据的有效性,但由于其固有的一些技术上的瑕疵,难免使少数网站的排名结果出现一些问题,尽管这些问题在很大程度上要归咎于网站域名结构的不合理性。
比如,Alexa排名是针对URL地址的,并没有考虑IP地址的因素,这在很大程度上降低了Alexa排名计算的难度,但是也不可避免地产生了偏差。一般而言,Alexa只对二级域名感兴趣,而针对三级域名的流量都被纳入了上一级域名的统计,对于比较规范的大型网站而言,这是完全正确的策略,但是对于一个向不同用户分发了三级域名的网站来说,它的流量统计是否应该将所有的子用户的流量加起来呢?这显然要因情况而异,一个很明显的此类不合理统计的例子就是cninfo.net,相信国内老网民都还记得这个域名后缀,这是全国各省市公众信息港通用的二级域名,比如,sh.cninfo.net和gd.cninfo.net分别是上海和广东的两个网站,而Alexa则将其统一算做cninfo.net 的子域。于是,cninfo.net 就成了简体中文网站排名第40多位的网站,尽管它其实根本就不是一个可以访问的网站。
对于Alexa排名可信度的另一种质疑来自不同类型网站的流量特征的巨大差异性。比如,门户网站与专业网站或专业论坛的流量就几乎没有可比性,因为不同类型的用户在不同时间不同场合访问不同类型的网站时,其浏览习惯会有极大的差异。
即使两个网站按照Alexa算法得出的综合流量评估值完全相同,那也不能把两个网站的影响力划等号。比如,一个Reach值为1000,PV值为1的网站与一个Reach值为100,PV值为10的网站的Rank应该是相同的,但大部分情况下,后者的内容会比前者更有价值。因为浏览前一个网站的用户都是只看了一个页面就走掉了,说明该网站可能没什么吸引力;而后一个网站的用户平均要看十个页面才会离开,这些用户都很认可该网站的内容。当然,更极端的情况也会出现,比如前者只有一个页面,但该页面内容非常丰富,而后者的每个页面内容都很少,或是给用户设置了很多不必要的跳转,甚至后者也可能就是一个小说连载站。
这些复杂情况的存在让人很难相信Alexa可以只用Reach和PV这两个值就把所有互联网上的站点划分出三六九等。不过,如果我们换一个角度来看Alexa,就会发现它的存在也是有理由的,甚至也可能是确实值得网民信赖的。
如果我们只把Alexa当做一个流量分析服务工具,它的价值就凸现出来了。Alexa网站上提供了非常直观的流量变化趋势统计图功能,这在其他很多情况下是要付费才能获得的服务,而Alexa只是将其作为免费的公众服务。
图1是Alexa上提供的计世网(ccw.com.cn)一年来的流量排名(Rank)走势图,从图上可以清晰地看出,该网站2003年11月3日~2004年11月3日的排名从7500名左右上升到2000名以内,而其中三次非常突然的下降曲线所对应的日期分别是春节、五一、十一这三次长假。众所周知,计世网的用户主要集中在IT行业中,这三次长假导致的下降曲线非常忠实地记录下当时的网民浏览情况——因为放假,大多数用户去旅游或在家休息,上网用户大大减少,所以流量降低,网站的排名也随之降低。而长假过后,IT人回到单位,头一天上班总会想到网上去看看业界的最新资讯。所以长假之后,ccw.com.cn的流量反而都比放假前有不同程度的提升,反映在Rank曲线上,就是三个大的波谷之后曲线高度的恢复与持续攀升。
事实上,如果能够详细分析网站流量变化的趋势,人们也可以分辨出那些作弊的网站,因为作弊网站流量的变化往往是非正常的,其与正常网站的流量变化曲线肯定有不同之处。图2和图3分别是265.com和dsdiy.com的半年来的流量排名趋势变化图,265.com是国内著名的网址导航站,最近半年的全球排名一直稳定在70~120名以内。反观dsdiy.com的Rank变化曲线就颇值得怀疑,9月的第一周,该网站的排名就从全球10万名之外一跃至200名左右,其后的一个月内,该网站的排名一直在100~400名之间徘徊,而就在国庆长假的第一天,该网站的排名竟然蹿升至30名左右,到了10月的第二周,该网站的排名又迅速回落至10万名开外,在Rank曲线图上再也看不到了,拥有类似排名曲线的网站还有sinapet.com和haohz.com等等。
作为Web访问情况的监测工具,Alexa在记录了网站的真实访问量的同时,也同样记录了那些作弊网站的流量变化情况。从这个意义上说,Alexa显然也是可信的,关键是我们选择的视角必须能恰到好处地发挥Alexa的作用。
无论出于什么样的目的,人们出卖Alexa总是希望能从中得到利益,对Alexa的研究越深入,对Alexa的价值理解得越深刻,就越能从中获益。
附文:
点对点采访:Alexa排名高手
通过MSN Messager,《计算机世界》记者王翌(
[email protected])在线采访了国内一位顶尖的Alexa网站排名高手(
[email protected]),经对方同意,特刊出双方在网上的对话实录(A=
[email protected]):
作弊业务收入高 百强排名值万金
王翌:听说你能做Alexa排名?可以做到100名左右?
A:当然,更高也可以,100名左右的话,每月要两万块甚至更多。
王翌:你知道的像你这样的同行,国内有多少家?
A:我知道的就只有两家,都是重庆人做的。
王翌:你搞Alexa排名是专职还是副业?
A:当然是副业。但现在做这个业务赚得比我工资高多了。
王翌:你们现在是几个人做?
A:核心是我一个,还有几个朋友帮忙,我们从2002年就会这个了。
王翌:你有没有试过,能做到的最好成绩是怎么样的?
A:现在我可以把一个没流量的网站维持在大概50名左右,这是极限。不过一般我们不会乱来。而且也没有人出那么高的价来雇我们做那么高,我们是根据排名高低来收费的。
王翌:维护这些网站的排名是不是会越来越容易?因为把他们做上去以后,流量真的能增加?
A:客户一般都是广告和我们一起做。
王翌:你的意思是他们在拉高排名的同时,也做网站推广?还是说他们自己拿排名去拉广告?
A:是前者,做网站的人都知道,光有一个假的排名没意思。客户的心态其实很简单,他们做了广告,真实人气会上去,但不一定排名会上去。
王翌:所以,Alexa只是提升品牌的另一种方式?
A:他们大笔钱花在广告上,少笔钱花在我们身上,这样两头并进,等流量真的上来一些,排名也做上去了,他们再去接广告就容易了。广告商一看,排名不错,就投上来试试,这样他们自己的流量又确实不会太难看,广告商更容易认可。