收藏文章 楼主
内幕调查:出卖Alexa(二)
网友【血蜘蛛】 2005-01-25 03:30:15 分享在【时代发展的印记】版块    1    1
要想彻底搞清楚Alexa排名是否可信,必须从技术上对Alexa的全球网站流量监测进行全面的解剖,当然,Alexa从来没有公布自己的技术细节,记者决定“以彼之道,还施彼身”,既然Alexa声称其数据来源就是那个工具条,记者决定首先从破解工具条入手。

受记者委托,圈内著名的Web技术专家小林,用了近一个晚上的时间,对Alexa工具条及其向Alexa返回的数据进行了细致的分析,得出了很多宝贵的第一手资料。多年前对Alexa就做过研究的小林认为,最近的这次分析揭示了一些Alexa更隐秘的技术细节。

小林告诉记者,现在最新版本的Alexa工具条的运作机理与以往没有太大的改变,每当用户以装有Alexa工具条的IE浏览器打开新页面时,Alexa的一台服务器(data.alexa.com)都会收到加密的数据包,这个数据包中的核心信息就是十几个参数,这些参数包括当前网页地址、页面打开时间、用户端显示分辨率、Alexa工具条版本号、该用户是否为“亚马逊”的用户等,其中有一个重要的隐含参数,经小林分析,认为是Alexa为每个已安装的工具条自动生成的ID号码,这个号码应该是全球惟一的。Alexa可以通过这个ID对每个反馈数据包的发出者进行惟一标识,这是解决PV重复计算问题和防止同一用户多次刷新作弊的一个重要手段。

小林告诉记者,从目前研究的结果来看,任何一个汇编高手都可以很容易地掌握Alexa工具条返回的数据包中的秘密,如果这个人同时也是一个网络编程高手,那么要针对Alexa作弊就比较容易了。从记者后来对一位上海的Alexa作弊高手的采访来看,小林的分析完全正确。该作弊者正是一位资深的Web开发工程师,其采用的手段与小林的分析也基本吻合——编写一个Alexa工具条返回码生成器,批量产生Alexa能够辨识的代码串,然后用虚拟多用户的方式发回data.alexa.com,这样就可以欺骗Alexa的服务器,让它误以为这些数据是不同用户发来的(征得该作弊者本人同意,本专题在最后公开了记者与该作弊者的网上聊天实录)。

小林认为,这种以编程方式模拟多用户访问的作弊方式的实现,最重要的环节就在于对那个Alexa用来惟一标识用户身份的ID号的生成算法的破解,这需要对足够多的Alexa工具条进行嗅探,抓取其数据包进行定量的算法分析。但小林同时也指出,这些工作对于一个编程高手来说,确实不算什么,只是最终作弊的实现仍需要模拟一个足够快的ID号生成程序,这可能会比较困难,不过据小林估计,国内能做这些事情的人不在少数,只是互联网这个圈子里的高手们很少去做罢了。

从以上的技术分析来看,Alexa的服务器每天所做的工作就是不断接收全球用户传回的数据包,提取其中的那十几个参数并写入专门的数据库,然后在某个特定时间对当天收集到的这些数据进行分析计算,并以新的计算结果去更新当日的网站排名。据记者观察,这个数据库的分析结果至少会保存三年之久,因为在Alexa网站上对每个网站的Rank排名变化趋势图最多能提供三年来的数据变化。

在破解了工具条的DNA之后,记者还与一些朋友探讨了Alexa工具条在全球的分布情况。按照Alexa的说法,工具条是它惟一的信息获取来源,那么工具条在全球用户中的分布也就成了另一个可以影响Alexa排名的重要因素。如果工具条真的是Alexa数据的惟一来源,可以想象,当中国网民都没有安装Alexa工具条的时候,新浪Sohu.com这样的门户网站恐怕在Alexa排名中都见不到影子,可是今年下半年以来,新浪和Sohu.com就已经紧随Google排在全球第四和第五的位置了,这似乎说明了Alexa工具条已经在中国具备了较高的普及率,否则,新浪、Sohu.com以及紧随其后的占领了Alexa全球500强中近1/3份额的中国网站就都有作弊的嫌疑。

幸好记者的一位朋友曹政提供了令人欣慰的数据。作为网站流量分析专家,曹政在tong123.com 上为多达2000家国内各类网站提供长期的流量监测与统计分析服务。曹政的流量分析与Alexa的不同,Alexa不在被监测的网站上做任何事,而tong123.com对网站进行页面内嵌方式的第三方流量统计。受记者委托,曹政临时在其数据采样分析器里加入了对Alexa工具条的监测。经过一周的数据统计,曹政得出的结论是:访问tong123.com 系统监测的2000家网站的所有用户中,Alexa工具条的安装率在1.5%左右。

就在发稿前,曹政还给记者发来了对这一结果的补充说明,他认为,由于tong123的系统采用累计平均值的计算方法,Alexa工具条的实际安装比例应该比现在得到的数据更高,因为这个监测项刚加进去不久。

由于tong123.com的监测范围是2000家各类网站,基本上排除了由于监测对象较少可能造成的用户选择倾向性,其可信度比较高。即使以1.5%这个被低估的安装率来衡量Alexa在国内用户中的影响,也已经十分惊人了,若国内互联网用户以总数9000万计算,则其中安装了Alexa工具条的用户可能已超过130万。按照Alexa声称的1000万左右的工具条全球下载总量来看,中国网民对Alexa的热衷似乎显得更为突出,这或许也可以作为国内网站今年在Alexa排行榜中整体排名提高的一个解释。

既然工具条的分布会从很大程度上影响Alexa的监测结果,那么Alexa的排行榜就可能出现很大的地域相关性,如果确实如此,Alexa的权威性就真值得怀疑了。事情远没有这么简单,在Alexa网站上,记者看到全球网站前10万名排行榜的报价是499美元,显然,在大洋彼岸,还是有人认可Alexa的排名数据,甚至会花钱去买那个排行数据。
meiguo.com 发布人签名/座右铭·有时你看似是一件很吃亏的事,往往会变成非常有得的事。
·凡事都留有余地,因为人是人,不是神,不免有错处,可以原谅人的地方,就原谅人。
·好的时候不要看得太好,坏的时候不要看的太坏。
大家都在看
回复/评论列表
默认   热门   正序   倒序
meiguo.com 创始人

emotion

1   2005-01-25 03:30:15  回复

回复/评论:内幕调查:出卖Alexa(二)

暂无用户组 升级
退出
等级:0级
美果:
美过
精华推荐
  1. 关于“跨国婚姻”婚姻绿卡,给配偶申请绿卡的各种细节问题!
  2. 盘点美国最繁华的城市 top10
  3. 瞄准美国公民了?川普总统的“驱逐行动”在变本加厉
  4. 华尔街“教父”空降北京,李嘉诚的“228亿美元交易”突遭截胡
  5. 美国《时代》周刊:DeepSeek【梁文锋】
  6. 川普关税政策可能导致意外后果
  7. 独自搭乘美国硬座火车,52小时横穿美国!
  8. 2025年,必须认识的一个英文单词 ~ tariff
  9. 台湾政府:一场误会呀
  10. SpaceX在13小时内3连发,全力拯救被困宇航员!
  11. 男性精液质量和预期寿命“真有关系”
  12. BBC:在川普政府的关税打击下,为何中国不低头?
  13. 全面盘点:加州大学的9大分校
  14. 中方意识到谈判时机已至?迅速派出“王牌代表应邀”和美国财长会面了
  15. 川普总统竟然帮马斯克“带娃儿加带货”,特斯拉市值保得住了?
  16. 关税战持续了96小时… 突然大反攻?
  17. 这位美国年轻人在中国玩儿一圈,浪费掉美国政府的16亿美金?
  18. 美国小伙儿在武当山修行十余年,终于获得“中国绿卡”了!
  19. 这小伙年仅25岁,已经是百亿美金公司的创始CEO了!
  20. 成也“马老板”,败也“马部长”?关于伊隆·马斯克的现状
  21. 百万民众“上街游行”抗议川普政府的百天?
  22. 童工可以合法夜班了?
  23. 重庆妹子“盯美国男人不放”,前后嫁给美国医生和美国律师!
  24. 中国“不陪川普玩”了… 从此不理会美方闹剧!
  25. 哪些关键技术决定了如今大模型格局?Google的首席科学家“万字演讲”回顾AI发展的十年
  26. 王毅定调了中国统一,马英九发出了战争预警!
  27. 时至2025年3月中旬,地球上最顶尖的五大芯片品牌,均由华人掌舵!
  28. 全球研究机构top10盘点:中国9家,美国1家
  29. 川普总统:在未来几周内开始发放“金卡签证”
  30. 中美关税战的最佳写实作品~乌合麒麟发布《就不跪》
  31. Google决定终止开源Android啦?
  32. 遭遇无故吊销学签,藤校的中国留学生起诉且赢了🇺🇸国土安全部!
  33. 美国华人在近期出入境美国,绿卡和签证的持有者须知!
  34. 美国“大规模”取消国际留学生的签证
  35. 中国的中产家庭,送孩子赴美留学就是鸡肋之举?
  36. 在量子世界“玩儿游戏”?物理学家展示了量子计算机的新前景

美国动态 美果搜索

Your IP: 3.133.113.227, 2025-05-02 17:17:17

Processed in 0.13498 second(s)

头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
已有0次打赏
(1) 分享
分享
取消