真假数据的“照妖镜” 关于本福特定律 – 时代发展的印记

真假数据的“照妖镜” 关于本福特定律 ^精

网友【白晓剩】 2020-11-13 20:54:53 分享在【时代发展的印记】版块 1 5

识别伪造数据，一般都需要专业人士运用专业知识分析数据，作出判断。有没有一种简单的办法，只对数据本身的结构进行分析，而不用理解数据的专业含义，就能看出数据是否造假了呢？就是“外行”也能看出来数据真假？有！这就是神奇的本福特定律。

网友分享在meiguo.com上的图片
图源：网络

本福特定律是说，如果给出一个足够大数量的自然产生的数据，那么其首位开头数字的出现是有规律的，即以数字 1 开头的数据占数据总量的 30.1%，以数字 2 开头的数据占数据总量的 17.6%，等等，以此类推。下面这个表格列出了从 1 到 9 的首位数开头数字的出现概率。

网友分享在meiguo.com上的图片
分别以 1 到 9 开头的数据在整个数据中出现的概率列表

根据这个定律，以数字 1，2，3，4，5，6，7，8，9 开头的数据，占整个数据总量的比例是依次递减的，其出现的概率是恒定的。数学表达式如下。

网友分享在meiguo.com上的图片
本福特定律公式。n 为首位数字

用这个公式，可以计算出不同的首位数字的数字占比。比如当 n = 1 时，就得出首位数为 1 的出现概率为 0.30102999566, 约为 30.01%。

因为这个定律对数据来源的定义不够规范，所以不能严格的证明。但是，当限定条件后，是可以用数学证明它的正确性的。

这个定律最奇妙的地方在于，只有“自然”产生的数据，也就是没有人为修改过的数据才符合这个规律。否则，这个定律就不适用了。另外数据量越大，其结果拟合得越好，一般至少需要 3000 个以上的数据才行。

网友分享在meiguo.com上的图片
西蒙·纽康（Simon Newcomb）。图源：网络

枯燥的数据竟然还有如此奇特的规律，它是谁发现的呢？最早发现这个有趣现象的是北美（现属于加拿大）天文学家西蒙·纽康（Simon Newcomb）。1881 年，他在翻阅对数表是偶然发现一个现象，前几页的破损程度远超过后面的页数。经过仔细研究他发现，原来自然界中存在的数字不是均匀的，而是首位数为 1 的数据出现的概率总是最大的，首位数为 2 的次之，以此类推。1938 年，物理学家本福特也发现了这个规律，这个规律便以他的名字命名了。

本福特定律在实际中被应用于数据欺骗检测和股票市场分析等领域。最有名的案例是安然公司财务造假案。安然公司曾经是世界上最大的能源和服务公司之一，名列《财富》杂志“美国500强”的第七名。在 2001 年，公司传出财务造假丑闻。有人对安然公司的财务报表数据用本福特定律检验，其结果令人惊讶。下图显示，在 2001 年以前安然公司的报表数据（左图）都严格拟合了本福特定律，只有 2001 年的数据（右图）不符合该定律，显示出有明显的人为篡改痕迹。安然公司随后申请破产倒闭。

网友分享在meiguo.com上的图片
安然公司历年财务数据与本福特定律的拟合程度分析图。图源：网络

让我们把这个规律用到当下最吸引眼球的一件事上：美国大选。参选的共和党和民主党正在相互指责对方在计票上造假。正常的计票结果，只要没有被人为改动过，数量足够大，就应该符合本福特定律的。下图是最近美国一位数据专家罗伯特·博耐瓦托（Robert Bonavito），根据大选期间公布的宾夕法尼亚州的选举票数作出的分析图。左图是民主党候选人拜登的选票分析，右图是现任总统川普的，两人在宾州的总得票数都超过了三百万票，数据足够大了。大家可以通过这张图自己分析一下，宾州的选票统计有没有造假？

网友分享在meiguo.com上的图片
Robert Bonavito 的分析图。图源：视频截图 https://www.youtube.com/watch?v=1ald3w9FBmA