识别伪造数据,一般都需要专业人士运用专业知识分析数据,作出判断。有没有一种简单的办法,只对数据本身的结构进行分析,而不用理解数据的专业含义,就能看出数据是否造假了呢?就是“外行”也能看出来数据真假?有!这就是神奇的本福特定律。
图源:网络
本福特定律是说,如果给出一个足够大数量的自然产生的数据,那么其首位开头数字的出现是有规律的,即以数字 1 开头的数据占数据总量的 30.1%,以数字 2 开头的数据占数据总量的 17.6%,等等,以此类推。下面这个表格列出了从 1 到 9 的首位数开头数字的出现概率。
分别以 1 到 9 开头的数据在整个数据中出现的概率列表
根据这个定律,以数字 1,2,3,4,5,6,7,8,9 开头的数据,占整个数据总量的比例是依次递减的,其出现的概率是恒定的。数学表达式如下。
本福特定律公式。n 为首位数字
用这个公式,可以计算出不同的首位数字的数字占比。比如当 n = 1 时,就得出首位数为 1 的出现概率为 0.30102999566, 约为 30.01%。
因为这个定律对数据来源的定义不够规范,所以不能严格的证明。但是,当限定条件后,是可以用数学证明它的正确性的。
这个定律最奇妙的地方在于,只有“自然”产生的数据,也就是没有人为修改过的数据才符合这个规律。否则,这个定律就不适用了。另外数据量越大,其结果拟合得越好,一般至少需要 3000 个以上的数据才行。
西蒙·纽康 (Simon Newcomb)。图源:网络
枯燥的数据竟然还有如此奇特的规律,它是谁发现的呢?最早发现这个有趣现象的是北美(现属于加拿大)天文学家西蒙·纽康(Simon Newcomb)。1881 年,他在翻阅对数表是偶然发现一个现象,前几页的破损程度远超过后面的页数。经过仔细研究他发现,原来自然界中存在的数字不是均匀的,而是首位数为 1 的数据出现的概率总是最大的,首位数为 2 的次之,以此类推。1938 年,物理学家本福特也发现了这个规律,这个规律便以他的名字命名了。
本福特定律在实际中被应用于数据欺骗检测和股票市场分析等领域。最有名的案例是安然公司财务造假案。安然公司曾经是世界上最大的能源和服务公司之一,名列《财富》杂志“美国500强”的第七名。在 2001 年,公司传出财务造假丑闻。有人对安然公司的财务报表数据用本福特定律检验,其结果令人惊讶。下图显示,在 2001 年以前安然公司的报表数据(左图)都严格拟合了本福特定律,只有 2001 年的数据(右图)不符合该定律,显示出有明显的人为篡改痕迹。安然公司随后申请破产倒闭。
安然公司历年财务数据与本福特定律的拟合程度分析图。图源:网络
让我们把这个规律用到当下最吸引眼球的一件事上:美国大选。参选的共和党和民主党正在相互指责对方在计票上造假。正常的计票结果,只要没有被人为改动过,数量足够大,就应该符合本福特定律的。下图是最近美国一位数据专家罗伯特·博耐瓦托(Robert Bonavito), 根据大选期间公布的宾夕法尼亚州的选举票数作出的分析图。左图是民主党候选人拜登的选票分析,右图是现任总统特朗普的,两人在宾州的总得票数都超过了三百万票,数据足够大了。大家可以通过这张图自己分析一下,宾州的选票统计有没有造假?
Robert Bonavito 的分析图。图源:视频截图 https://www.youtube.com/watch?v=1ald3w9FBmA
出处:头条号 @此岸彼岸君何在