◇◇新语丝(www.xys.org)(xys8.dxiong.com)(xys.ebookdiy.com)◇◇   Benford定律与思维误区   作者:江增亚   Benford定律发现至今已过百年,虽然它已经被证明了(参见Hill, T. P. "A Statistical Derivation of the Significant-Digit Law." Stat. Sci. 10, 354-363, 1996),并且在检查数据造假等方面得到了非常广泛的应用,但当它 出现在普通大众的面前时,仍然披着神秘的面纱,作为有“争议”的数学问题存 在。   百度百科等相关科普性文章是这样介绍Benford定律的:   1881年,美国天文学家Simon Newcomb在所发表的论文中描述了一种奇异的 数字分布规律:在图书馆的对数手册中,包含较小数字的那些页比包含较大数字 的页磨损得更严重,而且磨损的程度和数字大小成递减关系。1938年,通用电气 公司的科学家Frank Benford注意到了同样的现象。他收集并验证了20229类不同 的数据集合,其中包括篮球比赛的数字、河流的长度、湖泊的面积、各个城市的 人口分布数字、杂志和报纸中出现的数字,发现在这些数字中,整数1在数字中 第一位出现的概率大约为30%,整数2在数字中第一位出现的概率大约为17%,整 数3在数字第一位出现的概率约为12%,而8和9在数字中第一位出现的概率约为5% 和4%。通过研究,Benford得出了和Newcomb同样的结论:人们处理的数值数据中, 首位出现较小数字的可能性比出现较大数字的可能性大。   美国国家标准和技术学院给出了Benford定律的定义:   在不同种类的统计数据中,首位数字是数字d1的概率为   P(D=d1)=lg(1+1/d1),d1=(1,2,3,..9)。   其中,数据的首位数字是指左边的第一位非零数字。例如数据5678、5.678、 0.5678的首位数字均是5。   Benford定律不被人理解的原因是什么,为什么大家在看介绍之前都不约而 同的认为在首位的数字应该以同样的概率出现呢?那是因为大家觉得,从1到9这 九个数字既然都是作为首位数字,那么它们的地位应当是平等的,大家都一样, 都是九分之一,多好。虽然我们已经知道这样的想法是不对的,但是,这样的想 法究竟错在哪里呢?“平等”不正是我们日常生活中追寻的东西吗?把这些问题 先放在一边,我们来看看其他的问题,Benford定律是研究首位数字的,首位数 字有研究价值,末位数字呢?末位数字是0或1,2,…,9的概率一样吗?结果正 如大家想的那样,一样的,是十分之一,这个结论我们甚至可以通过Benford定 律的公式延伸计算得到。那么问题来了,为什么首位各数字概率不同而末位相同 呢?显然“末位”是正常的,也符合我们正常的思维,问题出在“首位”。那么 我们就要来好好分析这个“首位”了。我们一直在追寻“平等”,首位的各数字 真的平等吗,答案是否定的。“首位数字”这一概念把“数”区分对待了,1到9 可以作“首位数字”,而之后的数失去了机会,我们会说这个数首位是1,但从 未听过有人说一个数首位是几十几百。“1234567”与“890”的首位数字分别是 “1”与“8”,而比较两个数的“首位”,比较“12345”与“8”这两个”数” 可能更为恰当。“一叶障目”,“首位数字”这个概念正是让我们的思维陷入误 区,阻碍我们发现真理的那片“叶子”,我们习惯了首位数字这个概念,却忘记 了,数字有十个,数却是数不过来的,首位数字只能是1到9中的一个,但任意一 个数都可以被摆在首位,一旦比较的数组出现位数差异,首位比较则并不应该是 两个数字在比较,而是两个数的比较,这也是为什么位数差是Benford定律不可 或缺的条件的原因。总而言之,Benford定律是探索“首位数字”出现规律的定 律,而我们往往会把比较各个数的“首位数字”与比较这些数“首位的数”混为 一谈,导致大家认为首位数字出现概率应当相同,都为九分之一的错觉。   不仅仅是Benford定律,不仅仅是数学,在日常生活中,我们往往会因为一 些习惯,经验而导致对事物的认识产生偏差,陷入思维误区。要避免陷入这样的 误区,我们在分析问题的时候就要更客观一些,更“平等”一些。   2015年10月26日 ◇◇新语丝(www.xys.org)(xys8.dxiong.com)(xys.ebookdiy.com)◇◇