◇◇新语丝(www.xys.org)(xys8.dxiong.com)(xys.ebookdiy.com)(fangzhouzi.me)◇◇   哈佛教授孟晓犁是否有搞错了?   作者:詹华平   孟晓犁是谁? 从2004年开始,哈佛大学统计系的系主任。   他在杂志《新一代》2015年第12期上发表了一篇面向大众的非学术文章《大 数据:越大越有价值吗?》。我是在文摘杂志《读者》(2016年第4期)上读到的。 在那篇文章里,他举了一个例子用来说明“所谓大数据,并非越大越有价值”。 他的例子如下:   “比如,在美国做一个1000人的抽样调查,这个调查若是在中国做,要达到 同样的精度,需要抽取多少人?美国的人口是3.2亿人,中国的人口是美国的4倍 多一 点。每次我在大学做讲座问到这个问题时,只有10%的人能说出正确答案: 仍需抽样1000人。绝大多数人认为,抽样数必须大于4000。”   然后他进一步用喝汤做比喻,“要确定汤的咸淡,大多数人只需要尝几口, 并不需要把汤全部喝完。......”   关于喝汤的比喻,我是同意的,但是关于抽样调查,我个人觉得有一点点误 导。查一下维基百科 https://en.wikipedia.org/wiki/Standard_error#Correction_for_finite_population , 就可以发现,对于人口是有限多的情况,精确地说需要一个修正项 (在没有这个修正项的情况下,是与人口数无关)。所以要得到同样的精度,严谨 地说抽样数是与总人口数有关的。如果中国人口按14亿算,那么在中国为了同样 的精度,必须抽样4373人。也就是说真地必须大于4000人的。   孟晓犁是哈佛大学统计系的系主任,一年的薪水我估计35万美金。而我的年 薪是2万元人民币不到。如果读者根据年薪来判断,或许他是对的,而我说的是 错误的。 (XYS20160321) ◇◇新语丝(www.xys.org)(xys8.dxiong.com)(xys.ebookdiy.com)(fangzhouzi.me)◇◇