首位数定理,与其名称相反,并非是一个严格的"定理",而是一个在绝大部分自然数据集中都存在的经验统计规律。这个规律由Newcomb S.于1881年首次发现,并由Benford F.于1938年再次独立提出,所以也被称为Benford定理。首位数定理是说,十进制中一个数字的首位数是d(d=1,2,..,9)的概率遵从如下的对数分布,越大的数字出现的概率越低。
简单地说,一堆从实际生活得出的数据中,以1为首位数字的数的出现概率约为总数的三成,接近直觉得出之期望值1/9的3倍。推广来说,越大的数,以它为首几位的数出现的概率就越低。它可用于检查各种数据是否有造假。
首位数定理的"神秘"性在于,虽然绝大部分自然数据集符合首位数定理,人工伪造的数据集大部分却不满足首位数定理,似乎自然界存在某种特殊的数据生产过程。