![]()
数学轶事:解析“斯特林公式”在大数概率中的意义
当计算遇上天文规模的数字,人类的直觉会失灵。18世纪的一个小故事是:为处理人口统计与天体测算,斯特林给出对阶乘的精妙近似,从此把“难以下口的巨数”变成可计算的表达。这便是今天仍广泛使用的斯特林公式,它在大数概率中意义非凡。
斯特林公式写作:n! ≈ sqrt(2πn)·(n/e)^n,常用的对数形式是:log n! ≈ n log n − n + 0.5 log(2πn)。其作用不在“美观”,而在于把离散的阶乘近似为光滑函数,使二项系数、泊松、超几何等分布的概率估计能以对数展开,快速得到渐近分析结论。对数据科学而言,这意味着把不可直算的“组合爆炸”压缩为简单的加减乘除与对数。
为什么它对“大数”特别关键?因为在样本量巨大时,概率质量集中到均值附近,需要准确刻画尾部与峰值。斯特林公式让 C(n,k)=n!/(k!(n−k)!) 的主导规模一眼可见;再配合二阶展开,便能得到“类高斯”的形状,这与中心极限定理不谋而合。许多教科书会自然推得:当 k≈pn 时,C(n,k) 的主量级与信息熵 H(p) 相关,从而揭示“最可能事件”附近的指数级占优。
![]()
小案例:设有百万次抛硬币(n=10^6),想估计“正面比例在50%±0.1%”的概率。直接求和二项分布不可行,但用斯特林公式与对数近似,可把每个二项项的量级化繁为简,得到接近正态密度的近似区间,快速给出置信估计。这种做法贯穿于A/B测试、误码率评估、稀有事件告警阈值设定等实际问题。

可以说,斯特林公式是把“组合数学”与“概率估计”粘合的桥:它让二项分布、极大似然与贝叶斯证据的数量级比较更透明,使我们在大样本场景中稳健选模与设定先验。与其把它当作一条公式,不如把它视为一把钥匙——打开从离散到连续的门,让不可能的计算变得可控、可解释、可优化。
![]()
