二项分布、泊松分布到底该如何近似计算？-张驰咨询 [复制链接]

qrcode

查看: 970 | 回复: 0

昭通兼职

发表于: 2017-11-20 15:03:56 | 只看该作者 |只看大图 |倒序浏览

楼主

46ef00043cb150a90dff (13.76 KB, 下载次数: 11)

下载附件保存到相册

2017-11-20 15:03 上传

本文来自一位冤家的发问：“1.请问应该根据什么判别二项分布应该运用泊松作为极限分布还是运用正态分布呢？2.假如曾经判别应该用泊松作为该二项分布的极限分布，能否还应判别此泊松分布能否应该极限于正态分布呢？假如不需再判别，那么应该在什么时分判别泊松分布能否极限于正态分布呢？”这个成绩让我一下愣住了，文章中不是曾经说了吗？为什么还有这样的成绩？
绝大部分教科书在谈到成绩1时，基本上都是这句话：当p很小，n很大，且np趋于常数时，可以用泊松分布来近似二项分布。但成绩是p多小算很小，n多大算很大呢？这个成绩很多教科书和教材没有给出说法。
好在如今有计算机，有软件，计算概率是个很轻松的事情，我们不妨来选几个参数来对比一下。
普通来说，p小于0.1叫很小，n大于100叫很大，我们可以选择np(=λ)为10、5、1三种常数时，n为100、200、400、800四种样本量来模拟对比，此时p应跟着样本量的增大而减小以保持np不变。
下表为np=10是二项分布与泊松分布的对比。概率非常小的时分，两种分布的偏向比较大，可以暂时不思索，重点观察概率较大的部分能否存在较大的偏向。

46ef00043cb46d94386b (86.14 KB, 下载次数: 11)

下载附件保存到相册

2017-11-20 15:03 上传

www.6sigmambb.cn

表1：np=10二项分布与泊松分布对比
可以看到，随着样本量的添加，两种分布的偏向在减小。假如说样本量为100的时分偏向还不太可以接受，那么样本量达到200时，次要部分的偏向曾经可以控制在5%以内了。假如你计算的x值比较接近中间地位，用泊松分布就可以比较好地对二项分布近似了。n达到800(此时p=0.0125)时，偏向就非常小了。
下面两张表分别是np=5，np=1的对比，请自行判别。

46eb00049d78da7134ce (51.96 KB, 下载次数: 13)

下载附件保存到相册

2017-11-20 15:03 上传

www.6sigmambb.cn

46ed0004830d08268770 (52.93 KB, 下载次数: 12)

下载附件保存到相册

2017-11-20 15:03 上传

www.6sigmambb.cn

综合这三张表可以看出，当n越大，两种分布的偏向越小，p越小，两种分布的偏向也越小。即便是p=0.1，n=100时，在概率较大的区域(6≤x≤15)，两种分布的偏向也是可以接受的。当然假如你想保险一些，可以把n的界限选大一些，p的界限选小一些。
下面再谈第二个成绩。几乎一切的教材上都是这么说的：二项分布当np和n(1-p)均大于或等于5时，泊松分布当λ≥20时，用正态分布可以很好地近似计算。
我们先看看二项分布的正态近似。用正态分布来近似，其均值为np，方差为np(1-p)，下表列出了二项分布选择几种参数(n均为100)时与正态分布的对比。由于正态分布是延续分布，因此采用累积概率分布来计算，默许计算左侧的概率。

46ef00043cb3bad0a897 (93.2 KB, 下载次数: 11)

下载附件保存到相册

2017-11-20 15:03 上传

www.6sigmambb.cn

别被表中1千多万倍的偏向吓住了，这些概率都小到可以忽略不计了，偏向大一些对于近似计算来说有关紧要。我们要重点关注均值以及3σ以内的概率偏向。看看表中标红的部分，偏向不小，而且正态分布总是小于二项分布。下图更直观一些。

46f100021d71c01f2b64 (18 KB, 下载次数: 11)

下载附件保存到相册

2017-11-20 15:03 上传

www.6sigmambb.cn

图1：二项分布与正态分布累积概率对比
这种状况是由于二项分布是团圆数据分布，其分布曲线不是延续的，而正态分布曲线则是延续的。在下图中我们可以看到，普通取团圆概率台阶的中点连线画出拟合的延续曲线，这样计算出来的左侧概率就小不少。

46ee00045d1bed77d4bc (12.66 KB, 下载次数: 15)

下载附件保存到相册

2017-11-20 15:03 上传

www.6sigmambb.cn

图2：概率分布拟合
为了处理这个成绩，需求停止延续性校正(correction forcontinuity)，计算左侧概率时x要加0.5。相反的，计算右侧概率时，x要减0.5。下表就是延续性校正后计算出的概率对比。

46ec00049f207ab8c29b (93.6 KB, 下载次数: 14)

下载附件保存到相册

2017-11-20 15:03 上传

www.6sigmambb.cn

46ec00049f21a49cce15 (20.1 KB, 下载次数: 14)

下载附件保存到相册

2017-11-20 15:03 上传

www.6sigmambb.cn

图3：延续性校正后二项分布与正态分布累积概率对比
经过延续性校正后，两种分布的概率值偏向变得很小了。当然假如np刚好等于5时，且p很小时，二项分布的对称性不是很好，见下图。此时用正态近似要小心一些。

46ee00045d1e0a0809c0 (14.9 KB, 下载次数: 12)

下载附件保存到相册

2017-11-20 15:03 上传

www.6sigmambb.cn

图4：n=100，p=0.05二项分布与正态分布概率密度对比
假如np仍为5，但p值大一些，n小一些，如n取20，p取0.25，此时分布的对称性就要好一些。

46ee00045d1d7947a4b0 (12.46 KB, 下载次数: 12)

下载附件保存到相册

2017-11-20 15:03 上传

图5：n=20，p=0.25二项分布与正态分布概率密度对比
下面我们在看看泊松分布的正态近似成绩。此时正态分布的均值和方差都等于λ。取λ=20、25、30，我们看看近似的效果。(为了控制文章的篇幅，直接停止延续性校正)

46eb00049d7c3392f810 (105.91 KB, 下载次数: 15)

下载附件保存到相册

2017-11-20 15:03 上传

www.6sigmambb.cn

46f00002bff0dea3ef40 (107.89 KB, 下载次数: 13)

下载附件保存到相册

2017-11-20 15:03 上传

www.6sigmambb.cn

用下图可以直观地看出，两种分布之间的差异曾经很小了。

46f00002bff1e3a4d619 (19 KB, 下载次数: 16)

下载附件保存到相册

2017-11-20 15:03 上传

www.6sigmambb.cn

图6：λ=20,25,30时，泊松分布与正态分布对比
本文的分析协助理清最熟习的几个分布之间的关系，经典的说法其实是给出了最低的要求，但假如对精度要求较高，特别是在需求运用分布两端的概率时，建议不要运用近似方法。好在如今用软件计算概率非常方便，这也是技术提高给我们带来的好处。
当然有的时分计算准确概率的运算量宏大，比如列联表中Fisher准确检验，当样本量很大时，其计算量成指数级增长。此时用正态近似则可以大大节省计算量，而且精度也能得到保证。
有一点建议给大家，假如在假设检验时用正态近似计算出的p值与α值很接近，不妨再计算一下准确概率，以求获得更准确的结果。
古人云：“尽信书不如无书”，在看书时多问几个为什么，本人亲身动手验证一下，可以加深对内容的了解，将其变成本人的东西，这样也不容易遗忘。

文章来源：今日头条(发布内容请上昭通热线网www.ztrxw.cn)