参考:可汗学院
从二项分布推导泊松分布
二项分布:P(X=k)=Cnk⋅pk⋅(1−p)n−k
抛硬币
以抛硬币为例,p可以表示抛一次硬币,朝上的概率,P(X=k)表示抛n次硬币后,k个硬币朝上的概率。
车流量估计
将抛硬币的场景转换为估计车流量的场景:在一个小时内,经过路口A的车辆数目为k的概率P(X=k)。车流量场景于抛硬币场景相比,加入了时间约束。如果我们现在继续用二项分布来解决该场景,需要对时间进行离散化。
- 假设一个小时平均车流量是λ
- 将一个小时的观测近似为3600次一秒的观测,即n=3600
- 则一秒钟,车辆通过的概率p=3600λ (PS:此处不够严谨,稍后会介绍)
一小时内,经过路口A的车辆数目为k的概率:
P(X=k)=C3600k⋅(3600λ)k⋅(1−3600λ)3600−k
然而,p=3600λ表示的是一辆汽车在一次观测(我们假设的是一秒)中通过路口A的概率。一秒中,可能会有多辆车经过,因此,时间间隔必须足够小以保证一个时间间隔内只有一辆车通过,即n→∞。
P(X=k)=n→∞lim Cnk⋅(nλ)k⋅(1−nλ)n−k=n→∞limk!n⋅(n−1)⋅...⋅(n−k+1)⋅nkλk⋅(1−nλ)n⋅(1−nλ)−k={n→∞limnkn⋅(n−1)⋅...⋅(n−k+1)}⋅{k!λk}⋅{n→∞lim(1−nλ)n}⋅{n→∞lim(1−nλ)−k}=1⋅k!λkeλ⋅1=k!λkeλ
结论
当二项分布的n很大,p很小时,可以近似为泊松分布。