Beta分布
引入
有一个魔盒,上面有一个按钮,你每按一下按钮,就均匀的输出一个[0,1]之间的随机数,我现在按10下,我手上有10个数,你猜第7大的数是什么,偏离不超过0.01就算对.
数学抽象如下:
X1,X2,⋯,Xn∼iidUniform(0,1)
把这n个随机变量排序后得到顺序统计量X(1),X(2),⋯,X(n)
然后求解X(k)的分布是什么
==很重要的题外话: 在概率统计学中, 几乎所有重要的概率分布都可以从均匀分布Uniform(0,1)中生成出来. 尤其是在统计模拟中, 所有统计分布的随机样本都是通过均匀分布产生的.==
对于上面的游戏而言, n=10,k=7, 如果我们能求出X(7)的分布的概率密度, 用概率密度的极值点去做猜测就是最好的策略.
推导得到Beta分布
尝试计算X(k)落在一个区间[x,x+Δx]的概率, 即求:
P(x≤X(k)≤x+Δx)=?
把[0,1]分成三段: [0,x),[x,x+Δx],(x+Δx,1]. 先考虑简单的情形: 假设n个数中只有一个落在了区间[x,x+Δx]内, 则[0,x)中应该有k−1个数, (x,1]中应该有n−k个数. 构造一个符合上述要求的事件E:
则有:
o(Δx)表示Δx的高阶无穷小.
继续考虑稍微复杂一点情形, 假设n个数中有两个数落在了区间[x,x+Δx]中, 对应的事件为:
则有:
P(E’)=xk−2(1−x−Δx)n−k(Δx)2=o(Δx)
因此只要落在[x,x+Δx]内的数字超过一个, 则对应的事件的概率就是o(Δx). 于是有:
其中P(E)前面的系数产生的原因为: n个数中有一个落在[x,x+Δx]区间的有n种取法, 余下n−1个数中有k−1个落在[0,x)中的有(k−1n−1)种组合, 所以跟事件E等价的事件一共有n(k−1n−1)个.
根据上式, 可以得到X(k)概率密度函数为:
利用Gamma函数, 可以把f(x)表达为:
f(x)=Γ(k)Γ(n−k+1)Γ(n+1)xk−1(1−x)n−k
取α=k,β=n−k+1, 得到:
这个就是一般意义上的Beta分布.
Beta-Binomial共轭
引入
对于上面的游戏, 再给5个[0,1]之间的随机数, 告诉这5个数中的每一个和第7大的数相比, 谁大谁小, 然后继续猜第7大的数是多少.
数学形式为:
X1,X2,⋯,Xn∼iidUniform(0,1), 对应的顺序统计量是X(1),X(2),⋯,X(n), 我们要猜测p=X(k)
Y1,Y2,⋯,Ym∼iidUniform(0,1), Yi中有m1个比p小, m2个比p大
问P(p∣Y1,Y2,⋯,Ym)的分布是什么
推导
我们容易推理得到p=X(k)在X1,X2,⋯,Xn,Y1,Y2,⋯,Ym∼iidUniform(0,1)这(m+n)个独立随机变量中是第k+m1大的, 根据上一个小节的推理, 此时p=X(k)概率密度函数符合Beta分布, 为Beta(p∣k+m1,n−k+1+m2), 得到了问题的答案.
根据贝叶斯推理的逻辑, 把以上过程整理如下:
p=X(k)是我们要猜测的参数, 推导出p的分布为f(p)=Beta(p∣k,n−k+1), 称为p的先验分布
数据Yi中有m1个比p小, m2个比p大, Yi相当于是做了m次贝努利实验, 所以m1服从二项分布B(m,p)
在给定了来自数据提供的(m1,m2)的知识后, p的后验分布变为f(p∣m1,m2)=Beta(p∣k+m1,n−k+1+m2)
贝叶斯参数估计的基本过程是先验分布 + 数据的知识 = 后验分布, 以上贝叶斯分析过程的简单直观的表述就是:
Beta(p∣k,n−k+1)+Count(m1,m2)=Beta(p∣k+m1,n−k+1+m2)
其中(m1,m2)对应的是二项分布B(m1+m2,p)的计数.
更一般的, 对于非负实数α,β, 有如下关系:
这个式子实际上描述的就是Beta-Binomial共轭.
==共轭的意思就是==: 此处, 数据符合二项分布的时候, 参数的先验分布和后验分布都能保持Beta分布的形式. 这种形式不变的好处是, 我们能够在先验分布中赋予参数很明确的物理意义, 同时从先验变换到后验过程中从数据中补充的知识也容易有物理解释.
Beta分布中的参数α,β都可以理解为物理计数, 这两个参数经常被称为伪计数(pseudo-count). 因为我们可以把一个Beta分布Beta(p∣α,β)写成下式来理解:
Beta(p∣1,1)+Count(α−1,β−1)=Beta(p∣α,β)
其中Beta(p∣1,1)恰好就是均匀分布Uniform(0,1).
Beta分布性质
把Beta分布的概率密度画成图, 会发现它是个百变星君, 它可以是凹的, 凸的, 单调上升的, 单调下降的, 可以是曲线也可以是直线.
而均匀分布也是特殊的Beta分布.
由于Beta 分布能够拟合如此之多的形状, 因此它在统计数据拟合中被广泛使用.
另外, 如果p∼Beta(t∣α,β), 则有:
上式右边的积分对应到概率分布Beta(t∣α+1,β), 对于这个分布我们有:
∫01Γ(α+1)Γ(β)Γ(α+β+1)tα(1−t)β−1dt=1
带入上式得到:
这说明对于Beta 分布的随机变量, 其均值可以用α+βα来估计.
这个结论很重要, 例如在LDA数学推导中就需要使用到这个结论.