Beta分布
引入
有一个魔盒,上面有一个按钮,你每按一下按钮,就均匀的输出一个[0,1]之间的随机数,我现在按10下,我手上有10个数,你猜第7大的数是什么,偏离不超过0.01就算对.
数学抽象如下:
==很重要的题外话: 在概率统计学中, 几乎所有重要的概率分布都可以从均匀分布中生成出来. 尤其是在统计模拟中, 所有统计分布的随机样本都是通过均匀分布产生的.==
对于上面的游戏而言, , 如果我们能求出的分布的概率密度, 用概率密度的极值点去做猜测就是最好的策略.
推导得到Beta分布
尝试计算落在一个区间的概率, 即求:
把分成三段: . 先考虑简单的情形: 假设个数中只有一个落在了区间内, 则中应该有个数, 中应该有个数. 构造一个符合上述要求的事件:
则有:
则有:
这个就是一般意义上的Beta分布.
Beta-Binomial共轭
引入
对于上面的游戏, 再给5个[0,1]之间的随机数, 告诉这5个数中的每一个和第7大的数相比, 谁大谁小, 然后继续猜第7大的数是多少.
数学形式为:
推导
根据贝叶斯推理的逻辑, 把以上过程整理如下:
贝叶斯参数估计的基本过程是先验分布 + 数据的知识 = 后验分布, 以上贝叶斯分析过程的简单直观的表述就是:
这个式子实际上描述的就是Beta-Binomial共轭.
==共轭的意思就是==: 此处, 数据符合二项分布的时候, 参数的先验分布和后验分布都能保持Beta分布的形式. 这种形式不变的好处是, 我们能够在先验分布中赋予参数很明确的物理意义, 同时从先验变换到后验过程中从数据中补充的知识也容易有物理解释.
Beta分布性质
把Beta分布的概率密度画成图, 会发现它是个百变星君, 它可以是凹的, 凸的, 单调上升的, 单调下降的, 可以是曲线也可以是直线.
而均匀分布也是特殊的Beta分布.
由于Beta 分布能够拟合如此之多的形状, 因此它在统计数据拟合中被广泛使用.
带入上式得到:
这个结论很重要, 例如在LDA数学推导中就需要使用到这个结论.
继续考虑稍微复杂一点情形, 假设个数中有两个数落在了区间中, 对应的事件为:
因此只要落在内的数字超过一个, 则对应的事件的概率就是. 于是有:
其中前面的系数产生的原因为: 个数中有一个落在区间的有种取法, 余下个数中有个落在中的有种组合, 所以跟事件等价的事件一共有个.
我们容易推理得到在这个独立随机变量中是第大的, 根据上一个小节的推理, 此时概率密度函数符合Beta分布, 为, 得到了问题的答案.
是我们要猜测的参数, 推导出的分布为, 称为的先验分布
数据中有个比小, 个比大, 相当于是做了次贝努利实验, 所以服从二项分布
Beta分布中的参数都可以理解为物理计数, 这两个参数经常被称为伪计数(pseudo-count). 因为我们可以把一个Beta分布写成下式来理解:
上式右边的积分对应到概率分布, 对于这个分布我们有:
这说明对于Beta 分布的随机变量, 其均值可以用来估计.
[x,x+Δx] P(E’)=xk−2(1−x−Δx)n−k(Δx)2=o(Δx) [x,x+Δx] [x,x+Δx] (k−1n−1) n(k−1n−1) f(x)=Γ(k)Γ(n−k+1)Γ(n+1)xk−1(1−x)n−k α=k,β=n−k+1 X1,X2,⋯,Xn∼iidUniform(0,1) X(1),X(2),⋯,X(n) Y1,Y2,⋯,Ym∼iidUniform(0,1) P(p∣Y1,Y2,⋯,Ym) X1,X2,⋯,Xn,Y1,Y2,⋯,Ym∼iidUniform(0,1) Beta(p∣k+m1,n−k+1+m2) f(p)=Beta(p∣k,n−k+1) (m1,m2) f(p∣m1,m2)=Beta(p∣k+m1,n−k+1+m2) Beta(p∣k,n−k+1)+Count(m1,m2)=Beta(p∣k+m1,n−k+1+m2) (m1,m2) B(m1+m2,p) Beta(p∣α,β) Beta(p∣1,1)+Count(α−1,β−1)=Beta(p∣α,β) Beta(p∣1,1) Uniform(0,1) p∼Beta(t∣α,β) Beta(t∣α+1,β) ∫01Γ(α+1)Γ(β)Γ(α+β+1)tα(1−t)β−1dt=1 α+βα \begin{align*} P(E) & = \prod_{i=1}^nP(X_i) \\ & = x^{k-1}(1-x-\Delta x)^{n-k}\Delta x \\ & = x^{k-1}(1-x)^{n-k}\Delta x + o(\Delta x) \end{align*}
\begin{align*} E’ = \{ & X_1,X_2\in [x, x+\Delta x], \\ & X_i \in [0,x) \quad (i=3,\cdots,k), \\ & X_j \in (x+\Delta x,1] \quad (j=k+1,\cdots,n)\} \end{align*}
\begin{align*} & P( x \le X_{(k)} \le x+\Delta x) \\ & = n\binom{n-1}{k-1}P(E) + o(\Delta x) \\ & = n\binom{n-1}{k-1}x^{k-1}(1-x)^{n-k}\Delta x + o(\Delta x) \end{align*}
\begin{align*} f(x) & = \lim_{\Delta x \rightarrow 0} \frac{P( x \le X_{(k)} \le x+\Delta x)}{\Delta x} \\ & = n\binom{n-1}{k-1}x^{k-1}(1-x)^{n-k} \\ & = \frac{n!}{(k-1)!(n-k)!}x^{k-1}(1-x)^{n-k} \quad x \in [0,1] \end{align*}
\begin{equation} f(x) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1} \tag{1} \end{equation}
\begin{equation} Beta(p|\alpha,\beta) + Count(m_1,m_2) = Beta(p|\alpha+m_1,\beta+m_2) \tag{2} \end{equation}
\begin{align*} E(p) & = \int_0^1 t*Beta(t|\alpha,\beta)dt \\ & = \int_0^1 t* \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} t^{\alpha-1}(1-t)^{\beta-1}dt \\ & = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} \int_0^1 t^{\alpha}(1-t)^{\beta-1}dt \end{align*}
\begin{align} E(p) & = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} \cdot \frac{\Gamma(\alpha+1)\Gamma(\beta)}{\Gamma(\alpha+\beta+1)} \notag \\ & = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha+\beta+1)}\frac{\Gamma(\alpha+1)}{\Gamma(\alpha)} \notag \\ & = \frac{\alpha}{\alpha+\beta} \end{align}
X1,X2,⋯,Xn∼iidUniform(0,1) X(1),X(2),⋯,X(n) Uniform(0,1) [x,x+Δx] P(x≤X(k)≤x+Δx)=? [0,x),[x,x+Δx],(x+Δx,1] [x,x+Δx] \begin{align*} E = \{ & X_1 \in [x, x+\Delta x], \\ & X_i \in [0,x)\quad (i=2,\cdots,k), \\ & X_j \in (x+\Delta x,1] \quad (j=k+1,\cdots,n)\} \end{align*}