PLSA(Probabilistic Latent Semantic Analysis)概率潜在语义分析, 与LSA相比, 有着更坚实的数学基础.
意向模型
PLSA的核心思想即是意向模型(Aspect Model). 对于主题, 将其对应于隐变量z∈Z={z1,⋯,zK}, 并与词汇w∈W={w1,⋯,wM}和文档d∈D={d1,⋯,dN}联系起来, 组成统计模型. 同时我们认为每篇文本的每个单词生成过程如下:
因此有以下关系:
wj产生只依赖于zk, 不依赖与di
则模型可以表示为词与文档的联合概率:
利用贝叶斯公式, 将(1)变换为:
使用极大似然估计, 计算PLSA模型的参数:
其中n(di,wj)是词汇wj在文档di中出现的次数.
模型拟合
由于隐变量, 使用EM算法求解.
E步
利用当前估计参数值计算隐变量z的后验概率.
M步
使用E步得到的z的后验概率, 极大化似然函数, 更新参数P(wi∣zk)和P(zk∣di).
其中n(di)=n(di,wj), 第一项是常数项, 因此极大化L等价于极大化第二项:
令Lc=i=1∑Nj=1∑Mn(di,wj)logk=1∑KP(wj∣zk)P(zk∣di), 对Lc求期望得:
又有限制:
因此问题转化为带约束条件的极大值问题, 引入Lagrange函数τk, ρi, 有:
因此问题转换为maxH. 对H求每个参数的偏导数, 并令偏导数都为0, 得到:
由(10)得到:
再利用(9)的限制, 对上面两式的两侧求和, 可得:
τk=j=1∑Mi=1∑Nn(di,wj)P(zk∣di,wj),k=1,⋯,K
将(13)带入(12)得到最终结果:
E步和M步之间不断迭代, 直到收敛.
PLSA缺点
PLSA不是一个生成模型. PLSA只能对训练的文本得到降维主题向量, 由P(z,d)组成. 对于新的文本, 没有方法得到主题向量.
PLSA与LSA的联系
相似性
将(3)重写为矩阵形式, 定义矩阵:
T^=(P(di∣zk))i,k
S^=diag(P(zk))k
D^=(P(wj∣zk))j,k
则联合概率模型P可以写为P=T^S^D^T, 与LSA的形式一致.