最后更新于
最后更新于
LSA(Latent Semantic Analysis)潜在语义分析, 又称为LSI(Latent Semantic Index), 是一种常用的主题模型.
文本和词汇之间存在着某种相关关系, 若干篇文本和若干个词汇根据这种相关关系构成了一定的语义结构. 去除结构中冗余次要的影响因素, 达到优化该结构的目的.
将高维度的词汇-文本共现矩阵, 通过奇异值分解(SVD)法, 将原来的文章向量映射到低维度的潜在语义空间中, 即主题空间中, 空间的维度等于主题的数量.
维度降低, 缩小了问题的规模
使得表面毫不相关的词, 体现出深层次的联系
篇文本, 个词汇, 构成一个大小为的词汇-文本共现矩阵. 其中的每个元素值可以是:
第个词在第篇文本中出现的次数
tf-idf值
LSA步骤如下:
反映的不再是简单的词汇出现的频率和分布关系, 而是利用主题表现的强化的语义关系
低位, 有效处理大规模文本库
SVD对数据变化较敏感, 缺乏先验, 显得太机械
bag-of-word模型, 忽略了语法, 词语顺序等信息
超参数: 主题数量对结果有较大影响, 而且模型的表现随着参数变化无规律波动大, 难以调参
SVD将矩阵分解分, 大小为, 大小为对角矩阵, 对角元素为奇异值, 大小为
考虑中最大的个元素, , 即是降维后的维度, 也是主题的数量. 取中相应的个值组成阶对角矩阵, 同时取出中对应的列, 中对应的行, 得到, 其中大小为, 大小为, 大小为, 即是优化后的语义结构
对于新文本, 先将其转化为词汇频率或tf-idf向量, 即一个列向量. 对进行转换得到, 大小为
, 保存了训练中所有篇文本的降维后由主题组成的向量, 将与比较产生相似度的度量