句子相似性求解总结
无监督方法
使用word embedding, 对句子中所有词的向量求平均, 获得sentence embedding
使用word embedding, 每个词以TF-IDF为权重, 对句子中所有词进行加权平均, 获得sentence embedding
使用word embedding, 每个词以smooth inverse frequency(SIF)为权重, 对句子中所有词进行加权平均, 最后从中减掉principal component(主成分), 获得sentence embedding.
通过Word Mover’s Distance, 直接计算句子之间的相似度
有监督方法
分类任务, 训练一个文本分类器(如CNN结构), 取最后一个hidden layer的输出作为sentence embedding, 其实就是取分类器的前几层作为预训练好的encoder
sentence pair等价判定模型, 这种方法的好处是不仅可以得到sentence embedding, 还可以直接学习到距离度量函数里的参数
参考: 如何计算两个句子之间的相似度?
最后更新于