句子相似性求解总结

无监督方法

  • 使用word embedding, 对句子中所有词的向量求平均, 获得sentence embedding

  • 使用word embedding, 每个词以TF-IDF为权重, 对句子中所有词进行加权平均, 获得sentence embedding

  • 使用word embedding, 每个词以smooth inverse frequency(SIF)为权重, 对句子中所有词进行加权平均, 最后从中减掉principal component(主成分), 获得sentence embedding.

  • 通过Word Mover’s Distance, 直接计算句子之间的相似度

有监督方法

  • 分类任务, 训练一个文本分类器(如CNN结构), 取最后一个hidden layer的输出作为sentence embedding, 其实就是取分类器的前几层作为预训练好的encoder

  • sentence pair等价判定模型, 这种方法的好处是不仅可以得到sentence embedding, 还可以直接学习到距离度量函数里的参数

参考: 如何计算两个句子之间的相似度?

最后更新于