提高文本生成多样性的方法

生成欠缺多样性的影响

文本生成的一个重要的问题, 是使用Seq2seq模型生成出来的内容, 往往形式简单一致, 缺少多样性, 这在很多任务中会影响使用的体验, 如:

  • 开放域对话

  • 相似问生成

  • 使用生成模型进行其他任务的数据增强

改进方法

一般是从以下几个方面提升生成内容的多样性:

  • 最重要的还是训练语料, 丰富训练语料中表达的多样性

  • 修改模型结构: 改进Loss, 设计特殊的模型结构

  • 优化解码方法, 代替Beam Search, 对条件概率施加其他影响

丰富训练数据

一般还是需要通过数据增强来丰富训练的语料. 对文本生成语料的数据增强, 有一些论文研究.

Diversifying Dialogue Generation with Non-Conversational Text

最后更新于

这有帮助吗?