提高文本生成多样性的方法

生成欠缺多样性的影响

文本生成的一个重要的问题, 是使用Seq2seq模型生成出来的内容, 往往形式简单一致, 缺少多样性, 这在很多任务中会影响使用的体验, 如:

开放域对话
相似问生成
使用生成模型进行其他任务的数据增强

改进方法

一般是从以下几个方面提升生成内容的多样性:

最重要的还是训练语料, 丰富训练语料中表达的多样性
修改模型结构: 改进Loss, 设计特殊的模型结构
优化解码方法, 代替Beam Search, 对条件概率施加其他影响

丰富训练数据

一般还是需要通过数据增强来丰富训练的语料. 对文本生成语料的数据增强, 有一些论文研究.

Diversifying Dialogue Generation with Non-Conversational Text

上一页文本生成评价指标下一页短语挖掘

最后更新于4年前

这有帮助吗？