最后更新于3年前
文本生成的一个重要的问题, 是使用Seq2seq模型生成出来的内容, 往往形式简单一致, 缺少多样性, 这在很多任务中会影响使用的体验, 如:
开放域对话
相似问生成
使用生成模型进行其他任务的数据增强
一般是从以下几个方面提升生成内容的多样性:
最重要的还是训练语料, 丰富训练语料中表达的多样性
修改模型结构: 改进Loss, 设计特殊的模型结构
优化解码方法, 代替Beam Search, 对条件概率施加其他影响
一般还是需要通过数据增强来丰富训练的语料. 对文本生成语料的数据增强, 有一些论文研究.