Meta刚发了一篇魔改Transformer的论文:The Free Transformer
论文作者François Fleuret在FAIR任职(杨立昆领导的那个研究机构)
大概意思是,现在的Transformer还是遵循一个词一个词预测的模式。该论文用了一种叫“条件变分自编码器”(Conditional Variational Autoencoder, VAE)的方法,让模型在生成文本前先在内部形成一个高层的、抽象的“规划”或“主题”,然后再基于这个规划进行具体的遣词造句。这种方法更符合自然的创作过程,并且以极小的代价换来了在复杂推理任务上明显的性能提升 。
在 1.5B 和 8B 两种规模的模型上进行了评估,用这种方法,大概都有5%左右的性能提升。