内容纲要

欢迎转载,作者:Ling,注明出处:深度学习:前沿技术-Vanilla Transformer

简介

Al-Rfou等人基于Transformer提出的一种训练语言模型的方法,来根据之前的字符预测片段中的下一个字符。

详解

它使用x1,x2,...,xn−1 预测字符xn,而xn之后的序列都被mask掉。论文中使用64层模型,并仅限于处理 512个字符这种相对较短的输入,因此它将输入分成段,并分别从每个段(segment)中进行学习,如下图所示。 在测试阶段如需处理较长的输入,该模型会在每一步中将输入向右移动一个字符,以此实现对单个字符的预测。

file

简单说:

训练阶段,预测下一个字符的时候,并不是用所有上下文,只是用一个段(segment)的上下文预测。以此训练整个网络。

测试阶段,也是用一个段(segment)大小的context预测下一个字符。

评估结果

该模型在常用的数据集如enwik8和text8上的优于RNN模型。

缺点

  • 训练是以段为单位进行,彼此之间没有信息传递,会影响性能。

参考

Character-Level Language Modeling with Deeper Self-Attention