深度学习：前沿技术-Vanilla Transformer

内容纲要

欢迎转载，作者：Ling，注明出处：深度学习：前沿技术-Vanilla Transformer

简介

Al-Rfou等人基于Transformer提出的一种训练语言模型的方法，来根据之前的字符预测片段中的下一个字符。

详解

它使用x1,x2,...,xn−1 预测字符xn，而xn之后的序列都被mask掉。论文中使用64层模型，并仅限于处理 512个字符这种相对较短的输入，因此它将输入分成段，并分别从每个段（segment）中进行学习，如下图所示。在测试阶段如需处理较长的输入，该模型会在每一步中将输入向右移动一个字符，以此实现对单个字符的预测。

file

简单说：

训练阶段，预测下一个字符的时候，并不是用所有上下文，只是用一个段（segment）的上下文预测。以此训练整个网络。

测试阶段，也是用一个段（segment）大小的context预测下一个字符。

评估结果

该模型在常用的数据集如enwik8和text8上的优于RNN模型。

缺点

训练是以段为单位进行，彼此之间没有信息传递，会影响性能。

参考

Character-Level Language Modeling with Deeper Self-Attention

深度学习：前沿技术-Vanilla Transformer

简介

详解

评估结果

缺点

参考

留言

发表评论