深度学习:前沿技术-Vanilla Transformer
内容纲要
欢迎转载,作者:Ling,注明出处:深度学习:前沿技术-Vanilla Transformer
简介
Al-Rfou等人基于Transformer提出的一种训练语言模型的方法,来根据之前的字符预测片段中的下一个字符。
详解
它使用x1,x2,...,xn−1 预测字符xn,而xn之后的序列都被mask掉。论文中使用64层模型,并仅限于处理 512个字符这种相对较短的输入,因此它将输入分成段,并分别从每个段(segment)中进行学习,如下图所示。 在测试阶段如需处理较长的输入,该模型会在每一步中将输入向右移动一个字符,以此实现对单个字符的预测。
简单说:
训练阶段,预测下一个字符的时候,并不是用所有上下文,只是用一个段(segment)的上下文预测。以此训练整个网络。
测试阶段,也是用一个段(segment)大小的context预测下一个字符。
评估结果
该模型在常用的数据集如enwik8和text8上的优于RNN模型。
缺点
- 训练是以段为单位进行,彼此之间没有信息传递,会影响性能。
参考
Character-Level Language Modeling with Deeper Self-Attention
留言