输入表示

输入表示

Input:每个输入序列的第一个token [CLS]专门用来分类,直接利用此位置的最后输出作为分类任务的输入embedding

从直观上来说,在预训练时,[CLS]不参与mask,因而该位置面向整个序列的所有positionattention[CLS]位置的输出足够表达整个句子的信息,类似于一个global feature;而单词token对应的embedding更关注该token的语义语法及上下文信息表达,类似于一个local feature

Position Embeddings: transformerPosition Encoding是通过sin, cos直接构造出来的,Position Embeddings是通过模型学习到的embedding向量,最高支持512维。

Segment Embeddings:在预训练的句对预测任务及问答、相似匹配等任务中,需要对前后句子做区分,将句对输入同一序列,以特殊标记[SEP]分割,同时对第一个句子的每个token添加Sentence A Embedding,第二个句子添加Sentence B Embedding,实验中让$E_A$ =1, $E_B$ =0

Fine-tune

针对不同任务,BERT采用不同部分的输出做预测,分类任务利用[CLS]位置的embeddingNER任务利用每个token的输出embedding

上一页