Position Embeddings: transformer的Position Encoding是通过sin, cos直接构造出来的,Position Embeddings是通过模型学习到的embedding向量,最高支持512维。
Segment Embeddings:在预训练的句对预测任务及问答、相似匹配等任务中,需要对前后句子做区分,将句对输入同一序列,以特殊标记[SEP]分割,同时对第一个句子的每个token添加Sentence A Embedding,第二个句子添加Sentence B Embedding,实验中让$E_A$ =1, $E_B$ =0。