70-BERT 微调
70 BERT 微调
目录
1.intro
与图片分类不同,
2. 具体应用
2.1 句子分类
将句首的
关于为什么要使用
2.2 命名实体识别
命名实体识别即识别一个词元是不是命名实体,例如人名、机构、位置。其方法是将每一个非特殊词元的向量放进全连接层分类(二分类多分类均可
2.3 问题回答
给定一个问题和描述文字,找出一个判断作为回答,微调方法为对片段中的每个词元预测它是不是回答的开头或结束。
总体而言,无论是句子级别还是词级别的分类任务,都只需要在
3. 总结
- 即使下游任务各有不同,使用
BERT 微调时均只需要增加输出层 - 但根据任务的不同,输入的表示,和使用的
BERT 特征也会不一样
在
4.QA
一般不固定,所有权重都进行训练。也可以固定住底部一些层来加速训练,但通常来说不固定效果更好。可以自行尝试固定哪几层在训练速度更快的前提下效果更好
YOLO 的较新版本已经跟之前版本很不一样了,且里面的技术细节很杂多。纯Python 实现的yolo 效果不见得比其他算法好,之所以表现出众是因为加入了大量的技术细节。只给大家实现一个本身大家可能不会太感兴趣。
一般不需要用
C++ ,可以将模型编译到C++ (框架通常有支持) 。但搬到C++ 也不能解决速度问题,BERT 本身比resnet 之类慢很多。
可以用简化版本的
BERT ,如蒸馏版的BERT 大约只有原模型十分之一大小。