文章目录
论文信息
1. 论文内容
2. 论文结论
2.1 微调流程
2.2 微调策略(Fine-Tuning Strategies)
2.3 Further Pretrain
3. 论文实验介绍
3.1 实验数据集介绍
3.2 实验超参数
3.3 Fine-Tuning策略探索
3.3.1 处理长文本
3.3.2 不同层的特征探索
3.3.3 学习率探索(灾难性遗忘探索)
3.3.4 不同层使用不同学习率
3.2 Further Pretraining探索
3.2.1 step次数
3.2.2 使用交叉领域(Cross-Domain)数据进行Further Pretrain
3.2.3 比较不同的模型与BERT微调策略
3.3 多任务微调探索
3.4 小样本探索
3.5 对BERT-Large使用Further Pretraining
4. 总结
文章目录
论文信息
1. 论文内容
2. 论文结论
2.1 微调流程
2.2 微调策略(Fine-