Gavin老师Transformer直播课感悟 - BERT分类任务案例实践及Fine-tuning

     一、BERT微调( Fine Tuning)背后的数学机制

        在BERT的微调背后,有一整套的数学机制和一整套的工程实践,还有很多看起来不太明显的技术细节,而这些细节会在很大程度上影响BERT的训练结果。对于迁移学习(Transfer Learning)来说,BERT的微调并不是一个必不可少的环节,举个例子,在计算机视觉(Computer Vision)识别领域,使用BERT做好的模型在很多场景下可以直接使用,而在NLP领域,虽然我们也是在模型中使用了迁移学习,但是微调能够使模型更好地适配任务。BERT之所以能成功处理各种分类任务,是基于Transforer的encoder 架构,使用了"dense vector"来更好地表达输入信息。从传统机器学习(Traditional ML)和迁移学习(Transfer Learning)对比看,传统的方式是一种相对隔离的,单个任务的学习,在迁移学习中,假设有两个数据集,分别对应两个学习任务,第一个任务学习到的知识通过模型保留下来,然后传递给第二个任务,这就是一个迁移模型的过程,从数学的角度看,这个过程包含了MLE, MAP, Bayesian的运用,在前馈神经网络刚开始训练时,会最大程度靠近实际数据(MLE);然后通过反向传播调整模型,这就是MAP的思想;从不同的视角出发,采用抽样方式在一个模型中尽可能多地用类似很多小模型的方式同步地对数据进行处理,这就是Bayesian的思想。

        在下图中的迁移学习部分,可以把task2看做是一个微调(Fine-tuning)的下游任务,从概率的角度讲,knowledge就是先验信息(Prior)。

猜你喜欢

转载自blog.csdn.net/m0_49380401/article/details/121527027