为什么预训练模型只要FT或者PT就效果很好

2021-11-19 23:32:30 阅读：185 来源： 互联网

在我看来，说白了还是这种预训练模型已经见过了各种各样组够多的数据，我们去FT和PT其实就是在告诉模型我想利用如何利用你，我需要你给我做出什么样子的回答。尤其是PT这种模型，为什么few-shot和zero-shot就能起作用，其实就是模型本身已经见过组够多的数据了，我们只需要几个样本告诉他我们需要的是什么就够了。说到底如果想做出好的效果，大的预训练模型是一定要有的，因为目前来讲的机器学习和深度学习的模型都是需要样本训练，往往样本越多效果就越好，显然BERT、GPT3这种大模型见过的数据和我们自己组建模型所能见到的数据根本不在一个量级，自然效果不好。不过BERT这种模型见到的文章句子什么都有，各个领域的也都有，就造成了他存在一定的噪音，在某些精、专领域或许可以单独训练个大模型，这样针对某一领域的解决某类问题效果可能要好于bert(比如当今主要针对中文训练的一些模型就算是一种类似思路，但它只是在语言上，而不是在数据的内容和领域上做了区分)，当然换个角度考虑，bert正是因为如此才有更好的通用性，能够用来解决各种各样的NLP任务

标签：FT,训练,效果,模型,样本,shot,PT
来源： https://blog.csdn.net/liu907011628/article/details/121432919

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

为什么预训练模型只要FT或者PT就效果很好