一个网站的建设需要哪些流程图,响应式网站404页面怎么做,专业网站设计公司地址,微信网站结构文章目录1 为何来自暗黑大陆2 GPT-3的野心3 GPT-3的效果4 Beyond GPT-3本文为李弘毅老师【來自獵人暗黑大陸的模型 GPT-3】的课程笔记#xff0c;课程视频youtube地址#xff0c;点这里#x1f448;(需翻墙)。
下文中用到的图片均来自于李宏毅老师的PPT#xff0c;若有侵权…
文章目录1 为何来自暗黑大陆2 GPT-3的野心3 GPT-3的效果4 Beyond GPT-3本文为李弘毅老师【來自獵人暗黑大陸的模型 GPT-3】的课程笔记课程视频youtube地址点这里(需翻墙)。
下文中用到的图片均来自于李宏毅老师的PPT若有侵权必定删除。
文章索引
上篇 - 7-3 BERT and its family - ELMo, BERT, GPT, XLNet, MASS, BART, UniLM, ELECTRA, and more
下篇 - 7-5 Multilingual BERT
总目录
1 为何来自暗黑大陆
GPT-3是一个language model它的参数量相当巨大是ELMO的2000倍要训练一个GPT-3大概要花掉1200万美元简直是一个炫富专用的模型GPT-3不光是参数量大它的论文也是相当大啊有72页和本科生的毕业论文差不多了啊
正式因为GPT-3的大大大所以把它称作是来自暗黑大陆的模型这里的暗黑大陆就是全职猎人里的暗黑大陆里面都是巨大的怪兽没看过这部动漫的同学建议补一下。
2 GPT-3的野心
虽然GPT-3和BERT等模型一样但是GPT-3是不需要针对特定的task做finetune的也就是说GPT-3只需要预训练就够了。要是这实现了也太牛了
具体是什么意思呢GPT-3定义了三种learning第一个是few-shot learning就是先告诉模型要干什么然后给几个例子最后给模型一个题目让它做出来第二个是one-shot learning就是告诉模型要干什么然后给一个例子最后给模型一个题目让它做出来最后一个是zero-shot learning就是告诉模型要干什么然后给模型一个题目让它做出来。这就相当于人一样了。而且更值得遗体的是这里的learning并不是要做梯度下降的那种learning而是全都作为输入直接塞进去就可以了这种learning被GPT-3的作者们称作in-context learning。
3 GPT-3的效果
那么花了那么大工作搞出来的GPT-3效果如何呢在42个NLP任务上的平均准确率随参数量的变化如下图所示可见随着参数两的增大准确率是在一直上升的。
GPT-3在closed book QA上的表现如下所示之前的QA都是给一个knowledge source让模型从中找出答案而所谓的closed book就是没有knowledge source的QA就只给问题看模型能不能够打上来。在175B参数量的情况下用few-shot是可以超过SOTA的。
GPT-3咋SuperGLUE的表现如下图所示总结一下就是参数量越大给的例子越多模型的表现就越好。
GPT-3也可以用在生成任务上下图是不同参数量下GPT-3生成的文章让人去辨别是不是机器生成时的准确率当参数量最大时人几乎已经无法辨别出时机器还是人写的了。
GPT-3也会做算术如下图所示问它What is 17 minus 14?这样的两位数的加减法基本都会回答正确但是三位数及以上就不灵了。感觉还是数据驱动的原因。
当然GPT-3也有不擅长的任务比如NLI任务GPT-3的结果就和随便猜的一样。NLI就是给两句话让模型判断是矛盾还是相近还是中立。
4 Beyond GPT-3
既然我们已经有了这么多那么庞大的language model我们自然也要给模型难度更大的任务了比如Turing Advice Challenge就是让模型去reddit让给别人的求助提建议然后看人觉得有用的建议有多少。T5这样的大模型也只有9%的建议是有点用的GPT-3还没试过。可见这是一个很难的任务。期待之后的NLP的发展情况