当前位置: 首页 > news >正文

昆明网站设计电话新能源汽车价格表图片及价格表

昆明网站设计电话,新能源汽车价格表图片及价格表,国内网站建设联系电话,网站域名归属权文 | 马杀鸡三明治 源 | 知乎 很久之前老板下任务要试试prompt这个大风#xff0c;但是玩完后发现太菜了所以连文章都没写#xff0c;刚好今天工作比较闲就来写写了。 先上结论#xff0c;连续prompt为运用大模型提供了一种思路#xff0c;其实这种思路早就见过不少了。。。… 文 | 马杀鸡三明治 源 | 知乎 很久之前老板下任务要试试prompt这个大风但是玩完后发现太菜了所以连文章都没写刚好今天工作比较闲就来写写了。 先上结论连续prompt为运用大模型提供了一种思路其实这种思路早就见过不少了。。。 离散prompt才是最佳的姿势但是存在人工设计模板带来变数的问题。 所以prompt真的不太行。 不想看细节的可以直接看总结。 prompt三阶段为 第一阶段离散prompt 第二阶段连续prompt 第三阶段pretrain阶段和下游阶段统一任务类型T5,zeroprompt 这里的第三阶段是个人看法。 为什么要prompt prompt本意在于下游任务使用模型的时候尽可能与预训练模型pretrain阶段的任务保持一致。 我们现在用BERT的方式大多数为finetune这会有以下两点弊端 1.finetune存在上下游阶段任务不一致的问题fintune对BERT原来的结构破坏严重 2.下游任务通过标注数据驱动finetune到一个位置而finetune任务语言上的意义并没有告知给模型。 我们看这两个弊端本质上我们是在做出选择是精确的finetune还是泛化能力很强的MLM。 针对这两点弊端做出改进主要就是pretrain阶段和下游任务阶段能尽可能一致这样才能发挥出MLM的能力。但是这个过程必定有人为因素这个过程也就是第一阶段的离散prompt 第一步构造prompt。 第二步构造MAKS token映射。 为此衍生出autopromptsoft prompt连续prompt等方法 接下来我们具体聊聊这两个劣势。 1.finetune存在上下游阶段任务不一致的问题fintune对BERT原来的结构破坏严重 看第一点pretrain阶段学习最主要的任务是MLM那么我们下游使用能否也是用MLM这就是prompt最开始的思路。问题在于怎么让下游变成MLM任务。 如任务情感分类x 我很累 y负面 第一步构造prompt 那么我们可以这样加入promptprompt 我感觉很[MASK] 于是可以得到给BERT的token为 [CLS]我很累,感觉很[MASK][SEP] 第二步构造MAKS token映射 即MASK预测的token应该怎么样映射到标签比如负面可能的token候选有难受,坏,烦 这样我们就能让上下游一致了。 2.finetune任务语言上的意义并没有告知给模型 我们知道BERT是一个语言模型但是finetune却让他数据驱动参数变化而不是先跟他表明这个任务是干嘛。所以你会发现prompt就是在使用语言的通顺因为pretrain阶段的语料也是通顺的语料所以我们构建prompt希望句子X和prompt接起来是一个通顺的话这样上下游就更一致了。 为了让拼起来的话通顺我们就会结合场景设计prompt比如上面那个案例使用的prompt感觉很[MASK]当然也可以promp心情很[MASK]。 有了上面的思路prompt按阶段开始变种第一阶段是离散prompt后来出现连续prompt。 第一阶段,离散prompt Pattern-Exploiting Training 其实就是我们最开始说的prompt方法, 第一步构造prompt 那么我们可以这样加入promptprompt 我感觉很[MASK] 于是可以得到给BERT的token为 [CLS]我很累,感觉很[MASK][SEP] 第二步构造MAKS token映射 即MASK预测的token应该怎么样映射到标签比如负面可能的token候选有难受,坏,烦 但是这里面两步都涉及人为因素。所以有人做出了改进自然是围绕如何去除人工设计也就是“构造prompt”“MAKS token映射”。 其实在我看来这才是prompt的优势所在但是这个优势又带来了劣势因为有人实验发现prompt的几个字都能导致模型效果的较大的变化。 AutoPrompt 为了去除人工设计带来的变数autoprompt针对自动“构造prompt”自动选择“MAKS token映射”做出方案。 第一步构造prompt 选择loss下降最大的prompt token注意到这里的loss怎么计算呢这一步我们要先给定mask映射词。 这两步骤其实有冲突先有鸡还是先有蛋。。。论文的做法是先用假的prompt喂进去求出mask映射也就是 [CLS] {sentence} [T] [T] [T] [MASK]. [SEP] 然后再用得到的mask映射用数据驱动选择T。 第二步构造MAKS token映射 step1使用上下文的MASK token的output embedding作为x与label训练一个logistic可以理解为logistic得分高的向量他就更能表示label step2使用上下文MASK token的output token的embdding给打分函数取得分top-k 太多细节可以看论文这个方法和finetune差距也有10个点的出入注意到这里的roberta是large的效果比base的BERT好原因就是因为large的mlm能力更强在做MRC任务也知道tiny和base的差距还有base和large的差距。模型参数量越大MLM能力越强。 第二阶段连续prompt 这个阶段prompt开始变味道了,基本思路就是把之前离散的prompt token换成连续的prompt token怎么换呢。 之前离散prompt的是以token喂给bert的比如前面那个情感分类的prompt“我感觉[MASK]”是以token为单位给bert的那连续prompt就是把这些token替换成embedding直接把通过了bert emebdding层的prompt token的向量替换成可训练参数并且冻结整个BERT只训练3*768这个矩阵。比如我这里token emebdding维度为3*768我感觉三个字那么可训练参数就是3*768就是这么回事那具体还有些骚操作可以玩 1比如这里的3*768那能不能20*768呢这个也是个不可控的东西可以做实验。 2能不能给BERT每层encoder整上3*768呢意味着每层的encoder通过self attention把每层的3*768的信息交互进模型。 3可不可以不用[MASK]映射了我直接使用CLS来分类。 以上讲的3点都是P-tuning v2的做法至于P-tuning v2之前的玩法就不多说了花样没有P-tuning v2多但是P-tuning v2的效果在large模型上是接近finetune的而且你不需要训练太多参数就可以撬动一些大模型了包括Prefix-tuning也说了他们不需要训练太多参数就可以撬动一些大模型了但是这个玩法不是早就有了吗现在打着prompt的旗号又能水是吧。 此外P-tuning v2中prompt token长度对实验的影响还挺大的而且跟任务具有一定相关性表现很不稳定。论文也没做few-shot实验效果待定。没有说base模型的效果。 其实看到这里你会发现prompt已经变味了严格来说根本不是什么prompt了这种构建可训练向量去控制模型的方法也不稀奇而去除 [MASK]映射换成CLS来分类就更加有fintune那感觉了。由于我没自己去跑跑但是可以看到都是负面评论居多太多负面评价了不列举了。 第三阶段pretrain阶段和下游阶段统一任务类型T5,zeroprompt 最后一提T5和zeroprompt。 T5是google使用ender-decoder结构做的一个大模型T5把pretrain阶段任务和下游阶段任务统一了都做seq2seq任务或者论文里说的text2text任务。 而zeroprompt把各种场景和不同的任务类型分类翻译阅读理解近似句得分等数据以人工设计prompt的方式训练得到一个超级无敌prompt模型其实本质上也是统一了pretrain阶段任务和下游阶段任务都做MLM不同的是zeroprompt为了适应新的任务场景需要一套算法来自动prompt而T5通过固定引导词配对任务类型直接decode出答案。 对比两者T5直接重新设计pretrain阶段任务和下游阶段任务保持一致而zeroprompt本质上也是用了自动prompt的方法但是把中文任务数据都跑了个遍达到了中文prompt一统。 总结 prompt从最开始的人工设计模板到自动prompt再到连续prompt逐渐变的畸形。 最开始的人工设计模板就是为了利用好BERT的pretrain阶段学习到的MLM能力然后用在下游但是人工设计模型存在不稳定的问题自动prompt效果又很差。 于是连续prompt开始表演连续prompt已经没有prompt的味道了把prompt弄成向量通过训练希望模型能自己得到好的prompt向量其实就是在finetune。 所以prompt行不行目前来看不如finetune。但是他具有一定的few shot能力特别是离散prompt。在一些简单的任务是可以直接用离散prompt的方式做到few shot这其实是利用BERT在pretrain阶段学习到的能力但是一旦任务过难那few shot效果会很差远不如标几条数据finetune一下。这里就是涉及到泛化和精准你想要一定的泛化性那就一定牺牲了精准。 最后zeroprompt和T5基本是把prompt的东西都玩完了其实就是pretrain阶段和下游阶段是否一致的问题。 后台回复关键词【入群】 加入卖萌屋NLP、CV与搜推广求职讨论群 后台回复关键词【顶会】 获取ACL、CIKM等各大顶会论文集
http://www.yutouwan.com/news/107406/

相关文章:

  • 想制作一个网站怎么来做jsp网站项目
  • 论坛网站如何备案网络营销公司网络推广
  • 网站开发配置h5免费制作平台易企秀官方
  • 开源程序网站最专业的车网站建设
  • 打电话沟通做网站楚雄州住房和城乡建设局网站
  • 传奇背景图网站怎么做企业为什么要建站
  • 网站集群建设的意义设计工作室网站首页
  • 石家庄栾城区建设局网站申请企业邮箱需要什么
  • 活字格能开发企业网站吗深圳做律师网站公司
  • 网站做app有什么意义安徽蚌埠怀远县建设局网站
  • 鄢陵网站建设电脑建站网站关键词优化工具
  • 龙华品牌网站建设做外贸如何分析客户网站
  • 企业手机网站建设提升用户体验的三个点wordpress 上传目录权限
  • 网站建设结构图深圳建网站兴田德润实惠
  • 超级网站建设老年机浏览器下载怎么安装
  • 建设项目从哪个网站可以查企业电子商务网站的建设方式
  • 做好系部宣传和网站建设试用平台网站建设
  • 整个网站都在下雪特效怎么做济南网络优化厂家
  • 做门窗投标网站php网站开发用什么php
  • 品牌网站建设报价做一个页面多少钱
  • 福州网站开发风格做网站需要准备什么
  • 数据网站建设工具模板智能建站网
  • 网站建设推来客在哪里电商千万不要做虾皮
  • ui培训班教程轻松seo优化排名
  • 大连做网站优化哪家好网站后台是怎么做出来的
  • 宝山区网站建设wordpress二级
  • 北京网站建设公司网络营销外包网络建站报价关键词排名查询工具免费
  • 阳春市住房规划建设局网站wordpress怎么安装ssl
  • 网站页面策划怎么做广州软件开发工资怎么样
  • 网上做兼职的网站有哪些工作qq登录网页手机版