当前位置: 首页 > news >正文

口碑好的聊城网站建设建筑工程类人才招聘

口碑好的聊城网站建设,建筑工程类人才招聘,做一个wordpress模板下载,wordpress 获取文章时间文 | 王希梅#xff0c;高敬涵#xff0c;龙明盛#xff0c;王建民源 | THUML本文介绍ICML2021的中稿论文#xff1a;Self-Tuning for Data-Efficient Deep Learning#xff0c;就“如何减少对标记数据的需求”这一重要问题给出了我们的思考。论文标题#xff1a;Self-Tu… 文 | 王希梅高敬涵龙明盛王建民源 | THUML本文介绍ICML2021的中稿论文Self-Tuning for Data-Efficient Deep Learning就“如何减少对标记数据的需求”这一重要问题给出了我们的思考。论文标题Self-Tuning for Data-Efficient Deep Learning论文链接http://ise.thss.tsinghua.edu.cn/~mlong/doc/Self-Tuning-for-Data-Efficient-Deep-Learning-icml21.pdfGitHub链接https://github.com/thuml/Self-Tuning引言大规模标记数据集推动深度学习获得了广泛应用然而在现实场景中收集足量的标记数据往往耗时耗力。为了减少对标记数据的需求半监督学习和迁移学习的研究者们从两个不同的视角给出了自己的思考半监督学习(Semi-supervised Learning, SSL)侧重于同时探索标记数据和无标记数据通过挖掘无标记数据的内在结构增强模型的泛化能力而迁移学习(Transfer Learning, TL)旨在将预训练模型微调到目标数据中也就是我们耳熟能详的预训练-微调范式。半监督学习的最新进展例如UDAFixMatch等方法证明了自训练(Self-Training)的巨大潜力。通过弱增广样本为强增广样本生成伪标记(pseudo-label)FixMatch就可以在Cifar10、SVHN、STL-10数据集上取得了令人耳目一新的效果。然而细心的读者会发现上述数据集都是类别数较少的简单数据集(都是10类)当类别数增加到100时FixMatch这种从头开始训练(train from scratch)的自训练方法的表现就差强人意了。进一步地我们在CUB200上将类别数从10逐渐增加到200时发现FixMatch的准确率随着伪标签的准确率的下降而快速下降。这说明随着类别数的增加伪标签的质量逐渐下降而自训练的模型也被错误的伪标签所误导从而难以在测试数据集上取得可观的效果。这一现象被前人总结为自训练的确认偏差(confirmation bias)问题说明Self-training虽然是良药偶尔却有毒。迁移学习在计算机视觉和自然语言处理中被广泛使用预训练-微调(fine-tuning)的范式也比传统的领域适应(domain adaptation)约束更少更具落地价值。然而现有的迁移学习方法专注于从不同角度挖掘预训练模型和标记数据却对更为容易获取的无标记数据熟视无睹。以迁移学习的最新方法Co-Tuning为例它通过学习源领域类别和目标领域类别的映射关系实现了预训练模型参数的完全迁移。然而因为仅仅将预训练模型迁移到标记数据中Co-Tuning容易过拟合到有限的标记数据上测试准确率随着标记数据比例的减少而迅速下降我们将这一现象总结为模型漂移(model shift)问题。为了摆脱迁移学习和半监督学习的困境我们提出了一种称为数据高效深度学习(data-efficient deep learning)的新场景, 通过同时挖掘预训练模型和无标记数据的知识使他们的潜力得到充分释放。这可能是迁移学习在工业界最为现实的落地场景当我们试图获得目标领域的一个优秀模型时源领域的预训练模型和目标领域的无标记数据几乎唾手可得。同时为了解决前述的确认偏差和模型漂移问题我们提出了一种称为Self-Tuning的新方法将标记数据和无标记数据的探索与预训练模型的迁移融为一体以及一种通用的伪标签组对比机制(Pseudo Group Contrast)从而减轻对伪标签的依赖提高对伪标签的容忍度。在多个标准数据集的实验表明Self-Tuning远远优于半监督学习和迁移学习的同类方法。例如在标签比例为15%的Stanford-Cars数据集上Self-Tuning的测试精度比fine-tuning几乎提高了一倍。如何解决确认偏差问题为了找出自训练的确认偏差(confirmation bias)问题的根源我们首先分析了伪标签(pseudo-label)广泛采用的交叉熵损失函数(Cross-Entropy, CE):其中是输入生成的伪标签 而是模型对于样本。通常地大多数自训练方法都会针对confidence做一个阈值过滤只有大于阈值 (比如FixMatch中设置了0.95的阈值)的样本的预测标签才会被视为合格的伪标签加入模型训练。然而如图2所示由于交叉熵损失函数专注于学习不同类别的分类面如果某些伪标签存在错误通过交叉熵损失函数训练的模型就会轻易地被错误的伪标签所误导。为了解决交叉熵损失函数的类别鉴别(class discrimination)特性对自训练带来的挑战最近取得突破进展的基于样本鉴别(sample discrimination)思想的对比学习损失函数吸引了我们的注意。给定由输入生成的查询样本在不同数据增广下生成的副本以及个不同输入生成的负样本则通过内积度量相似性的对比学习(Constrastive Learning, CL)损失函数可以定义为可以看出对比学习旨在最大化同一样本在两个不同数据增广下的表征相似性而最小化不同样本间的表征相似性从而实现样本鉴别挖掘数据中隐藏的流形结构。这种设计与伪标签无关天然地不受错误的伪标签的影响。然而标准的对比学习损失函数未能将标签和伪标签嵌入到模型训练中从而使有用的鉴别信息束之高阁。为了解决这一挑战我们提出了一种通用的伪标签组对比机制(Pseudo Group Contrast, PGC)。对于任何一个查询样本它的伪标签用表示。PGC将具有相同伪标签()的样本都视为正样本而具有不同伪标签()的样本则组成了负样本从而最大化查询样本与具有相同伪标签的正样本的表征相似性实现伪标签的组对比。那么为什么PGC机制就可以提高对错误的伪标签的容忍度呢我们认为这是因为PGC采用了具有竞争机制的softmax函数同一伪标签下的正样本会互相竞争。如果正样本的伪标签是错误的这些伪标签的样本也会在竞争中落败因为那些具有正确伪标签的正例样本的表征与查询样本的表征更相似。这样的话模型在训练过程中会更多地受到正确的伪标签的影响而不是像交叉熵损失函数那样直接地受到错误的伪标签的误导。我们在CUB数据集上的分析实验也证明了这一点1. 在模型训练伊始Self-Tuning和FixMatch具有相似的伪标签准确率但是随着模型逐渐趋于收敛Self-Tuning的测试集准确率明显高于FixMatch。2. 在具有不同类别数的CUB数据集上Self-Tuning的测试准确率始终高于伪标签准确率而FixMatch的测试准确率被伪标签准确率给限制住了。如何解决模型漂移问题如前所述当我们只在有限的标记数据集上微调预训练模型时模型漂移问题往往难以避免。为了解决这个问题近期发表的一篇名为SimCLRv2的论文提出可以综合利用预训练模型、标记数据和无标记数据的信息。他们给出了一个有趣的解决方案首先在标记数据集()上微调预训练模型()继而在无标记数据集()上进行知识蒸馏。然而通过这一从到再到的“序列化”方式微调后的模型依然倾向于向有限的标记数据偏移。我们认为应该将标记和未标记数据的探索与预训练模型的迁移统一起来。与SimCLRv2的“序列化”方式不同我们提出了一种“一体化”的形式来解决模型漂移问题。首先与半监督学习从零开始训练模型的通用实践不同Self-Tuning的模型起点是一个相对准确的大规模预训练模型通过更准确的初始化模型来提供一个更好的隐式正则。同时预训练模型的知识将并行地流入标记数据和无标记数据中标记数据和无标记数据产生的梯度也会同时更新模型参数。这种“一体化”的形式有利于同时探索标记数据的判别信息和无标记数的内在结构大大缓解模型漂移的挑战。另一方面在对比学习中负样本的规模越大模型的效果往往越好。与MoCo类似我们也通过引入队列的方式将负样本规模与批量大小(batch-size)解耦使得负样本规模可以远大于批量大小。另一方面队列的方式可以保证每次对比时每个伪类下的负样本数目恒定不受每个minibatch随机采样的影响。与标准的对比学习不同的是由于伪标签的引入PGC需要维护C个队列其中C是类别数。在每次模型迭代中对于无标记样本将根据他们的伪标签渐进地替换对应队列里面最早的样本。而对于标记数据因为他们天然地拥有准确的标签则可以根据他们的标签来更新对应的队列。值得注意的是我们在标记数据和无标记数据间共享了这些队列。这一设计的好处在于将标记数据中宝贵的准确标签嵌入到共享队列中从而提高了无标记数据的候选样本的伪标签准确性。实验在实验部分我们在5种数据集、3种标记数据比例和4种预训练模型下测试了Self-Tuning的效果同时与5种主流迁移学习方法、6种主流半监督学习方法以及他们的至强组合进行了充分的对比。迁移学习的Benchmark我们首先在迁移学习的常用数据集CUB-200-2011, Stanford Cas和FGVC Aircraft下进行实验将标记数据的比例依次设置为15%30%和50%采用ResNet-50作为预训练模型。结果显示Self-Tuning大幅领先于现有方法例如在标签比例为15%的Stanford-Cars数据集上Self-Tuning的测试精度比fine-tuning几乎提高了一倍。半监督学习的Benchmark在半监督学习的主流数据集CIFAR-100、CIFAR-10、SVHN和STL-10中我们采用了类别数最多、最困难的CIFAR-100数据集。由于在ImageNet上预训练的WRN-28-8模型尚未公开我们采用了参数少得多的EfficientNet-B2模型。实验结果表明预训练模型的引入对于半监督学习有如虎添翼的效果。同时由于采用了对伪标签依赖更小的PGC损失函数Self-Tuning充分挖掘了预训练模型、标记数据和无标记数据的所有信息在各种实验设定下均取得了state-of-the-art的测试准确率。无监督预训练模型为了证明Self-Tuning可以拓展到无监督预训练模型中我们做了MoCov2迁移到CUB-200的实验。无论是每类4个样本还是每类25个样本的实验设定Self-Tuning相较于迁移学习和半监督学习的方法都有明显提升。命名实体识别为了证明Self-Tuning可以拓展到自然语言处理(NLP)的任务中我们在一个英语命名实体识别数据集CoNLL 2003上进行了实验。按照Co-Tuning的实验设定我们采用掩蔽语言建模的BERT作为预训练模型。以命名实体的F1得分作为度量指标的话fine-tuning的F1得分为90.81BSS、L2-SP和Co-Tuning分别达到90.85、91.02和91.27而Self-Tuning取得了明显更高的94.53的F1得分初步证明了Self-Tuning在NLP领域的强大潜力。更加详尽的NLP实验会在未来的期刊版本中进行拓展。消融实验在消融实验部分我们从两个不同的角度进行了对比。首先是损失函数PGC损失函数比Cross-Entropy和Contrastive Learning的损失函数有明显提升。其次是信息的探索方式无论是去掉标记数据还是无标记数据上的PGC损失函数抑或在标记数据和无标记数据间设置单独的负样本队列都不及Self-Tuning所提的“一体化”信息探索。展望在深度学习社区中如何减少对标记数据的需求是一个至关重要的问题。考虑到迁移学习和半监督学习的普通实践中只关注预训练模型或无标记数据的不足本文提出了一种新的数据高效的深度学习机制可以充分发挥预训练模型和无标记数据的优势。这一机制可能是迁移学习在工业界最为现实的落地场景值得我们继续大力研究。另一方面我们提出的Self-Tuning方法简单通用是迁移学习、半监督学习和对比学习等领域的核心思想的集大成者可以提高对伪标签的容忍度。对于其他需要用到伪标签的场景应该也有一定的借鉴价值。后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集
http://www.yutouwan.com/news/411707/

相关文章:

  • 网站网页设计培训机构成都旅游网站建设规划
  • 南昌网站app开发做最便宜的网站建设
  • 网站转移网站自动适应屏幕
  • 网站设计如何收费公司宣传片视频制作
  • 可以做用户画像的网站品牌策划公司怎么选
  • 南平网站怎么做seo邯郸营销网站建设公司
  • 手机网站用什么软件做海外网站推广公司
  • 网站营销单页怎么做wordpress中文企业模板
  • 网站建设如何描述辽阳网站建设学校
  • 旅游网站建设公司排名深圳做网站设计
  • 新绛做网站wordpress安装错误310
  • 百度搜索工具网站建设及seo
  • 加快网站平台建设可以建设一个网站
  • 有什么做服装的网站seo顾问
  • 昆明做网站方案数据型网站 建设方案
  • 组织建设 湖南省直工会网站企业融资方式有哪些
  • 免费企业网站php源码中国域名注册局官网
  • wordpress 多站点 拷贝济南网站建设 首选搜点网络
  • 网站app 开发中国住房城乡建设部网站首页
  • 扬州集团网站建设网站建设哪家售后做的好
  • ps怎样做网站设计建筑设计图设计说明
  • 安徽福凯建设集团网站请人做网站得多少钱
  • 哈尔滨整站优化南通医院网站建设
  • 上海网站建设方案咨询东莞网站建设费用
  • 东营可以做网站的公司在哪营销型网站制作企业
  • 建设主管部门网站网页素材有哪几大类
  • 做的好的食用菌公司网站有邯郸网站设计有哪些
  • 网站建设教程吧评论凡科网站建设怎么样
  • 网站这么推广修改wordpress插件怎么用
  • 乡土文化网站怎么做做哪种网站比较简单