当前位置: 首页 > news >正文

腾讯云建站平台wordpress标签列表内页无效链接

腾讯云建站平台,wordpress标签列表内页无效链接,吴中区做网站,电动车网站建设来源#xff1a;机器学习研究组订阅这个 BLIP 模型可以「看图说话」#xff0c;提取图像的主要内容#xff0c;不仅如此#xff0c;它还能回答你提出的关于图像的问题。视觉 - 语言预训练 (Vision-Language Pre-training#xff0c;VLP) 提高了许多视觉 - 语言任务的性能。… 来源机器学习研究组订阅这个 BLIP 模型可以「看图说话」提取图像的主要内容不仅如此它还能回答你提出的关于图像的问题。视觉 - 语言预训练 (Vision-Language Pre-trainingVLP) 提高了许多视觉 - 语言任务的性能。然而大多数现有的预训练模型只能在基于理解任务或基于生成任务中表现出色。现有的 VLP 方法主要存在两个局限性1从模型角度来讲大多数方法采用基于编码器的模型或者采用基于编码器 - 解码器模型。然而基于编码器的模型很难直接转换到文本生成任务中而编码器 - 解码器模型还没有成功地用于图像 - 文本检索任务2从数据角度来讲像 CLIP、SimVLM 等 SOTA 模型通过在 web 上收集的图像 - 文本对进行预训练尽管扩大数据集获得了性能提升但 web 上的文本具有噪声对 VLP 来说并不是最优。 近日来自 Salesforce Research 的研究者提出了 BLIPBootstrapping Language-Image Pre-training用于统一视觉 - 语言理解和生成任务。BLIP 是一个新的 VLP 框架可以支持比现有方法更广泛的下游任务。BLIP 通过自展标注bootstrapping the captions可以有效地利用带有噪声的 web 数据其中标注器captioner生成标注过滤器filter去除有噪声的标注。该研究在视觉 - 语言任务上取得了 SOTA 性能例如在图像 - 文本检索任务上 recall1 提高 2.7%在图像标注任务上CIDEr 提高 2.8%、VQA 提高 1.6%。当将 BLIP 以零样本的方式直接迁移到视频 - 语言任务时BLIP 也表现出很强的泛化能力。论文一作为Salesforce亚洲研究院高级研究科学家Junnan Li香港大学电子工程学士新加坡国立大学计算机科学博士。他的主要研究兴趣在于自监督学习、半监督学习、弱监督学习、迁移学习以及视觉与语言。 论文地址https://arxiv.org/pdf/2201.12086.pdf代码地址https://github.com/salesforce/BLIP试玩地址https://huggingface.co/spaces/akhaliq/BLIPBLIP 的效果如何呢用户只需上传一张图像或单击内置示例加载图像就可完成。BLIP 模型具有两个功能图像标注和回答问题。这里我们上传了猫咪和狗的图片在图像标注这一功能下模型输出「caption: a puppy and a kitten sitting in the grass一只小狗和一只小猫坐在草地上」如下图红框所示。在回答问题功能下当我们输入问题「what is the color of the puppy小狗的颜色是什么」模型输出「tan棕黄色」。上传著名油画《星夜》在图像标注功能下模型输出「caption: a painting of a starry night over a city一幅描绘城市星空的画」。上传经典动画《龙猫》向模型提问「who is standing next to totoro谁坐在龙猫旁边」模型回答「little girl小女孩」。架构 方法研究者提出的 BLIP 是一个统一的视觉语言预训练vision-language pre-training, VLP框架从有噪声的图像文本对中学习。接下来详细解读模型架构 MEDmixture of encoder-decoder、它的预训练目标以及用于数据集自展的方法 CapFilt。下图 2 为 BLIP 的预训练模型架构和目标。动态运行示意图如下模型架构研究者将一个视觉 transformer 用作图像编码器该编码器将输入图像分解为 patch然后将这些 patch 编码为序列嵌入并使用一个额外的[CLS] token 表征全局图像特征。相较于将预训练目标检测器用于视觉特征提取的方法使用 ViT 在计算上更友好并且已被最近很多方法所采用。为了预训练一个具备理解和生成能力的统一模型研究者提出了多任务模型 MEDmixture of encoder-decoder它可以执行以下三种功能的任意一种单峰编码器基于图像的文本编码器基于图像的文本解码器 预训练目标研究者在预训练过程中共同优化了三个目标分别是两个基于理解的目标和一个基于生成的目标。每个图像文本对只需要一个前向传播通过计算更重computational-heavier的视觉 transformer需要三个前向传播通过文本 transformer其中激活不同的功能以计算以下 3 个损失分别是图像文本对比损失image-text contrastive loss, ITC激活单峰编码器旨在通过鼓励正图像文本对而非负对具有相似的表征来对齐视觉与文本 transformer 的特征空间图像文本匹配损失image-text matching loss, ITM激活基于图像的文本编码器旨在学习捕获视觉与语言之间细粒度对齐的图像文本多模态表征语言建模损失language modeling loss, LM激活基于图像的文本解码器旨在给定一张图像时生成文本描述。为了在利用多任务学习的同时实现高效的预训练文本编码器和解码器必须共享除自注意力self-attention, SA层之外的所有参数。具体地编码器使用双向自注意力为当前输入 token 构建表征同时解码器使用因果自注意力预测接下来的 token。另外嵌入层、交叉注意力cross attention, CA层和 FFN 在编码和解码任务之间功能类似因此共享这些层可以提升训练效率并能从多任务学习中获益。 CapFilt 研究者提出了一种提升文本语料库质量的新方法——CapFiltCaptioning and Filtering。如下图 3 所示CapFilt 引入了两个主要的模块一个是为给定 web 图像生成标注的标注器captioner另一个是消除有噪声图像文本对的过滤器filter。这两个模块都源于同一个预训练 MED 模型并各自在 COCO 数据集上微调。具体地标注器是一个基于图像的文本解码器。它利用 LM 目标进行微调以解码给定图像的文本。比如给定 web 图像 I_w则标注器生成标注 T_s其中每张图像一个标注。过滤器是一个基于图像的文本编码器。它利用 ITC 和 ITM 目标进行微调以学习文本是否与图像匹配。过滤器消除原始 web 文本 T_w 和合成文本 T_s 中的噪声文本其中如果 ITM 头head预测一个文本与图像不匹配则该文本被认为有噪声。最后研究者将过滤后的图像文本对于人工注释对相结合以生成一个新的数据集并用它预训练了新模型。实验结果研究者在 PyTorch 中实现模型并在两个 16-GPU 节点上预训练模型。其中图像 transformer 源于在 ImageNet 上预训练的 ViT文本 transformer 源于 BERT_base。CapFilt 的效果下表 1 中研究者比较了在不同数据集上预训练的模型以验证 CapFilt 在下游任务包括微调和零样本设置下的图像文本检索和图像标注上的效用。下图 4 中给出了一些标注示例以及对应的图像从而在质量上验证了标注器有效地生成新的文本描述过滤器有效地消除原始 web 文本和合成文本中的噪声标注。合成标注的关键多样性 在 CapFilt 方法中研究者使用一种随机解码方法——核抽样nucleus sampling来生成合成标注。下表 2 中与束搜索beam search方法进行了比较可以看到核抽样取得了更好的数据结果尽管由于过滤器更高的噪声比导致了更大的噪声。参数共享与解耦在预训练中文本编码器和解码器共享所有参数除自注意力层外。表 3 评估了使用不同参数共享策略进行预训练的模型性能其中预训练是在 14M 带有 web 文本的图像上进行的。结果表明除 SA 外所有层具有参数共享优于那些没有进行参数共享的同时也减少了模型的大小从而提高了训练效率。在 CapFilt 中标注器和过滤器分别在 COCO 上进行了端到端的微调表 4 研究了标注器和过滤器以共享参数的方式进行预训练的影响。由于参数共享标注器产生的噪声标注不会被过滤器过滤掉这可以从较低的噪声比 (8% 比 25%) 看出。与 SOTA 模型进行比较该研究将 BLIP 与 VLP 模型在视觉 - 语言下游任务上进行了比较。如表 5 所示与现有方法相比BLIP 实现了性能改进。使用相同的 14M 预训练图像BLIP 在 COCO 上的 recall1 比之前的最佳模型 ALBEF 高 2.7%。该研究还通过将在 COCO 上微调的模型直接迁移到 Flickr30K 来执行零样本检索。结果如表 6 所示BLIP 也大大优于现有方法。在图像标注任务上该研究采用两个数据集NoCaps 和 COCO两者都使用在 COCO 上微调并具有 LM 损失的模型进行评估。如表 7 所示使用 14M 预训练图像的 BLIP 显著优于使用相似数量的预训练数据的方法。使用 129M 图片的 BLIP 与使用 200M 图片的 LEMON 相比具有相媲美性能。视觉问答 (VQA) 要求模型在给定图像和问题的情况下预测答案。该研究没有将 VQA 制定为多答案分类任务而是遵循 Li 等人研究将其视为一个答案生成任务它支持开放式 VQA。结果如表 8 所示在测试集上使用 14M 图像BLIP 的性能比 ALBEF 高出 1.64%。使用 129M 图像BLIP 比 SimVLM 获得了更好的性能而 SimVLM 使用了 13 倍多的预训练数据和更大的视觉骨干并附加了一个卷积阶段。更多实验数据请参见原论文。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
http://www.yutouwan.com/news/72545/

相关文章:

  • 哔哩哔哩网站wordpress首页视频自动播放
  • 网站建设时间进度表模板廊坊短视频优化案例
  • 怎么搭建局域网网站网站域名提交
  • “设计网站”wordpress 搜索框插件
  • hemi网站怎么做热图wordpress 导入网站
  • 国家城乡建设网站阿里云wordpress升级
  • 很大气的网站 营销济宁住房和城乡建设局网站首页
  • 个人网站能备案吗网站上线做什么
  • 内网网站建设方案邢台网站网站建设
  • 网站建设:化工青岛网站制作公司哪家正规
  • 湛江制作公司网站网站建设验收单模板
  • 成都做网站设计公司价格寻花问柳-专注做一家男人的网站猪
  • 全站仪建站流程wordpress需要多大数据库
  • dede网站模板客有什么可以接单做设计的网站
  • 昆山做网站的个人福州建设网站设计
  • 重庆做网站 外包公司有哪些北京建设信源资讯有限公司
  • 怎么查看网站哪个公司做的wordpress做图片集
  • 企业形象网站怎么做做进口零食网站
  • 医院网站优化青岛市黄岛区建设局网站
  • 绑定云监控netsdk出错seo外包团队
  • 做网站怎样赚卖流量尚品宅配装修公司官网
  • 网站优化如何收费品牌建设 企业要
  • 做健身网站步骤是网站建设
  • 北京免费网站建设模板抖音代运营公司布马网络
  • 网站系统建设思想如何写绍兴大公司有哪些
  • wordpress网站检测咋样着做自己的网站
  • 不用fash做的视频网站如何做返利网站外推广
  • 如何建立网站站点中企动力福利待遇好吗
  • 查出网站的空间商网站建设十年经验
  • 有做阿里网站的吗网站建设维护培训