当前位置: 首页 > news >正文

徐州关键词排名优化上海seo博客

徐州关键词排名优化,上海seo博客,做哪些网站比较赚钱方法有哪些,高端女装论文地址#xff1a; https://kns.cnki.net/kcms/detail/11.2127.tp.20211129.1135.004.html 18页#xff0c;74篇参考文献 目录 摘 要 1 Transformer 基本原理 1.1 编码器-解码器 1.2 自注意力 1.3 多头注意力 2 在计算机视觉领域的应用 2.1 图像分类 2.1.1 iGPT … 论文地址 https://kns.cnki.net/kcms/detail/11.2127.tp.20211129.1135.004.html 18页74篇参考文献 目录 摘 要 1 Transformer 基本原理 1.1 编码器-解码器 1.2 自注意力 1.3 多头注意力 2 在计算机视觉领域的应用 2.1 图像分类 2.1.1 iGPT 2.1.2 ViT 及其改进算法 2.1.3 图像分类算法总结 2.2 目标检测 2.2.1 DETR 及其改进算法 2.2.2 目标检测算法总结 2.3 图像分割 2.3.1 SETR 2.3.2 Segmenter 2.3.3 SegFormer 2.3.4 MaX-DeepLab 2.3.5 VisTR 2.3.6 语义分割算法总结 2.4 识别任务 2.4.1 CVT 2.4.2 PoseFormer 2.4.3 TransReID 2.4.4 LSTR 2.5 图像增强 2.5.1 IPT 2.5.2 TTSR 2.6 图像生成 2.6.1 Image Transformer 2.6.2 VQGAN 2.6.3 TransGAN 2.7 视频处理 2.7.1 MEGA 2.7.2 STTN 2.7.3 TimeSformer 2.7.4 ConvTransformer 3 应用展望 4 结语 参考文献 摘 要 Transformer 是一种基于自注意力机制、并行化处理数据的深度神经网络。近几年基于 Transformer 的模型成为计算机视觉任务的重要研究方向。针对目前国内基于 Transformer 综述性文章的空白对其在计算机视觉上的应用进行概述。文章回顾了 Transformer 的基本原理重点介绍了其在图像分类、目标检测、图像分割等七个视觉任务上的应用并对效果显著的模型进行分析。最后对 Transformer 在计算机视觉中面临的挑战以及未来的发展趋势进行了总结和展望。  计算机视觉通常涉及对图像或视频的评估主要包括图像分类、目标检测、目标跟踪、语义分割等子任务。 近年来深度学习方法应用于计算机视觉的方方面面 研究人员针对不同的任务提出了各种网络模型取得了 一系列显著的研究成果。 基于深度学习的方法在计算机视觉领域中最典型的应用就是 卷积神经网络Convolutional Neural NetworkCNN[1] 。 CNN 中的数据表示方式是分层的高层特征表示依赖于底层特征由浅入深抽象地提取 高级语义特征[2]。 CNN 的核心是卷积核具有平移不变性和局部敏感性等 归纳偏置[3] 可以捕捉局部的时空信息。在过去的 10 年间 CNN 存在很大的优势在计算机视觉领域被人们寄予厚望引领了一个时代。但是卷积这种操作缺乏对图像本身的全局理解无法建模特征之间的依赖关系从而不能充分地利用上下文信息。此外卷积的权重是固定的并不能动态地适应输入的变化。因此研究人员尝试将自然语言处理领域中的 Transformer 模型迁移到计算机视觉任务。相比 CNN Transformer 的自注意力机制不受局部相互作用的限制既能挖掘长距离的依赖关系又能并行计算可以根据不同的任务目标学习最合适的归纳偏置在诸多视觉任务中取得了良好的效果。 Transformer 是由谷歌 2017 年在 文献[4] 中提出的该模型给自然语言处理领域带来极大的震动是一个里程碑式的模型。随着研究的推进最近一些文章 [5、6、7、8、9]创新性地将 Transformer 技术跨领域的引入到计算机视觉任务中开创了视觉领域的新时代代表作如图 1 所示 。2018 年 发 布 的 Image Transformer[5]最早将Transformer 架构迁移到计算机视觉领域。从 2019 年至今基于 Transformer 的视觉模型迅速发展出现了很多值得 关注的新成果。例如2020 年 5 月 Carion 等[6]构建了一种新的物体检测框架 DETRDetection Transformer第一次将 Transformer 应用于目标检测领域。2020 年 7 月 Chen 等[7]提出了 iGPT 模型旨在探索 GPT-2 [10]算法在图像上的性能及无监督准确率的表现。2020 年 10 月 Dosovitskiy 等[8]提出了 ViTVision Transformer模型一种完全基于自注意力机制的图像分类方案这也是Transformer 替代标准卷积的第一部作品。2021 年 1 月 Esser 等[9]构建了 VQGANVector Quantised Generative Adversarial Network将 Transformer 和 CNN 结合应用 是第一个由语义引导生成百万像素图像的 Transformer 架构。基于 Transformer 的模型如雨后春笋般涌现给计算机视觉领域注入了新的活力引领了新的变革。 图 1 Transformer 代表作 Transformer 在计算机视觉领域能够迅速发展的原因主要有以下三个方面 (1) 学习长距离依赖能力强。 CNN 是通过不断地堆叠卷积层来实现对图像从局部信息到全局信息的提取这种计算机制显然会导致模型臃肿计算量大幅增加带来梯度消失问题甚至使整个网络无法训练收敛。而 Transformer 自带的长依赖特性利用注意力机制来捕获全局上下文信息抽取更强有力的特征。 (2) 多模态融合能力强。 CNN 使用卷积核来获取图像信息但不擅长融合其他模态的信息如声音、文字、时间等。而 Transformer 的输入不需要保持二维图像通常可以直接对像素进行操作得到初始嵌入向量其他模态的信息转换为向量即可直接在输入端进行融合。 (3) 模型更具可解释性。在 Transformer 的多头注意力结构中每个头都应用独立的自注意力机制这使得模型可以针对不同的任务在不同的表示子空间里学习相关的信息。 本文对 Transformer 在视觉领域的应用等相关工作进行整理分类对相关模型方法进行分析总结在该领域的研究现状并在文末对 Transformer 的研究方向和发展趋势进行展望。 1 Transformer 基本原理 在 Transformer 提出之前自然语言处理领域应用最广的是 循环神经网络Recurrent Neural Network, RNN[11] 其结构如图 2 所示。 RNN 中含有循环层后一个时刻的输出来自于前面多个时刻的输入和自己当前的状态即网络会对前面的信息进行记忆并作用于输出因此能存储 特征之间的相关性[12] 。但 RNN 只能依次进行顺序计算这种机制带来了两个问题 (1) 当前时刻的计算依赖于前一时刻的计算结果限制了模型的并行能力。 (2) 在计算过程中间隔时间过长的信息会丢失无法建立上下文的长期依赖。 图 2 RNN 结构展开图 Transformer 的提出解决了上面两个问题 (1) 模块之间并行化 提升了模型训练效率符合现代分布式的 GPU 框架。 (2) 使用自注意力机制将给定数据任意两个位置的距离建立联系 保留长距离信息 。 1.1 编码器-解码器 Transformer 采用编码器 - 解码器 Encoder-Decoder 架构由分别堆叠了 6 层的编码器和解码器组成是一种避免循环的模型结构如图 3 所示输入的数据经过 6层的编码器之后输出到每一层的解码器上计算注意力。 图 3 Encoder-Decoder 的 6 层结构 编码器每个层结构包含两个子层多头注意力层 Multi-Head Attention 和前馈连接层 Feed Forward 。 解码器有三个子层结构遮掩多头注意力层Masked Multi-Head Attention多头注意力层 (Multi-Head Attention)前馈连接层 Feed Forward 。每个子层后面都加上残差连接residual connection 和正则化层 layer normalization结构如图 4 所示。 图 4 Transformer 模型结构 从图 4 中可知在解码器中多了一个遮掩多头注意力层Masked Multi-Head Attention 由于前面编码器训练的数据长度不同而解码器通常以数据的最大长度作为计算单元进行训练并且只会受到之前数据对当前的影响不需要后续数据进行参考因此该层会遮掩掉当前位置之后的数据。 由于 Transformer 的计算抛弃了循环结构的递归和卷积无法模拟文本中词语的位置信息因而需要通过位置编码Positional Encoding进行人为添加。给句子中每个词的位置编号每个编号对应一个向量通过结合位置向量和词向量给每个词引入一定的位置信息。 文献[4]通过正弦/余弦函数引入位置编码公式如1所示。 其中 pos 表示单词在句子中的位置 d 表示位置编码的维度2i 表示偶数的维度 2i1 表示奇数维度 ( 即 2i≤d, 2i1≤d)。 位置编码记录了序列数据之间顺序的相关性相比较 RNN 顺序输入 Transformer 方法可以直接将数据并行输入并存储数据之间的位置关系大大提高了计算速度减少了 存储空间[13] 。 此外随着网络的加深数据的分布会不断地变化。为了保证数据特征分布的稳定性引入了层正则化layer normalization 减少信息损失使深度神经网络的训练更加顺利。 以机器翻译为例Transformer 的工作流程如下 Step1将输入的句子通过单词嵌入算法转换为向量使用位置编码获取单词的位置向量两者相加获得模型的输入。 Step2 将 step1 中得到的单词向量矩阵传入编码器经过多头注意力层进入前馈神经网络然后将输出向上传递到下一个编码器。 Stpe3 经过 6 个编码器后得到句子所有单词的编码信息矩阵将矩阵分别传递到 6 个解码器此时解码器的输入来自编码器的输出和前一个解码器的输出矩阵在每个编码器中依次经过遮掩多头注意力层多头注意力层前馈连接层。 Step4 将解码器的输出通过一个线性层之后由Softmax 层转化为概率作为最终输出。 1.2 自注意力 注意力机制Attention Mechanism[14] 模仿了生物观察行为的内部过程增加部分区域观察精细度的机制。 注意力机制可以快速提取稀疏数据的重要特征因而被广泛应用于 机器翻译[15]、语音识别[16]、图像处理[17] 等领域。 注意力机制现在已成为神经网络领域的一个重要概念。其快速发展的原因主要有三个。首先它是解决多任务较为先进的算法其次被广泛用于提高神经网络的可解释性第三有助于克服 RNN 中的一些挑战如随着输入长度的增加导致性能下降以及输入顺序不合理导致的计算效率低下。而 自注意力机制Self-attention Mechanism[18] 是注意力机制的改进其减少了网络对外部信息的依赖更擅长捕捉数据或特征内部的相关性。 Transformer 架构引入自注意力机制避免在神经网络中使用递归完全依赖自注意力机制来绘制输入与输出之间的全局依赖。 文献[4]中使用缩放点积注意力Scaled Dot-Product Attention相比一般的注意力 缩放点积注意力使用点积进行相似度计算在实际中会更快更节省空间基本结构如图 5 所示。在计算时需要将输入通过线性变换得到矩阵 Q(查询)K(键值) V(值)计算公式如2所示。 其中 dk 是矩阵 Q,K 的列数即向量维度。 图 5 缩放点积注意力 图 6 自注意力机制计算过程 以机器翻译为例自注意力机制的计算过程如图 6 所示其步骤如下 Step1 创建 3 个向量。将输入中的每个单词线性投影到三个不同的空间中从而产生三种新向量表示形式 查询Query Q 键值 Key K 值 Value V 。 Step2 计算得分。当我们在某个位置编码单词时 分数决定了对输入句子的其他单词的关联程度。以图 6 为例假设计算第一个单词“thinking” 的自注意力需要根据这个单词对输入句子的每个单词进行评分。 Step3 除以缩放因子。 Step2 中的评分除以缩放因子√dk 键向量维数的平方根原始注意力值均聚集在得分最高的值除以根号 dk 可起到缩放作用分散注意力。 Step4 Softmax 函数标准化。 Softmax 的分数决定了当前单词与句子中每个单词的相关程度。 Step5 将每个 V 向量乘以 Softmax 函数。保持对当前词关注度不变的情况下降低不相关词的关注度。 Step6 累加权值向量。通过累加 Step5 中的向量 产生一个单词自注意力层的输出。 通过自注意力机制计算每个词和所有词之间的注意力使得每个词都有全局的语义信息并且可以捕获 长距离依赖关系。 在计算机视觉中自注意力层以特征图为输入计算每对特征之间的注意力权重从而生成一个更新的特征图其中每个位置都有关于同一图像中任何其他特征的信息。这些层可以直接代替卷积或与卷积层相结合它们能够处理比常规卷积更大的感受野因此能够获取空间上一些长距离间隔特征之间的依赖关系。 1.3 多头注意力 多头注意力机制的本质是 在参数量总体不变的情况下将查询、键、值三个参数进行多次拆分每组拆分参数映射到高维空间的不同子空间中计算注意力权重从而关注输入的不同部分。 经过并行多次计算最后合并所有子空间中的注意力信息公式如3 所示。 其中 为线性变换时的参数矩阵。 由于注意力在不同的子空间中分布不同多头注意力实际上是寻找输入数据之间不同角度的关联从而可以编码多个关系和细微的差别其结构如图 7 所示。 图 7 多头注意力结构 多头注意力赋予了 Transformer 强大的结构多个独立的头部关注不同的信息如全局信息和局部信息从而提取更加全面丰富的特征。 2 在计算机视觉领域的应用 计算机视觉是使计算机能够达到人类那样“看”的学科核心问题是研究如何对输入的图像或视频进行处理使输出的图像或视频质量得到相当程度的改善便于计算机对图像或视频进行分类处理和识别。 受到文献[4]中 Transformer 架构使用自注意力机制来挖掘文本中的长距离依赖关系的启发许多研究者提出将自注意力机制应用于计算机视觉任务克服卷积的归纳偏置所带来的局限性突破图像的感受野限制计算像素与全部图像的关系从而提取上下文的长距离依赖。 本章按照应用场景对视觉 Transformer 模型进行了分类主要包括图像分类、目标检测、图像分割、识别任务、图像增强、图像生成和 视频处理[19、20] 分别列举了Transformer 在视觉任务上的应用如表 1 所示。 表 1 Transformer 在视觉任务应用一览表 2.1 图像分类 图像分类是根据图像的语义信息对不同类别图像进行区分并分配类别标签是物体检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的重要基础。受到Transformer 在自然语言处理领域的成功启发研究人员将 Transformer 迁移到图像方面试图检验相似的模型是否可以学习更全面丰富的图像特征。典型的算法有 iGPT[7]和 ViT [8]系列 。 2.1.1 iGPT Chen 等[7] 受 BERT[45]、GPT-2 [10] 等 Transformer 模型以及其变体在自然语言领域中无监督表征学习的影响提出了 iGPT image GPT 研究了 GPT-2 是否可以学习高质量的无监督图像表示。作者沿用了预先训练pretrain而后微调 fine-tune 的路线并针对两者分别设计了两种不同的实验方式。首先将输入的二维图像分解为长像素序列然后使用自回归auto-regressive 和 BERT 目标 BERT objectives 两种方式预训练模型最后利用线性探针linear probe 或微调来评价预训练模型的优劣通过合成分析自动判定目标类别无需人为标签的指导。 iGPT 能够理解并学习强大的图像特征生成具有清晰可识别的物体样本预训练得到的模型在后续任务上不弱于甚至超过监督学习的模型。实验结果表明在CIFAR-10 数据集上使用线性探针实现了 96.3% 的准确度优于有监督的 Wide ResNet[46] 并且通过完全微调实现了 99.0% 的准确度与顶级监督预训练模型相匹配。 当用像素替换 VQVAE 编码时在 ImageNet 上与自监督的基准比较实现了 69% 的 Top-1 精度。但是该方法存在很大的局限性由于使用了 GPT-2 模型需要大量的计算才能达到有竞争力的效果。此外大多数的无监督方法可以处理高分辨率图像而 iGPT 只能对低分辨率图像建模。因此 iGPT 更重要的意义是在概念上证明了 Transformer 可以无监督地学习图像特征表示。 2.1.2 ViT 及其改进算法 Dosovitskiy 等[8] 首次将原始的 Transformer 模型应用于图像分类任务提出了 ViT Vision Transformer 一种完全基于自注意力机制的结构。作者认为在大规模数据集上不依赖 CNN Transformer 完全可以在分类任务中表现的很好ViT 的框架如图 8 所示。 图 8 ViT 模型结构 为了将图像转化成 Transformer 结构可以处理的序列数据引入了图像块patch的概念。首先将二维图像做分块处理每个图像块展平成一维向量接着对每个向量进行线性投影变换同时引入位置编码加入序列的位置信息。此外在输入的序列数据之前添加了一个分类标志位class更好的表示全局信息。ViT 模型通常在大型数据集上预训练针对较小的下游任务进行微调。在 ImageNet 数据集上VIT-H/14 以 88.55% Top-1 的准确率超越了 EfficientNet 模型[47]成功打破了基于卷积主 导的网络在分类任务上面的垄断比传统的 CNN 网络更具效率和可扩展性。 ViT 是 Transformer 在大规模数据集上替代标准卷积的第一部作品 为 Transformer 在计算机视觉任务的发展奠定了重要的基础。虽然它取得了突破性的进展但缺点也十分明显 1 ViT 将输入图像切块并展平成向量忽略了图像的特有性质破坏了其内部固有的结构信息导致学习效率不高难以训练。 2 ViT 所需的计算资源大在 JFT 数据集上ViT-L/16 的预训练样本达到 100M 时 , 准确率才会高于 BiT [48] 。因此在有限的计算资源和数据的情况下 ViT 难以学到丰富的特征。 针 对 ViT 的缺陷 Han 等[21] 提出了 TNTTransformer in Transformer 一种新型的基于结构嵌套的 Transformer 架构。通过内外两个 Transformer 联合提取图像局部和全局的特征。具体而言在每个 TNT 块中外 Transformer 对图像块之间的关系进行建模内Transformer 对像素之间的关系进行建模经过线性变换将像素级特征投影到图像块所在的空间中并与块信息相加。通过堆叠多个 TNT 块形成 TNT 模型。通过这种嵌套方式块特征可以更好的保持全局空间结构信息 像素特征可以保持局部信息显著提高了模型的识别效果。 Yuan 等[22] 提出了基于渐进式 Token 化机制的 T2T-ViT Tokens-to-Token ViT 同时建模图像的局部结构信息与全局相关性。通过递归聚集相邻的对象逐步将图像结构化为序列组tokens , 继而连接成一个更长的序列token 。这种渐进化机制不仅可以对局部信息建模还能减少 token 序列的长度降低模型的维度减少计算量。同时为了增加特征的丰富性借鉴 CNN 架构的设计思想提出了具有深窄结构deep-narrow 的 ViT 骨干减少了信息冗余参数量和计算量显著降低。T2T-ViT 是以ViT 为骨干网络的一次突破性探索在标准 ImageNet 数据集上达到了 80.7% 的 Top-1 精度超越了模型大小相似的 ResNet50[49] 甚至比 MobileNet 系列[50、51] 更加轻量化。 Jiang 等[23]提出了一种提高 ViT 性能的新的训练目标token Labeling来探索 Transformer 在 ImageNet 分类中的潜力。作者将一张图片分成若干 patch每个 patch 转化为token利用文献[52]中的 Re-labeling 技术得到每个token 的软标签token-label对图像进行重新标注从而将图像分类问题转化为多个 token-label 识别问题。同时在训练模型时使用了 CutMix 技术它能提高模型的性能和鲁棒性。Token Labeling 技术可以改善不同规模的 ViT模型的性能以具有 26M 可学习参数的视觉 Transformer为例可以在 ImageNet 上达到 84.4的 Top-1 精度。 ViT 浅层在视觉任务上有良好的表现一个很自然的问题被提出“Transformer 能否可以像 CNN 一样做的更深”Zhou 等[24]加深了 VIT 模型层次性能迅速饱和。通过研究发现在 ViT 的深层自注意力机制无法学习到有效的特征特征图逐渐趋于相似阻碍了模型获得预期的性能提升。因此作者提出了再注意力机制Re-attention解决了深层 ViT 架构的注意力坍塌attention collapse问题。在 ViT 的深层中同一个序列在不同层之间的注意力图差别较小但同一层不同的头之间差距明显。通过在每一层中加入一个转移矩阵以一种可学习的方式交换来自不同注意力头的信息从而再生注意力图。DeepViT 能够以可忽略的计算和存储成本重新生成注意图以增加其在不同层的多样性并使得 ViT 模型的性能可以随着层数的加深而增加。 2.1.3 图像分类算法总结 目前基于 Transformer 的图像分类研究大致可以分为 iGPT 和 ViT 系列本小节对部分图像分类方法从参数量和 Top1 上的准确率进行了对比如表 2 所示“ -” 表示没有相关数据。此外分析了数据集的大小对模型性能的影响类比了 BiT 和 ViT 的多个变体如图 9 所示。 表 2 部分图像分类方法对比 iGPT 是 Transformer 首次直接应用于图像分类的模型它本身不含卷积网络并且在 CIFAR-10 和 CIFAR-100 数据集上优于如 ResNet 等 CNN 模型。但是它需要对大量数据进行训练并且需要庞大的参数量来实现最佳结果如表 2 所示iGPT 在 CIFAR 数据集上的参数量达到 1362M约是 ResNet-50 的 54 倍而准确率却比ResNet-50 低了 7.2%。ViT 可以获得与当前最优卷积网络 相媲美的结果其训练所需的计算资源大大减少。但是ViT 也具有很大的局限性首先ViT 处理图片的方式不够好无法建模图片的空间信息其次模型深度不够 无法像 CNN 一样扩大层数最后 ViT 模型需要基于CNN 模型的预训练其效果很大程度上取决于预训练模型的结果这些缺陷为后续的改进工作提供了诸多的思路。 此外ViT 模型通常需要大量的数据进行训练如图 9 所示分别在 9M 30M 90M 和 300M 上训练 BiT模型和 ViT 模型从图上可以看出在较小的数据集上BiT 模型表现较好随着训练数据量的增多 ViT 的准确率超过 BiT 。 因此怎样提高 ViT 在小样本上的性能也是未来一个非常值得研究的方向。 图 9 数据量对模型的影响 2.2 目标检测 目标检测任务是 给定一张图像找出其中所有目标的位置并给出每个目标的具体类别。 由于目标会出现在图像中的任何位置形态大小各异图像背景千差万别诸多的干扰因素都使得目标检测在计算机视觉领域是一个具有挑战性的研究。目前主流的深度学习目标检测算法主要分为双阶段检测算法和单阶段检测算法分别以 R-CNN[53]系列 和 YOLO[54]系列 为代表。它们通常需要手动定义一些 锚点或窗口[55] 将检测构建成分类或回归问题间接完成任务。 Transformer 在图像分类上有着良好的表现研究人员将其扩展到目标检测领域其中以 DETR 为典型代表后续的一些目标检测算法几乎都是根据 DETR 进行的改进。 2.2.1 DETR 及其改进算法 Carion 等[6] 重新设计了目标检测框架构建了Detection Transformer DETR 一种基于 Transformer 的物体检测框架总体结构如图 10 所示。 DETR 首先使用CNN 提取图像特征将提取的特征与其位置编码相加传递到编码器中然后将一组对象查询object queries 和 编码器的输出一起作为解码器的输入进行处理最后解码器的每个输出传递到前馈网络Feed Forward Network FFN独立地解码成框坐标和类标签得到最终的预测。 同时将检测结果与真实值ground truth 进行基于匈牙利算法(Hungarian Algorithm) 的二分图匹配计算损失。 DETR 将检测视为集合预测问题简化了目标检测的整体流程根据对象和全局上下文的关系直接并行输出 最终的预测集将需要手动设计的技巧如非极大值抑制Non-Maximum Suppression NMS 和锚点删除实现了端到端的自动训练和学习。与许多其他检测算法不同DETR 在概念上很简单不需要专门的库。经过 COCO 数据集测试DETR 的平均确度 Average Precision AP为 42% 在速度和精度上都比 Faster-RCNN 高 这是第一次将 Transformer 用于目标检测领域。 虽然 DETR 有良好的表现但其仍存在两点局限性。 一方面在 COCO 数据集上小目标的平均准确度 APSAP for small objects仅为 20.5% 检测效果较差。现有的检测器通常利用多尺度特征从高分辨率图像上检测小目标但对于 DETR 高分辨率图像通常带来了极高的计算复杂度另一方面与现有的目标检测器相比DETR 需要更长的训练时间来收敛。这两点缺陷实则是由 Transformer 的固有结构引起的。Transformer 初始化时特征图上像素的注意力权重几乎分布均匀所以需要更多的训练轮次来让注意力权重集中在稀疏有意义的位置。同时注意力权重是基于像素个数的平方计算这使得处理高分辨率特征图的计算复杂度和内存复杂度都非常高。 Zhu 等[25] 针对 DETR 的缺陷提出了可形变 DETRDeformable DETR 融 合 了 可 变 形 卷 积[56] Deformable Convolution 良好的稀疏空间采样优势和Transformer 强大的关系建模能力。可变形卷积将固定形状的卷积改造成了能适应物体形状的可变卷积从而使结构适应物体形变的能力更强。在 Deformable DETR 中作者使用了可变形注意力模块替换 Transformer 的注意力 模块来处理特征图对所有的特征图像素点进行预筛只关注参考点周围少量的关键采样点而不考虑特征图的空间大小大大降低了计算复杂度缓解了收敛性和特征空间分辨率问题。该模块无需 FPN[57] 的帮助 对多个分辨率特征图统一计算注意力实现了不同尺度信息的自动融合能天然地扩展到聚合多尺度特征上。 在 COCO 数据集上相比 DETR Deformable DETR 的训练周期少了 10 倍特别是在小目标检测上提升了 5.9%AP S 。 Sun 等[26] 研究了 DETR 模型收敛慢的问题并分析了 Transformer 解码器中交叉注意模块的瓶颈提出了 DETR 的纯编码器版本 encoder-only 。交叉注意力模块是解码器中的对象查询从编码器中获取目标信息的关键模块不精确的交叉注意力可能导致解码器从图像中提取不够准确的上下文信息。作者通过计算交叉注意力图负熵用来表示注意力图的稀疏性的变化发现随着交叉注意力的持续增加任何一层的稀疏性都在一直变化并没有趋于稳定因此认为交叉注意力部分是影响DETR 模型优化的主要原因在直接去掉了 Transformer的解码器部分后检测精度和训练收敛性上都有了很大的提高。此外设计了一种新的二分匹配方案在 FCOS 网络[58] 的基础上改良了两个模型即 TSP-FCOS 和 TSP-RCNN 改进了纯编码器 DETR 比原始的 DETR 具备更好的性能。 Dai 等[27] 受 NLP 领域无监督预训练的成功启发提出了 UP-DETR Unsupervised Pre-training DETR 。设计了一种“ 随机查询块检测 random query patch detection ” 的预训练任务在没有任何人工注释的情况下对 DETR 中的 Transformer 进行无监督预训练。具体而言将原图输入编码器从原图中随机裁剪若干个图像块输入解码器从原始图像中检测出这些图像块。经过预训练之后的 DETR当输入一个图像块时网络就可以定位到这个块在图像中的位置。同时引入了冻结预训练的 CNN 网络和块特征重构分支以保留 Transformer 的特征判别能力。此外为了同时支持多查询块定位提出了注意力掩码和对象查询洗牌机制解决了查询块和对象查询之间的分配问题。UP-DETR 在 ImageNet 数据集上预训练在 PASCAL VOC 和 COCO 数据集上微调训练 150 个轮次后UP-DETR 的 AP 分别为 56.1%和 40.5%较 DETR 提升了 6.2%AP 和 0.8%AP且收敛速度更快。 Zheng 等[28] 针对 DETR 的高计算复杂性问题提出了 ACT Adaptive Clustering Transformer 一种自适应聚类的 Transformer 变体无需任何训练过程降低了DETR 的推理成本实现了准确率和计算成本之间的良好平衡。ACT 使用局部敏感哈希 Locality Sensitivity Hashing LSH 自适应的对查询特征进行聚类并将原型键交互近似为查询键交互。ACT 是可嵌入式模块无需任何重新训练即可代替 DETR 中的自注意力模块与原始的 Transformer 完全兼容。通过实验 DETR 的计算量floating point operations FLOPS 从 73.4 降低到58.2而 AP 的损失仅为 0.7% 。此外作者同时提出了多任务知识蒸馏Multi-Task Knowledge Distillation MTKD该方法利用原始的 Transformer 通过少许的微调来蒸馏 ACT 模块进一步将 AP 的损失降低到 0.2% 实现 ACT 和原始 Transformer 之间的无缝转换。 2.2.2 目标检测算法总结 与基于 CNN 的目标检测算法相比基于Transformer 骨干网络的方法无论是在精度还是运行速度上都表现出了强大的性能最典型的模型是 DETR 。 DETR 架构从根本上进行了改变 这是第一个将Transformer 成功整合为端到端训练的目标检测框架。 在性能上DETR 可以媲美当前的最先进的方法 state of the art SOTA 方法但架构得到了极大简化。在COCO 数据集上将 DETR 与 Faster R-CNN 基线方法进行了对比如表 3 所示。结果发现 DETR 在大型目标上的检测性能要优于 Faster R-CNN 但在小目标的检测上性能不如后者另外需要更长的训练时间来收敛这也为今后 DETR 的改进提供了新的方向。 表 3 目标识别算法性能比较 2.3 图像分割 图像分割是根据某些规则把图片中的像素分成不同的部分加不同的标签可以看作是图像分类从图像层次到像素级的延伸。图像分割包含语义分割、全景分割、实例分割等子任务为理解完整的现实场景铺平了道路是非常重要且基础的研究方向。 此前图像分割大多数是基于 全卷积网络Fully Convolutional NetworkFCN[59] 体系结构进行的改进。 FCN 通过多次下采样以牺牲空间分辨率为代价来抽取局部或全局特征网络层固定后每一层的感受野是受限的感受野的大小决定了特征是否能捕获更大范围的周边信息甚至是全局信息。 因此如何构造更大的感受野进行上下文建模达到既能抽取特征信息又尽量不损失空间分辨率一直是图像分割的难点。由于图像分类和分割之间有着密切的联系因此许多分割算法将 ViT 作为骨干网络以 SETR[29]、Segmenter[30]和 Segformer[31] 为典型代表。 2.3.1 SETR Zheng 等[29] 为语义分割方法设计了一个新的视角提出了 SETR Segmentation Transformer 将语义分割转变为序列到序列的预测任务摒弃了模型需要通过降低分辨率来学习局部到全局的特征。SETR 部署了一个纯Transformer即不进行卷积和降低分辨率借鉴 ViT [8]模型首先将图像分解为若干固定大小的块进行线性变换将每个块的像素向量和位置编码相加作为编码器的输入。经过 24 层的 Transformer 学习得到图像的全局特征最后使用解码器恢复原始图像的分辨率。此外作者设计了三种复杂度不同的解码器结构对自注意力进行了更深入的研究。SETR 在空间分辨率上没有进行下采样而是在编码器 Transformer 的每一层进行全局上下文建模完全用注意力机制实现了编码器的功能。实验表明与现有的基于 FCN 的方法相比 SETR 可以学习到更好的特征表示。在 ADE20K 数据集上 SETR 单尺度的推理在均交并比mean Intersection over Union mIoU指标上达到了 48.64% 比 ACNET[60] 方法提升了 2.74%。 2.3.2 Segmenter Strudel 等[30]基于 ViT 的研究成果提出了 Segmenter一种用于语义分割的转换器模型。图像分割在单个图像块级别通常是不明确的并且需要上下文信息来达成标签共识。Segmenter 在编码阶段采用了 ViT 模型结构将图像分割成块并进行线性映射经过编码器处理后输出嵌入序列。在解码阶段引入可学习类别嵌入将编码器的输出与类别嵌入一起送进解码器这里使用逐点线性解码器point-wise linear decoder或掩码 Transformer解码器mask Transformer decoder从而获得类标签经过 softmax 及上采样等一系列的操作后输出最终的像素分割图。作者在图像分类上预训练模型在语义分割上进行微调通过实验发现逐点线性解码器可以获得不错的效果使用类掩码 Transformer 解码器可以进一步提高 0.2%-1.22%mIoU。 2.3.3 SegFormer Xie 等[31] 提 出了 SegFormer 一种简单、高效但功能强大的语义分割框架它将 Transformer 与轻量级多层感知器 (MLP) 解码器相结合。 SegFormer 使用一种分层特征表示的方法编码阶段每个 transformer 层的输出特征尺寸逐层递减通过这种方式捕获不同尺度的特征信息同时舍弃了 ViT 中的位置嵌入避免了测试图像与训练图像尺寸不同而导致模型性能下降的问题。所提出的 MLP 解码器 Lightweight All-MLP Decoder 采用简单的MLP 结构聚合编码器层不同尺度的特征从而融合了局部注意力和全局注意力并证明这些简单和轻量级的设计是在 Transformers 上进行高效分割的关键。 在ADE20K 数据集上以 64M 的参数实现了 51.8% mIoU 比 SETR 参数量减少了 4 倍 mIoU 提高了 1.6% 。此外SegFormer 比现有方法对常见的腐蚀和扰动更为鲁棒。 2.3.4 MaX-DeepLab Wang 等[32] 受 DETR 的启发提出了 MaX-DeepLab 简化了依赖子任务和手动设计的组件是第一个用于全景分割的端到端模型。该模型直接预测一组不重叠的掩码及其对应的语义标签并通过使用全景质量Panoptic Quality PQ 样式进行目标优化输出掩码和类别。MaX-DeepLab 采用双路径架构除了 CNN 路径外还引入全局内存路径使 CNN 可以在任何层上读写全局内存从而提供了一种将 Transformer 与 CNN 结合的新方法。MaX-DeepLab 在不增加测试时间的情况下在COCO 测试集上实现了最新的 51.3%PQ 。 2.3.5 VisTR Wang 等[33] 提出了一种新的视频实例分割框架 VisTRVideo Instance Segmentation Transformer 它将视频实例分割任务建模为一个端到端的并行序列的解码、预测问题其核心是一种高效的实例序列匹配与分割策略。给定一个由多个图像组成的视频片段作为输入VisTR从相似性学习的新角度在序列级别上对实例进行整体监控和分段最后直接按顺序输出视频中每个实例的掩码序列在相同的实例分割框架下可以无缝、自然地实现实例跟踪大大简化了视频实例分割的流程与现有的方法大不相同。实验表明在 YouTube-VIS 数据集上使用 ResNet-50 相同的主干VisTR 比 MaskTrack RCNN[61] 的精确度提升了 3.8%AP 在不考虑数据加载过程时速度可以到达 57.7fps 。在使用单一模型的方法中速度和精确度都是最优的。 2.3.6 语义分割算法总结 由于图像分类、目标检测和分割有着密切的联系因此目前分割任务中的算法也是对 ViT 和 DETR 的延伸与改进。如 SETR 是第一个尝试将 ViT 引入语义分割领域并取得了不错的效果迈出了重要的一步但是SETR 将 ViT 作为骨干网络仍存在一些问题1 ViT 是柱状结构输出分辨率低且单一但语义分割对像素的分类及边缘等轮廓细节要求比较精细 2 ViT 使用固定的位置编码但在语义分割测试时往往图片的分辨率不固定要么对位置编码进行线性插值这会损害性能要么做固定分辨率的滑动窗口这样效率很低且不灵活。 因此后续工作可以针对以上两点进行进一步的改进。 表 4 总结了语义分割算法在多个数据集上的检测精度mAP 。基于 Transformers 的模型总体比基于 CNN 的模型表现要好在不同的数据集上都要优于基准线甚至优于最新的 CNN 网络模型。 表 4 语义分割算法性能比较 2.4 识别任务 识别任务是一个综合性的任务它囊括了视觉领域的多种技术如图像分类、目标检测、语义分割、多实例匹配、部件与整体关系的学习、行为推理和时空关系等。本节从面部表情识别、姿态估计、行人重识别和车道线检测四个方面分别列举了目前基于 Transformer 的典型算法。 2.4.1 CVT 面部表情识别 Facial Expression Recognition FER 随着人脸识别的研究而发展在过去几十年取得了实质性的进展但以前的研究主要是在实验室收集的数据集上实现的 现实世界中的遮挡、头部姿势变化和复杂的背景无疑增加了表情识别的难度。 Ma 等[34] 提出了 CVT Convolutional Visual Transformers认为将人脸图像转换为视觉单词序列并从全局角度执行表情识别是可行的设计了一种注意选择性融合Attentional Selective Fusion ASF 方法来汇总全局和局部面部信息引导主干提取所需要的信息以端到端的方式压缩无用信息。此外对具有全局自注意力的这些视觉单词之间的关系进行建模使整个网络能够从全局角度学习特征序列之间的关系从而忽略信息不足的区域。这是首次将 Transformer 应用于面部表情识别CVT 在 RAF-DB 数据集上的正确率达到了 88.14% 比之前 SOTA 的 SCN[62] 方法提升了 1.11% 。 2.4.2 PoseFormer 人体姿态估计 PoseEstimation 是从输入的图像或视频中定位人体部位并建立人体表征如人体骨骼。近年来受到了广泛的关注并已被应用与人机交互、运动分析、增强现实和虚拟现实等任务中。目前在人体姿态估计领域卷积结构仍占主导。 Zheng 等[35] 提出了 PoseFormer 设计了一种不含卷积的时空 Transformer 结构用于视频中的 3D 人体姿态估计。PoseFormer 使用两个维度不同的 Transformer 模块直接对时间和空间进行建模。具体来说首先构建了一个空间模块提取每帧中二维骨架关键点之间的关节联系空间自注意力层会考虑二维关节的位置信息并返回该帧的潜在特征表示。然后构建一个时间模块分析每 个空间特征之间的全局依赖关系并捕捉多帧输入的时间相关性最后输出一个精确的三维人体姿态中心帧。在 Human3.6M 数据集上 PoseFormer 模型在评估关键点位置时产生 44.3mm 的最低 MPJPE Mean Per Joint Postion Error与 METRO[63] 相比 MPJPE 降低了大约18%此外 METRO 中忽略了时间一致性这限制了其姿态估计的稳健性。PoseFormer 可以形象化地估算出 3D姿态并产生更平滑可靠的结果甚至在户外、快速移动和高遮挡的情况下均能达到不错的效果。 2.4.3 TransReID 重识别 Re-identification ReID 是从给定图像或视频中判断是否存在特定对象的技术。例如在监控视频中由于相机分辨率和拍摄角度的缘故人脸识别有时会失效行人重识别就成了非常重要的辅助技术。 He 等[36] 提出了 TransReID Transformer-based Object Re-Identification第一个使用纯 Transformer 进行对象重识别的研究。受 Bag of TricksBoT[64] 的启发以ViT 模型作为特征提取主干构建了一个强大的基准模型 ViT-BOT 它在几个 ReID 基准中取得了与基于 CNN框架相当的结果。作者考虑到 ReID 数据的特殊性设计了 SIE Side Information Embedding 模块通过向量投影来编码不同类型的边界信息以消除由各种相机参数或视角等非可视信息导致的特征偏差。将 ViT-BOT 的最后一层调整为双并行分支结构设计了 Jigsaw 分支与全局分支平衡。在 Jigsaw 分支中构建了一个 JPM (Jigsaw Patch Module)模块通过对图像块打乱重组使模型适应扰动新构建的块中依然包含全局信息从而学习更鲁棒的特征表达。在行人重识别方面TransReID 在数据集 MSMT17 上比之前最先进的 ABDNet[65] 方法提升了 8.6%mAP mean average precision 在遮挡重识别方面在 Occluded-Duke 数据集上在实现了 55.7% 的 mAP 与 PGFA[66] 方法相比提升了约 11.9% mAP 车辆重新识别方面在 Veri-776 数据集上 TransReID ∗ 达到 81.7% mAP超过 SAVER [67] 2.1% mAP 。 2.4.4 LSTR 车道线检测是将车道识别为近似曲线的过程被广泛应用于自动驾驶汽车的车道线偏离警告和自适应巡航控制。目前传统的车道检测算法通常首先生成分割结果然后采用后处理这使得在学习全局上下文和车道的细长结构方面效率很低且存在缺陷。 Liu 等[37] 提出了 LSTR Lane Shape Transformers 一种可以直接输出车道形状模型参数的端到端方法。车道模型借助道路结构和摄像头内参的设定采用多项式参数模型来描述车道线为网络输出的参数提供了物理解释。开发了基于 Transformer 的网络利用自注意力机制对非局部交互进行建模从任何成对的视觉特征中总结信息使其能学习丰富的结构和上下文信息。整个结构快速预测输出并采用匈牙利拟合损失在预测参数和车道真值之间进行匹配保证一对一的无序分配利用匹配结果优化路径相关的回归损失使模型消除了显性的非极大抑制过程。在 TuSimple 基准中相比 PolyLane Net[68] 方法LSTR 的准确度提升 2.82%参数量减少 5 倍运行速度提高了 3.6 倍与最先进的 Line-CNN[69] 相比LSTR 的准确率仅低 0.69% 但是运行速度比它快 14倍。此外在具有挑战性的自收集车道线检测数据集中显示出了出色的适应性。 2.5 图像增强 图像增强是图像处理中一种常用的技术它的目的是增强图像中全局或局部有用的信息。合理利用图像增强技术能够针对性地增强图像中感兴趣的特征抑制不感兴趣的特征有效的改善图像质量。 2.5.1 IPT Chen 等[38] 提出了 IPT Image Processing Transformer 预训练模型完成超分辨率、降噪、去雨等低级视觉任务。由图 11 可知 IPT 框架由多头结构、编码器、解码器和多尾结构组成。首先图像经过头结构变换为特征图进行分块与展平将每个特征向量等同于一个单词送入 Transformer 进行处理。经过整型与拼接还原为与输入相同维度的特征图并通过尾结构解码为目标图像。IPT的多个头结构与尾结构负责维度变换不同的任务共享同一个 Transformer 模块只需要增加新的头结构与尾结构即可这使得多任务的扩展变得简单。为了更好地适应不同的图像处理任务研究者根据特征块之间的相关性引入了对比学习方法作为自监督损失函数使来自于 同一图像的特征块相互接近不同图像的特征块远离。 经过预训练的 IPT 模型只需要在特征任务的数据集上进行微调即可达到很好的效果。在微调阶段只有特定任务相关的头尾结构被激活训练无关的模块暂时被冻结。对于不同倍率的超分辨率任务IPT 在 Urban100 数据集上相较于其他方法普遍能够提升 0.4dB 而对于去噪和去雨任务则提升了 1.6-2.0dB 。 图 11 IPT 模型结构 2.5.2 TTSR 超分辨率技术 Super-Resolution SR 即从低分辨率图像Low Resolution LR) 中恢复出自然、清晰的高分 辨 率 图 像(High Resolution HR) 。 Yang 等[39] 提出了TTSR Texture Transformer Network for Image Super 一种新颖的超分辨率纹理 Transformer 网络。 TTSR 包含四个紧密相关的模块可学习纹理提取器Learnable Texture Extractor LTE 是一个浅层的神经网络在训练过程中不断更新自己的参数以便于提取到最合适的纹理信息相关性嵌入模块Relevance Embedding moduleRE用来建立低分辨率输入图像与参考图像之间的关系输出一个硬注意力图和软注意力图硬注意力模块Hard-Attention module for feature transfer HA 利用硬注意力图中所记录的位置从原参考图像的纹理信息中迁移对应位置的特征块组合成迁移纹理特征图随后与骨干网络中的特征进行通道级联并通过一个卷积层得到融合的特征软注意力模块Soft-Attention module for feature synthesis SA将融合特征与软注意力图进行对应位置的点乘使迁移过来的高频纹理特征得到更准确的利用。TTSR 通过引入一张高分辨率参考图像来指引整个超分辨率的计算过程将复杂的图像纹理恢复过程转化为简单的纹理迁移。这种设计鼓励低分辨率图像和参考图像之间进行联合特征学习通过注意力发现深度特征的对应关系从而实现纹理特征的准确迁移。该模型可以最大程度地利用参考图像有效地搜索与高清的迁移纹理信息解决纹理模糊和失真的问题。从定量和定性的角度TTSR 在 Sun80 和 Manga109 数据集上明显优于 SISR 和 RefSR 方法。 2.6 图像生成 图像生成是指根据输入向量随机噪声或指定的条件向量生成目标图像这就需要一个能够理解图像全局组件的模型使其具有局部真实和全局一致的特性。当 前 的 图 像 生 成 任 务 主 要 是 借 助 生 成 对 抗 网 络Generative Adversarial NetworkGAN[70] 来 实 现 。GAN 通常依赖于生成器 generator 和鉴别器discriminator 。但自然图像的生成门槛较高 GAN 的训练具有较高的不稳定性且优化困难还可能导致特征分辨率和精细细节的损失例如图像模糊。 2.6.1 Image Transformer Parmar 等[5] 受 卷 积 神 经 网 络 的 启 发 迈 出 了Transformer 模型到图像转换和生成任务的第一步提出了 Image Transformer 。其采用了一种图像生成公式类似于 Transformer 框架内的序列建模由两部分组成用于提取图像表示的编码器和用于生成像素的解码器。将图像生成视为一个自回归问题即每个新像素的生成只考虑图像中已知的像素值在每次特征生成中自注意力都将各个特征块作为上下文生成未知像素值表示。但是该模型有个明显的缺点只重点关注局部注意范围图像的生成依赖于每个像素其周围的取值一次只能执行一步并且要以失去全局接受域为代价增加了存储和计算成本。 2.6.2 VQGAN Esser 等[9] 提出了 VQGAN Vector Quantised Generative Adversarial Network结合了 CNN 的有效归纳偏置和 Transformer 的表达能力这是第一个由语义引导生成百万像素图像的Transformer 架构。作者使用 CNN 架构对图像成分进行建模Transformer 架构对成分进行合成将图像表示为由感知丰富的图像成分组成克服了直接在像素空间中对图像进行建模时难以实现的平方级复杂度充分挖掘了两者互补优势的潜力。此外作者使用对抗性的方法来确保局部字典捕获感知上重要的结构减少 Transformer 架构建模低层统计的需要专注于建模远程关系的独特优势从而生成高分辨率图像。VQGAN无需重新学习图像局部结构中已知的、规律性的所有知识在有效编码归纳偏置的同时保持了 Transformer 的灵活性。在 CIFAR10 数据集上 VQGAN 比直接在像素空间中建模的 Transformer 方法 FID Fréchet Inception Distance分数提高了 18.63% 图像采样速度提高了14.08 倍。 2.6.3 TransGAN “ 对于更加困难的视觉任务相比于生成对抗网络Transformer 的表现又如何 ” Jiang 等[40] 怀着这样的疑问 进行了一次试验性的研究构建了一个只使用纯 Transformer 架构完全没卷积的 TransGAN Transformer Generative Adversarial Network。从结构上来看 TransGAN 包括两个部分一个是内存友好的生成器该生成器可以逐步提高特征分辨率同时减少每个阶段的嵌入维数另一个是 patch 级判别器将图像块而不是像素作为输入并在真实图像和生成图像之间进行分类。同时使用多任务协同训练策略以及本地初始化自注意力机制来增强自然图像的邻域平滑度提高图像平滑减少模糊。实验结果表明TransGAN 在 CIFAR10 数据集上得到具有竞争力的 IS Inception Score 8.63 和 FID 11.89 但略逊于 StyleGAN v2[71] 在规模更大、分辨率更高的 STL-10 基准上 IS 为 10.10 FID 为 25.32 优于当前所有基于卷积网络的 GAN 模型。因此得出结论纯 Transformer有足够的能力应对困难的图像生成任务。 2.7 视频处理 Transformer 是一个非常有潜力的结构可以统一不同模态的数据和不同的视觉任务。Transformer 所具有长依赖的优势可以对时序信息进行建模其核心自注意力机制能够基于帧与帧之间的相似性不断地学习 更新。所以Transformer 非常适用于视频相关的任务。 2.7.1 MEGA 针对视频检测物体任务中相机失焦、物体遮挡等问题 Chen 等[41] 提出了基于记忆增强的全局 - 局部整合网络Memory Enhanced Global-Local Aggregation, MEGA 。 作者认为在视频中检测物体可以利用时序信息来辅助质量较差的帧设计了一个简洁的基础模块使用区域候选网络从关键帧的相邻帧和全局帧中生成一些候选区域使用关联模块relation module将全局帧中候选区域对应的特征整合到局部帧的候选区域的特征中局部帧内部经过若干层关联模块得到同时包含全局和局部信息的关键帧特征。此外设计了一个长时记忆模块(Long Range MemoryLRM) 将某一帧检测后的特征保存下来并在下一帧的检测中使用该特征来辅助检测。在只增加非常小的计算开销的前提下整合大量的全局信息和局部信息来辅助关键帧的检测从而显著地提升了视频物体检测器的性能。实验结果表明在 ImageNet VID 数据集上MEGA 以 ResNet-101 和 ResNeXt-101 作为骨干网络的 mAP 分别达到了 82.9% 和 84.1% 取得了该数据集上至今最佳效果。 2.7.2 STTN 视频修复是一项旨在视频帧缺失区域中填补合理内容的任务。 Zeng 等[42] 提出了一种用于视频修复的联合时空 变 换 网 络 Spatial-Temporal Transformer Network,STTN。作者将视频修复描述为一个 “ 多到多 ” 的映射问题以相邻帧和远帧作为输入通过一个基于多尺度的注意力模块沿着空间和时间维度进行搜索从所有帧中提取不同尺度的块以覆盖由复杂运动引起的不同外观变化。Transformer 的不同头部计算不同尺度上空间块的相似性从而检测出缺少区域并为其转换最相似的块。 此外在联合域的优化中引入时空对抗训练以学习感知良好的、连贯的视频内容。使用固定掩码和移动掩码进行定量和定性评估以模拟现实世界的应用例如水印去除和对象去除。STTN 可以填充移动物体后面的缺失像素并以更高的准确性和更少的模糊度重建整个视频在 YouTube-VOS 和 DAVIS 数据集上峰值信噪比 (Peak Signal to Noise Ratio PSNR) 、 流 扭 曲 误 差flowwarping error 和 VFID video-based Fréchet Inception Distance三个指标上相对基线分别提升了 2.4% 、1.3%和 19.7% 。 2.7.3 TimeSformer 为了训练和理解模型目前最好的 3D CNN 只能使用几秒长的视频片段。 Bertasius 等[43] 提出了一个新型视频理解架构 TimeSformer Time-Space Transformer 它是首个无卷积完全基于 Transformer 的视频架构。作者提出了分割时间- 空间注意力方案将输入视频分解为一组不重叠的图像块通过应用时间注意力使得每个块只与其他帧中相同空间位置的块进行比较。应用空间注意力使得每个块仅与同一帧内的块比较避免了所有成对块之间详尽的比较降低了计算成本提高了训练速度。该模型通过将每个块与视频中其他块进行显示比较来捕获每个块的语义进而捕获相邻块之间的短程依赖 性 以 及 长 距 离 块 之 间 的 远 程 关 联 。 作 者 测 量 了Kinetics-400 中 20K 的验证视频的实际推理运行时间在成本相当的情况下 SlowFast[72] 需要 14.88 个小时完成推理TimeSformer 需要 36 分钟运行时间要低的多。此外TimeSformer 的可扩展性使其能在更长的视频片段上训练来执行超远程时域建模对于相同的单个剪辑覆盖范围TimeSformer 在 HowTo100M 数据集上 Top-1 的正确率比 SlowFast 高 8%-11% 距离越远效果越佳 极大地促进了机器理解视频中复杂长动作的研究。 2.7.4 ConvTransformer Liu 等[44] 提出了一种新型的端到端架构称为卷积Transformer ConvTransformer 用于视频帧序列学习和视频帧合成。研究者表示这是在视频合成方面卷积神经网络与 Transformer 的首度结合。 ConvTransformer 将视频帧合成简化为一个编码器和解码器的问题通过提出的多头卷积自注意机制提取视频序列中在的高阶运动信息并将其用于合成目标插值帧。首先使用基于多头卷积自注意力层的编码器将输入的视频帧映射成特征图序列然后使用解码器从特征图序列中对目标合成帧进行解码解码后的特征图最终通过综合前馈网络生成中间插值帧或推断帧。实验证明在下一帧推断任务中ConvTransformer 在 Vimeo90K 数据集上PSNR 值比 DVF[73]和 MCNet[74] 模 型 高 2.7140dB 和 1.8983dB 。ConvTransformer 可以有效的对视频帧中长序列的依赖性进行建模然后推断出高质量的未来帧。 3 应用展望 Transformer 突破了 RNN 模型不能并行计算的限制克服了 CNN 模型无法建模长距离依赖的缺点通过自注意力机制使模型更具可解释性。 在计算机视觉领域现有的 Transformer 模型通常是从自然语言处理领域迁移过来根据不同的视觉任务做了一些初步的探索大致可以分为两类 一类是将自注意力机制与常见的 CNN 架构结合另一类是用自注意力机制完全代替卷积。 随着 Transformer 结构在越来越多的视 觉 任 务 中 应 用 有 人 不 禁 要 问“ 在 视 觉 领 域 Transformer 会不会像在自然语言处理中代替 RNN 那样完全取代 CNN 吗 ” 。就目前的研究来看 Transformer 结构有其巨大的优势但其缺点也十分明显。首先Transformer 模型缺乏归纳偏置能力并不具备卷积的平移不变性和局部敏感性因此在数据不足时不能很地泛化任务。其次无法处理高分辨率特征图会使图像中的小目标丢失。最后Transformer 结构是顺序无关的会丢失输入数据的位置信息。尽管许多研究中将位置编码嵌入输入的特征向量中但并没有改变其结构上的固有缺陷。因此 本文认为应该对 CNN 与Transformer 取长补短相互融合而不存在取代关系。 Transformer 激起了计算机视觉领域各个方向的热潮基于目前的研究现状对未来的研究方向进行展望。 1 冗余性问题。在机器翻译中输入是对应的单词但在视觉任务中通常输入的是被分块之后的图像由于图像具备局部相关性相邻的块之间相关度较高这就造成了输入的冗余度非常高。因此如何优化算法性能从而解决输入的冗余性会成为未来一个非常值得研究的方向。 2 通用问题。以往的视觉 Transformer 模型一般用于单任务近年来一些模型可以做多任务如 IPT 模型可以完成超分辨率、降噪、去雨等多任务。未来是否可以有一个通用的模型来处理所有任务。 3效率问题。 Transformer 的计算量通常很大在ImageNet 数据集上 ViT 需要 180 亿 FLOPs 才能达到78%的准确率而普通的 CNN 模型如 GhostNet 只需要 6亿 FLOPs 准确率即可达到 79% 以上所以需要开发高效的 Transformer 模型提高运算效率。 4数据规模问题。 Transformer 需要依赖大量的数据集来进行训练而部分视觉任务的数据不能完全满足Transformer 的训练需求。如何构建丰富、有效且全面的数据集以及如何减少 Transformer 对大量数据的依赖是未来研究的一个热点。 5可解释性问题。 Transformer 结构不具备卷积的归纳偏置却在视觉领域中表现优异。这对神经网络的可解释性问题提供一个研究方向。每一种新结构的发展都是不断地发现问题提出问 题再到解决问题逐步不停迭代的过程。因此Transformer 作为视觉领域新引入的模型其本身还存在许多不足需要不断地改进。未来的 Transformer 将会应用于更多的领域以探索其本身巨大的潜力实现更优、更合理的结果。 4 结语 Transformer 已成为计算机视觉领域的研究热点由于其巨大的潜力该模型一直受到研究者们的关注。本文对近几年来 Transformer 模型在图像分类、目标检测、图像分割等七个视觉任务中的应用进行分类和分析并对其在计算机视觉中面临的挑战以及未来的发展趋势进行了总结和探讨。 参考文献 [1] Lecun Y, Bottou L. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. [2] 周飞燕 , 金林鹏 , 董军 . 卷积神经网络研究综述 [J]. 计算机学报,2017,40(06):1229-1251. Zhou F Y, Jin L P, Dong J. Summary of Research on Convolutional Neural Networks[J]. Chinese Journal of Computers, 2017, 40(06):1229-1251. [3] Goodfellow I J , Pouget-Abadie J , Mirza M , et al. Generative Adversarial Networks[J]. Advances in Neural Information Processing Systems, 2014, 3:2672-2680. [4] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008. [5] Parmar N, Vaswani A, Uszkoreit J, et al. Image transformer[C]//International Conference on Machine Learning. PMLR, 2018: 4055-4064. [6] Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]//European Conference on Computer Vision. Springer, Cham, 2020: 213-229. [7] Chen M, Radford A, Child R, et al. Generative pretraining from pixels[C]//International Conference on Machine Learning. PMLR, 2020: 1691-1703. [8] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020. [9] Esser P, Rombach R, Ommer B. Taming transformers for high-resolution image synthesis[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 12873-12883. [10] Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI blog, 2019, 1(8): 9. [11] Tsai Y H, Bai S, Liang P. Multimodal transformer for unaligned multimodal language sequences[C]//Proceedings of the conference. Association for Computational Linguistics. Meeting. NIH Public Access, 2019, 2019: 6558. [12] 杨丽 , 吴雨茜 , 王俊丽 . 循环神经网络研究综述 [J]. 计算机应用, 2018,38(S2):1-6. Yang L, Wu Y Q, Wang J L. Research review of cyclic neural networks[J]. Journal of Computer Applications, 2018, 38(S2): 1-6. [13] 任欢 , 王旭光 . 注意力机制综述 [J]. 计算机应用 , 2021, 41(S1): 16. Ren H, Wang X G. Summary of Attention Mechanism[J]. Computer Applications, 2021, 41(S1):16. [14] 刘金花 . 基于主动半监督极限学习机多类图像分类方法研 究[D]. 东南大学 ,2016. Liu J H. Research on multi-class image classification method based on active semi-supervised extreme learning machine [D]. Southeast University, 2016. [15] 王红 , 史金钏 , 张志伟 . 基于注意力机制的 LSTM 的语义关系抽取[J]. 计算机应用研究 ,2018,35(05):1417-14201440. Wang H, Shi J C, Zhang Z W. Semantic relation extraction of LSTM based on attention mechanism[J]. Application Research of Computers, 2018, 35(05): 1417-14201440. [16] 唐海桃 , 薛嘉宾 , 韩纪庆 . 一种多尺度前向注意力模型的语音 识别方法[J]. 电子学报 ,2020,48(07):1255-1260. Tang H T, Xue J B, Han J Q. A multi-scale forward attention model speech recognition method[J]. Chinese Journal of Electronics, 2020, 48(07): 1255-1260. [17] Wang W, Shen J, Yu Y, et al. Stereoscopic thumbnail creation via efficient stereo saliency detection[J]. IEEE transactions on visualization and computer graphics, 2016, 23(8): 2014- 2027. [18] Lin Z, Feng M, Santos C N, et al. A structured self-attentive sentence embedding[C]//Proceedings of the International Conference on Learning Representations, Toulon, France. 2017. [19] Han K, Wang Y, Chen H, et al. A Survey on Visual Transformer[J]. arXiv preprint arXiv:2012.12556, 2020. [20] Khan S, Naseer M, Hayat M, et al. Transformers in Vision: A Survey[J]. arXiv preprint arXiv:2101.01169, 2021. [21] Han K, Xiao A, Wu E, et al. Transformer in transformer[J]. arXiv preprint arXiv:2103.00112, 2021. [22] Yuan L, Chen Y, Wang T, et al. Tokens-to-token vit: Training vision transformers from scratch on imagenet[J]. arXiv preprint arXiv:2101.11986, 2021. [23] Jiang Z, Hou Q, Yuan L, et al. Token labeling: Training a 85.5% top-1 accuracy vision transformer with 56m parameters on imagenet[J]. arXiv preprint arXiv:2104.10858, 2021. [24] Zhou D, Kang B, Jin X, et al. Deepvit: Towards deeper vision transformer[J]. arXiv preprint arXiv:2103.11886, 2021. [25] Zhu X, Su W, Lu L, et al. Deformable DETR: Deformable Transformers for End-to-End Object Detection[J]. arXiv preprint arXiv:2010.04159, 2020. [26] Sun Z, Cao S, Yang Y. Rethinking Transformer-based Set Prediction for Object Detection[J]. arXiv preprint arXiv:2011.10881, 2020. [27] Dai Z, Cai B, Lin Y, et al. UP-DETR: Unsupervised Pretraining for Object Detection with Transformers[J]. arXiv preprint arXiv:2011.09094, 2020. [28] Zheng M, Gao P, Wang X, et al. End-to-End Object Detection with Adaptive Clustering Transformer[J]. arXiv preprint arXiv:2011.09315, 2020. [29] Zheng S, Lu J, Zhao H, et al. Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers[J]. arXiv preprint arXiv:2012.15840, 2020. [30] Strudel R, Garcia R, Laptev I, et al. Segmenter: Transf-ormer for Semantic Segmentation[J]. arXivpreprint arXiv:2105.056 33, 2021. [31] Xie E, Wang W, Yu Z, et al. SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers[J]. arXiv preprint arXiv:2105.15203, 2021. [32] Wang H, Zhu Y, Adam H, et al. MaX-DeepLab: End-to-End Panoptic Segmentation with Mask Transformers[J]. arXiv preprint arXiv:2012.00759, 2020. [33] Wang Y, Xu Z, Wang X, et al. End-to-End Video Instance Segmentation with Transformers[J]. arXiv preprint arXiv:2011.14503, 2020. [34] Ma F, Sun B, Li S. Robust Facial Expression Recognition with Convolutional Visual Transformers[J]. arXiv preprint arXiv:2103.16854, 2021. [35] Zheng C, Zhu S, Mendieta M, et al. 3d human pose estimation with spatial and temporal transformers[J]. arXiv preprint arXiv:2103.10455, 2021. [36] He S, Luo H, Wang P, et al. TransReID: Transformer-based Object Re-Identification [J]. arXiv preprint arXiv:2102.04378, 2021. [37] Liu R, Yuan Z, Liu T, et al. End-to-end lane shape prediction with transformers[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2021: 3694-3702. [38] Chen H, Wang Y, Guo T, et al. Pre-trained image processing transformer[J]. arXiv preprint arXiv:2012.00364, 2020. [39] Yang F, Yang H, Fu J, et al. Learning texture transformer network for image super-resolution[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 5791-5800. [40] Jiang Y, Chang S, Wang Z. Transgan: Two transformers can make one strong gan[J]. arXiv preprint arXiv:2102.07074, 2021. [41] Chen Y, Cao Y, Hu H, et al. Memory enhanced global-local aggregation for video object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 10337-10346. [42] Zeng Y, Fu J, Chao H. Learning joint spatial-temporal transformations for video inpainting[C]//European Conference on Computer Vision. Springer, Cham, 2020: 528-543. [43] Bertasius G, Wang H, Torresani L. Is Space-Time Attention All You Need for Video Understanding?[J]. arXiv preprint arXiv:2102.05095, 2021. [44] Liu Z, Luo S, Li W, et al. ConvTransformer: A Convolutional Transformer Network for Video Frame Synthesis[J]. arXiv preprint arXiv:2011.10185, 2020. [45] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018. [46] Zagoruyko S, Komodakis N. Wide Residual Networks[J]. British Machine Vision Conference 2016, 2016. [47] Tan M, Le Q. Efficientnet: Rethinking model scaling for convolutional neural networks[C]//International Conference on Machine Learning. PMLR, 2019: 6105-6114. [48] Kolesnikov A, Beyer L, Zhai X, et al. Big transfer (bit): General visual representation learning[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part V 16. Springer International Publishing, 2020: 491-507. [49] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778. [50] Howard A G, Zhu M, Chen B. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint arXiv:1704.04861, 2017. [51] Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 4510-4520. [52] Yun S, Oh S J, Heo B. Re-labeling imagenet: from single to multi-labels, from global to localized labels[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 2340-2350. [53] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 580-587. [54] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788. [55] 李彦冬 . 基于卷积神经网络的计算机视觉关键技术研究 [D].电子科技大学 ,2017. Li Y D. Research on key technologies of computer vision based on convolutional neural networks [D]. University of Electronic Science and Technology of China, 2017 [56] Dai J, Qi H, Xiong Y, et al. Deformable convolutional networks[C]//Proceedings of the IEEE international conf-erence on computer vision. 2017: 764-773 [57] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2117-2125. [58] Tian Z, Shen C, Chen H, et al. Fcos: Fully convolutional onestage object detection[C]//Proceedings of the IEEE/CVF Int-ernational Conference on Computer Vision. 2019: 9627- 9636 [59] Chen Y, Wang Z, Peng Y, et al. Cascaded pyramid network for multi-person pose estimation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 7103-7112. [60] Ding X, Guo Y, Ding G, et al. Acnet: Strengthening the kernel skeletons for powerful cnn via asymmetric convolution blocks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 1911-1920. [61] Yang L, Fan Y, Xu N. Video instance segmentation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 5188-5197. [62] Wang K, Peng X, Yang J, et al. Suppressing uncertainties for large-scale facial expression recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 6897-6906. [63] Lin K, Wang L, Liu Z. End-to-end human pose and mesh reconstruction with transformers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1954-1963. [64] Hao L .Bags of Tricks and A Strong Baseline for Deep Person Re-identification[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2019. [65] Chen T, Ding S, Xie J, et al. Abd-net: Attentive but diverse person re-identification[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 8351- 8361. [66] Miao J, Wu Y, Liu P, et al. Pose-guided feature alignment for occluded person re-identification[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 542-551. [67] Khorramshahi P, Peri N, Chen J, et al. The devil is in the details: Self-supervised attention for vehicle re-identification[C]//European Conference on Computer Vision. Springer, Cham, 2020: 369-386. [68] Tabelini L, Berriel R, Paixao T M, et al. Polylanenet: Lane estimation via deep polynomial regression[C]//2020 25th International Conference on Pattern Recognition (ICPR). IEEE, 2021: 6150-6156. [69] Li X, Li J, Hu X, et al. Line-cnn: End-to-end traffic line detection with line proposal unit[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 21(1): 248-258. [70] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative Adversarial Networks[J]. Advances in Neural Information Processing Systems, 2014, 3:2672-2680. [71] Karras T, Laine S, Aittala M, et al. Analyzing and improving the image quality of stylegan[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 8110-8119. [72] Feichtenhofer C, Fan H, Malik J, et al. Slowfast networks for video recognition[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 6202-6211 [73] Liu Z, Yeh R A, Tang X, et al. Video frame synthesis using deep voxel flow[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 4463-4471. [74] Villegas R, Yang J, Hong S, et al. Decomposing motion and content for natural video sequence prediction[J]. arXiv preprint arXiv:1706.08033, 2017.
http://www.huolong8.cn/news/155144/

相关文章:

  • 微信公众号微网站 建设报价表如何仿网站模板
  • 如何制作营销网站模板下载网站建设公司找哪家
  • 做ui的网站有哪些山东建设兵团网站
  • 国投集团网站开发如何在电脑上重新装wordpress
  • 国内个人网站设计欣赏最好的扁平化网站
  • 南沙区做网站成都房地产信息网官网
  • 最好的网站统计一级a做爰片免费网站国产
  • 如何查看网站建设时间关键词搜索排名优化
  • 专做hip hop音乐的网站哪里有零基础网站建设教学
  • 网站优化怎么做关键词排名wordpress 网页图标
  • 网站开发遇到的难点个人备案的网站可以做淘宝客吗
  • 纪念币商城网站建设室内装潢
  • 搭建手机网站石嘴山网站建设
  • 一般网站开发公司wordpress 邀请码插件
  • access 数据库做网站深圳app开发工作室
  • 某网站自己做中性笔如何快速提升网站权重
  • 建设外贸营销型网站需要什么企业网站建设的过程
  • 外贸网站虚拟主机一套企业vi设计需要多少钱
  • 郑州网站建设出名吗?郑州网站建设选微锐
  • 南宁建企业网站公司如何查询公司名称是否被注册
  • 网站统计如何做行业网站如何推广
  • 企业网站建设前期规划手机网站怎么改成电脑版
  • 陕西网站建设陕icp备呼和浩特企业网站
  • 广东公园网站建设代理公司网络黄页推广大全
  • 西安网站优化维护网站开发是打代码吗
  • 网站建设工作基本流程适合做外链的网站
  • 荣欣建设集团有限公司网站wordpress child主题怎么用
  • 免费一键生成个人网站成都公司注册地址有什么要求
  • 外贸业务员如何开发客户seo在线教程
  • 企业网站建设 哪个公司做得好做网站挣钱的人