当前位置：首页 > news >正文

苏州创建网站高级wordpress搜索

news 2025/12/24 19:06:03

苏州创建网站,高级wordpress搜索,今天国际新闻最新消息10条,p2p贷款网站建设一、概述 1、是什么 RAM 论文全称 Recognize Anything: A Strong Image Tagging Model。区别于图像领域常见的分类、检测、分割#xff0c;他是标记任务——即多标签分类任务#xff08;一张图片命中一个类别#xff09;#xff0c;区分于分类#xff08;一张图片命中一个…一、概述 1、是什么 RAM 论文全称 Recognize Anything: A Strong Image Tagging Model。区别于图像领域常见的分类、检测、分割他是标记任务——即多标签分类任务一张图片命中一个类别区分于分类一张图片命中一个类别。然后他这里提到的anything需要注意模型本身原始支持6449个标签去掉同义词后4585个标签但是可以通过后面提到的一些方法实现未知的标签6449以外识别。如下是原生支持的6449个标签去掉同义词后4585个标签的官方地址需要注意其中英文和中文是一一对应的都是4585组。原生支持的中文标签https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list_chinese.txt 原生支持的英文标签https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list.txt 2、亮点 1强大的图片标记能力和zero-shot泛化识别能力 2可较低成本复现使用的都是开源和免人工标记的数据集最强版本的RAM也只需要8卡A100训练3天 3灵活并且可以满足各种应用场景可以单独使用作为标记系统也可以结合Grounding DINO 和SAM 多标签分割。 3、对比Tag2Text的提升准确性更高。RAM利用数据引擎生成额外的注释并清除不正确的标记与Tag2Text相比具有更高的准确性。详见后面的数据处理部分。标记类别数更多。RAM将固定标签的数量从3,400个升级到6,400个(同义减少到4,500个不同的语义标签)涵盖了更有价值的类别。此外RAM具有开集能力可以识别训练中未看到的标签。 PS 这篇来自OPPO的论文写的相对真的很详细有任何细节疑问可以参考论文论文中不含的细节也在本博客末尾写到作为后续待解决项。二、模型 1、模型结构 PS关于模型由于官方没有释放训练的代码对比推理代码和论文也发现了有不一致的地方后面描述所以这里只是描述目前能看到的和推测到的不一定准确。论文中提到SAM 只保留了Tag2Text 的 Tagging 和 Generation 两个 *主干的image Encoder 使用了swin-transformer, 有两个版本swin-b 和 swin-l *Tagging 分支用来多tags推理完成识别任务使用的是BIRT代码里是BIRT论文里说是2 层的transformer *Generation分支用来做 image caption任务encoder-decoder使用的是12 层的transformer。 *Alignment 分支是做 Visual-Language Features学习的在这里被移除了。 *这里还涉及两个离线模型一个是CLIP又涉及到image encoder 和 Text encoder后面介绍一个是SceneGraphParser OPPO 官方修改过。 2、训练过程 PS这里抛开数据处理过程的训练细节主要将住进程这里的更多细节目前官方并未开源所以也只能大概。注意 1训练过程没有上图右侧的CLIP Text Encoder。N个类别对应N个textual label queries——也就是可学习的参数假设论文4585个类每个类768维度表示那么就是4585*768。 2训练输入是三个元素图片-Tag-文本构成对应网络的一个输入图像文本输入不算是网络自己的可学习参数 2个输出文本描述和多标签分类。损失也就是常见的文本生成损失多标签ASL损失。 3image-Tag-interaction encoder 的文本输入是label 解析的Tag不是模型的输出推理时是模型的输出 4训练过程的某个节点论文没有详细说使用了CLIP image encoder 的输出进行蒸馏distillRAM 自己的image encoder。这个我的理解是潜在对齐了CLIP Text encoder 才更好的实现了后面推理阶段的open set 的识别。 3、推理过程分为两种第一种就是模型本身支持的类别的推理第二种是模型不支持当然支持的类别也可以使用这种方式的open set 的推理。推理过程是开源了的。第一种模型支持的类别。 * 这里不需要文本输入只需要输入图片即可。 * 对应的代码为https://github.com/xinyu1205/recognize-anything/blob/main/inference_ram.py * 需要先查看是否有自己的类目中文https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list_chinese.txt 英文https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list.txt 对应的阈值https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list_threshold.txt * 当前版本231020如果大量调用建议修改源代码因为会重复的读取模型权重https://github.com/xinyu1205/recognize-anything/blob/main/ram/models/ram.py#L170 第二种模型不支持的类别open set。 * 这里需要提前输入自己想要的类别图片。自己想要的类别参考这个进行填充https://github.com/xinyu1205/recognize-anything/blob/main/ram/utils/openset_utils.py#L91 * 原理这里其实是模型里的queries 可学习输入给换掉了换成了CLIP 的编码。CLIP 的编码方式是使用了一组模板https://github.com/xinyu1205/recognize-anything/blob/main/ram/utils/openset_utils.py#L24 把自己想要的单词编码成了句子然后离线的算出每个模板的CLIP Text encoder 的输出特征向量然后进行求平均来当做这个单词的特征表示然后其他地方不变得到这个类别的得分。这里说一下另一点就是在训练过程中作者也特别实用了CLIP 的image encoder 进行蒸馏 RAM 的image encoder 这其实相当于为这里的open set 使用CLIP Text encoder 作了文本和图片的特征对齐作者的实验也显示提高了模型的性能。 4、消融经验 1两个分支训练提升了模型的Tag分之的能力。 2开发集合识别主要依靠CLIP并没有提升闭集的能力跟训练本来就无关啊 3提升标签的类别对已有类影响较小有影响因为提升了训练难度但是可以提升开放识别的能力增强了模型的覆盖范围。三、数据 1、数据标签参考来源 1开源的学术数据集分类、检测、分割。 2商业已有的API谷歌、微软、苹果指导原则 1高频出现代表更有价值。 2标签包括对象、场景、属性、动作行为这提升了模型的泛化能力复杂、未知场景。 3标签的数量需要适中过多会导致严重的标注成本。数量 1使用修改后的SceneGraph-Parser 解析1400W预训练句子。 2手工从top-1W 高频Tag 中选取6449个Tag。 3通过多种手段手工检查、参考WordNet、翻译等合并同义词汇到同一个ID最后变为4585个Tag。 PSRAM 覆盖 OpenImages 和 ImageNet 较少原因是里面很多Tag比较不常见比如ImageNet 很多鸟的细类。 2、数据构成一共两个版本的数据4 Millon和14 Millon分别对应训练了两个参数量的模型swin-b和swin-l。 14M2个人工标注数据集COCO113K 图像、557K 描述、Visual Genome101K 图像、822K 描述2个大规模互联网数据集 Conceptual Captions (3M 图像, 3M 描述) and SBU Captions (849K 图像, 849K 描述)。 214M4M 基础上增加 Conceptual 12M (10M 图像, 10M 描述) 3、数据清洗原因来自网络的图像文本对本质上是嘈杂的通常包含缺失或不正确的标签。为了提高注释的质量我们设计了一个标记数据引擎。解决丢失的标签。使用一部分数据训练一个base model然后使用这个model将剩余数据进行打标然后混合原始标注和生成的标注进行扩充本文4M image 的tag 12M - 39.8M。解决多余的标签。我们首先使用Grounding-Dino定位与图像中不同标签对应的特定区域随后 1我们采用区域聚类技术 K-Means来识别和消除同一类中的异常值最外部的10%使用的特征来源和聚类数未做说明 2我们过滤掉在整个图像及其相应区域之间表现出相反预测的标签使用base model 对裁切区域进行推理如果没有预测出对应的tag 进行删除整图有的标签、裁切区域更应该被识别到确保更清晰和更准确的注释。预估平均一个tag 也有1W图片。 4、消融结果 1)在12.0M到41.7M范围内添加更多的标签可以显著提高所有测试集的模型性能说明原始数据集存在严重的标签缺失问题。 2)进一步清理某些类别的标签会导致OPPO-common和OpenImages-common测试集上的性能略有提高。受GroundingDino推理速度的限制我们只对534个类别进行清洗处理。 3)将训练图像从4M扩展到14M在所有测试集上都有显著的改进。 4)使用更大的骨干网络会导致openimages的性能略有改善——在常见类别上的性能很少甚至略差。我们将这种现象归因于我们进行超参数搜索的可用资源不足。 5)对从COCO Caption数据集解析的标签进行微调在OPPO-common和7OpenImages-common测试集上显示出显著的性能提高。COCOCaption数据集为每个图像提供了五个描述性句子提供了一个全面的描述近似于一组完整的标签标签。四、策略 1、训练过程参考数据清洗流程整个训练过程如下 1通过自动文本语义解析在大规模数据上获得无标注的图像标签。 2使用原始文本和解析后的标记训练第一版模型。 3一个数据引擎用于生成额外的注释和清理不正确的参考数据清洗小结。 4使用更小但更高质量的数据集处理数据并进行模型微调。五、结果 1、多维度对比。对比分割模型SAM标记模型Tag2Text等多模态模型CLIP、BLIP等主要从定位能力和识别精度和类别数上如下 2、标记能力对比。 RAM提供更精确精度、更多召回覆盖范围的结果。 *RAM展示了令人印象深刻的zero-shot性能明显优于CLIP和BLIP。 *RAM甚至超过了完全监督的方式(ML-Decoder)。 *RAM表现出与Google标签API相当的性能。 3、测试集对比六、使用方法 TRANSFORMERS_OFFLINE1 python inference_ram.py --image images/1641173_2291260800.jpg --pretrained pretrained/ram_swin_large_14m.pth 七、待解决 1、聚类的内容是什么图像特征 2、训练代码描述分支网络的结果。八、参考链接 GitHub - xinyu1205/recognize-anything: Code for the Recognize Anything Model (RAM) and Tag2Text Model Recognize Anything: A Strong Image Tagging Model 识别一切模型RAMRecognize Anything Model及其前身 Tag2Text 论文解读 - 知乎 https://arxiv.org/pdf/2306.03514.pdf https://github.com/xinyu1205/recognize-anything/blob/main/ram/utils/openset_utils.py#L293 ASL 多标签分类之非对称损失-Asymmetric Loss_asl loss-CSDN博客

查看全文

http://www.huolong8.cn/news/318037/