做展览的网站,网站做迅雷下载链接,网站排名 各因素,关于建设网站的通知本文作为入门Video Caption / 视频字幕 的随笔记录#xff0c;用于查漏补缺和回顾#xff0c;难免有疏漏和不足指出#xff0c;烦请指出#xff01; 一、指标 Video Caption / 视频字幕常用的标准指标有四种#xff1a;BLEU-1[1]#xff0c;BLEU-2[1]#xff0c;BLEU-3[… 本文作为入门Video Caption / 视频字幕 的随笔记录用于查漏补缺和回顾难免有疏漏和不足指出烦请指出 一、指标 Video Caption / 视频字幕常用的标准指标有四种BLEU-1[1]BLEU-2[1]BLEU-3[1]BLEU-4[1]ROUGE-L[2]METEOR[3]CIDEr[4]SPICE[5]这些指标在论文中又分别可能会记为B1B2B3B4RMCS。
1.1、BLEU-n BLEU全称为Bilingual Evaluation Understudy中文意思是双语评估替补,用于机器翻译任务的评价。BLEU的总体思想就是准确率。 假如给定标准译文reference神经网络生成的句子是candidate句子长度为ncandidate中有m个单词出现在referencem/n就是bleu的1-gram的计算公式3。根据n-gram可以划分成多种评价指标。常见的指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种其中n-gram指的是连续的单词个数为n。 例 【candinate】:the cat sat on the mat 【reference】:the cat is on the mat 计算n-gram的BLEU-nreference中在candidate中出现的gram个数占reference总gram个数的比值 BLEU-1 5/6 0.83333 BLEU-2 3/5 0.6 BLEU-3 1/4 0.25 BLEU-4 0/3 0 BLEU-1衡量的是单词级别的准确性更高阶的bleu可以衡量句子的流畅性。 如果两个句子完美匹配 (perfect match), 那么BLEU是1.0, 反之, 如果两个句子完美不匹配 (perfect mismatch), 那么BLEU为0.04。
1.2、ROUGE-L ROUGE-L是一种用于评估自然语言处理任务的指标特别是在机器翻译和自动文摘中。ROUGE-L的L代表Longest Common Subsequence即最长公共子序列。 ROUGE-L的计算利用了最长公共子序列区别于最长公共子串这个是连续的子序列不一定连续但是二者都是有词的顺序的。 具体来说ROUGE-L的计算公式可以表示为 其中X表示标准答案Y表示生成答案。m表示X的长度n表示Y的长度。LCS (X,Y) 表示X和Y的最长公共子序列β是一个超参数。 ROUGE-L指标主要关注机器生成的摘要或翻译中是否捕捉到了参考摘要或翻译的信息着重于涵盖参考摘要或翻译的内容和信息的完整性。因此可用来衡量生成结果和标准结果之间的匹配程度。 例 参考句子我喜欢吃苹果。 候选句子我喜欢苹果。 首先我们需要找到这两个句子的最长公共子序列。在这个例子中最长公共子序列是我喜欢苹果长度为5。 然后我们可以计算ROUGE-L的recall和precision 最后我们可以计算F-measure。假设我们选择β1那么F-measure为 所以这个候选句子的ROUGE-L得分是0.91。这意味着候选句子与参考句子的匹配程度很高
1.3、METEOR METEOR全称为Metric for Evaluation of Translation with Explicit ORdering中文意思是具有明确排序的翻译评估指标。METEOR的定义和概念主要基于单词级别的准确率和召回率以及对词序的惩罚来计算候选文本和参考文本之间的相似度。 METEOR的特点是它不仅考虑了单词的精确匹配还考虑了词干、同义词和其他语言变体的匹配。它还使用了一个调和平均数来平衡准确率和召回率以及一个罚分因子来惩罚不流畅或不连贯的文本。它可用来衡量生成结果和标准结果之间的匹配程度。 METEOR的计算公式如下 其中Pen是罚分因子Fmean是准确率和召回率的调和平均数。假设m为候选译文和参考译文匹配到的总对数 候选译文的长度为t参考译文的长度为r。准确率P和召回率R的计算方式为 调和平均数Fmean的计算方式为: 其中α是一个权重参数。 Pen为惩罚因子惩罚的是候选翻译中的词序与参考翻译中的词序不同具体计算方法为 #chunks指的是chunk的数量chunk就是既在候选翻译中相邻又在参考翻译中相邻的被匹配的一元组聚集而成的单位举个例子 Candidate: the president spoke to the audience. Reference: the president then spoke to the audience. 其中reference中的6个unigram都可以被匹配但是其在reference中匹配的对象却只有the president 和 spoke to the audience这两个字符串是相邻的而这两个字符串就是两个chunk。 例 参考句子我喜欢吃苹果。 候选句子我喜欢苹果。 首先我们需要找到这两个句子的最长公共子序列。在这个例子中最长公共子序列是我喜欢苹果长度为5。 然后计算准确率和召回率 计算调和平均数Fmean 最后我们需要计算罚分因子Pen。在这个例子中由于候选句子和参考句子的词序一致所以罚分因子Pen为0。所以这个候选句子的METEOR得分是 1.4、CIDEr CIDEr是一种用于评价图像描述 (image caption) 任务的评价指标它是基于BLEU和向量空间模型的结合。它的主要思想是将每个句子看成一个文档利用TF-IDF来给不同长度的n-gram赋予不同的权重然后计算候选句子和参考句子的n-gram的余弦相似度再取平均得到最终的评分。 CIDEr还引入了高斯惩罚和长度惩罚来避免不常见单词重复很多次或者生成过短或过长的句子而得到更高的分数得到了CIDEr-D。 其中TF-IDF即词频-逆文档频率Term Frequency-Inverse Document Frequency是一种用于信息检索与数据挖掘的常用加权技术。它的主要作用是挖掘文章中的关键词并给每个词分配一个权重反映该词对文章主题的重要程度。 公式如下 定义参考句子为候选句子为n-gram记为。在参考句子中出现的次数用表示在候选句子中出现的次数用表示。首先计算TF-IDE对每一个n-gram进行加权 其中Ω 是所有 n-gram 的词汇表I 是数据集中所有图像的集合。第一项衡量了每个 n-gram的 TF词频第二项使用其 IDF逆文档频率衡量了的稀有性。直观地说TF 对在描述图像的参考句子中频繁出现的 n-gram 赋予了更高的权重而 IDF 则降低了在数据集中所有图像中常见的 n-gram 的权重。IDF 通过折扣discounting可能视觉上不那么有信息量的流行词来提供了一个词汇显著性的度量。IDF 是使用数据集中图像的数量 |I| 除以出现在其任何参考句子中的图像数量的对数来计算的。 CIDErn 分数是通过计算候选句子和参考句子之间的平均余弦相似度来计算 n-gram 的长度为 n 的分数这考虑到了精确度和召回率 其中 是由所有长度为 n 的 n-gram 对应的形成的向量 是向量 的大小。 同理。我们使用更高阶更长的 n-gram 来捕捉语法属性以及更丰富的语义。我们将不同长度的 n-gram 的分数组合如下 论文中认为 的效果最好, N 4。 CIDEr的优点是它可以捕捉到不同长度的n-gram之间的匹配而且可以通过TF-IDF权重来区分不同n-gram的重要性它不是像BLEU那样只计算准确率而是计算余弦相似度。它也可以看作是对BLEU的一种改进和扩展有效地衡量候选描述与参考描述之间的语义一致性。CIDEr的缺点是它需要一个大规模的图像描述语料库来计算TF-IDF权重而且它不能考虑到句子的语法和结构。
1.5、SPICE 在图像描述生成任务中SPICESemantic Propositional Image Caption Evaluation是一种评价方法。它的主要思想是将图像描述转换为一种基于图的语义表示然后比较这些表示来评估描述的质量。
SPICE使用如下步骤来评估一个描述 1.语义解析首先SPICE将描述转换为一种基于图的语义表示称为场景图 (scene graph)。场景图编码了描述中的对象 (objects)属性 (attributes)和关系 (relationships)。 使用the Stanford Scene Graph Parser将caption转换为一个依赖树结构然后利用九个简单的语言规则将树结构转换为一个scene graph。左边为一幅图和它对于的一些描述右边为描述生成场景图。红色表示目标集合C绿色表示属性集合A蓝色表示关系集合R。公式如下表示 其中是描述c中提到的对象集合是表示对象之间关系集合 是与对象关联的属性集合。 2.元组生成然后SPICE将场景图转换为一个元组集合 (tuple set)。每个元组都是一个语义命题可以是一个对象一个对象和属性的对或者两个对象和它们之间关系的三元组.。我们定义了一个函数T它可以从场景图获得元组。 如上图中元组表示为 3.匹配和评分最后SPICE计算生成的描述和参考描述之间的元组集合的F1分数利用准确率 P, 召回率 R。这个分数反映了生成的描述在语义层面上与参考描述的相似度. 对于匹配的元组我们采用了METEOR [3]的WordNet同义词匹配方法即如果元组的词形还原形式相等——允许具有不同词形变化的词进行匹配——或者如果它们在同一个WordNet同义词集中那么就认为这些元组是匹配的。 这种方法允许我们在更细粒度上评估图像描述的质量包括对象识别属性识别以及对象之间关系的识别。因此SPICE提供了一种更全面和详细的方式来评估图像描述生成任务的性能。
本文于2023.9.21写毕数据集部分见专栏更新预计于2023.9.23日前完成。
——————————————————————————————————————————
参考文献
【1】Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics. 311–318.
【2】Chin-Yew Lin. 2004. Rouge: A package for automatic evaluation of summaries. In Text summarization branches out. 74–81.
【3】Satanjeev Banerjee and Alon Lavie. 2005. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In Proceedings of the acl workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization. 65–72
【4】Ramakrishna Vedantam, C Lawrence Zitnick, and Devi Parikh. 2015. Cider: Consensus-based image description evaluation. In Proceedings of the IEEE conference on computer vision and pattern recognition. 4566–4575.
【5】Peter Anderson, Basura Fernando, Mark Johnson, and Stephen Gould. 2016. Spice: Semantic propositional image caption evaluation. In European conference on computer vision. Springer, 382–398.