当前位置: 首页 > news >正文

网站企业推广方案ink域名网站

网站企业推广方案,ink域名网站,呼伦贝尔网站建设公司,怎么写自己的网页自然场景文字定位是文字识别中非常重要的一部分。与通用的物体检测相比#xff0c;文字定位更具挑战性#xff0c;文字在长宽比、尺度和方向上有更大范围的变化。针对这些问题#xff0c;本文介绍一种融合文字片段及金字塔网络的场景文字定位方法。该方法将特征金字塔机制应… 自然场景文字定位是文字识别中非常重要的一部分。与通用的物体检测相比文字定位更具挑战性文字在长宽比、尺度和方向上有更大范围的变化。针对这些问题本文介绍一种融合文字片段及金字塔网络的场景文字定位方法。该方法将特征金字塔机制应用到单步多框检测器以处理不同尺度文字同时检测多个文字片段以及学习出文字片段之间8-neighbor连接关系最后通过8-neighbor连接关系将文字片段连接起来实现对不同方向和长宽比的文字定位。此外针对文字通常较小特点扩大检测网络中backbone模型深层特征图以获得更好性能。 本文提出的方法已发表在文档分析与识别国际会议ICDAR2019 (International Conference on Document Analysis and Recognition)上审稿人评论该方法为“As it is of more practical uses”认可了它的实用性。 ICDAR是由国际模式识别学会(IAPR)组织的专业会议之一专注于文本领域的识别与应用。ICDAR大会每两年举办一次目前已发展成文字识别领域的旗舰学术会议。为了提高自然场景的文本检测和识别水平国际文档分析和识别会议ICDAR于2003年设立了鲁棒文本阅读竞赛“Robust Reading Competitions”。至今已有来自89个国家的3500多支队伍参与。ICDAR 2019将于今年9月20-25日在澳大利亚悉尼举办。 美团今年联合国内外知名科研机构和学者提出了”中文门脸招牌文字识别”比赛ICDAR 2019 Robust Reading Challenge on Reading Chinese Text on Signboards。 背景 自然场景图像中的文字识别已被广泛应用在现实生活中例如拍照翻译自动驾驶图像检索和增强现实等因此也有越来越多的专家学者对其进行研究。自然场景文字定位是指对场景图像中所有文本的精确定位是自然场景文字识别中第一步也是最重要的一步。由于自然场景下文本颜色、大小、宽高比、字体、方向、光照条件和背景等具有较大变化如图1因此它是非常具有挑战性的。 图 1 自然场景文字图片 深度学习技术在物体识别和检测等计算机视觉任务方面已经取得了很大进展。许多最先进的基于卷积神经网络CNN的目标检测框架如Faster RCNN、SSD 和FPN[1]等已被用来解决文本检测问题并且性能远超传统方法。 深度卷积神经网络是一个多层级网络结构浅层特征图具有高分辨率及小感受野深层特征图具有低分辨率及大感受野。具有小感受野的浅层特征点对于小目标比较敏感适合于小目标检测但是浅层特征具有较少的语义信息与深层特征相比具有较弱的辨别力导致小文本定位的性能较差。另一方面场景文字总是具有夸张的长宽比例如一个很长的英文单词或者一条中文长句以及旋转角度例如基于美学考虑通用物体检测框架如Faster RCNN和SSD是无法回归较大长宽比的矩形和旋转矩形。 围绕上面描述的两个问题本文主要做了以下事情 为了处理不同尺度的文本借鉴特征金字塔网络思路将具有较强判别能力的深层特征与浅层特征相结合实现在各个层面都具有丰富语义的特征金字塔。另外当较深层中的小对象丢失时特征金字塔网络仍可能无法检测到小对象深层的上下文信息无法增强浅层特征。我们额外扩大了深层的特征图以更准确地识别小文本。我们不直接回归文本行而是将文本行分解为较小的局部可检测的文字片段并通过深度卷积网络进行学习最后将所有文字片段连接起来生成最终的文本行。现有方法 最新的基于深度神经网络的文本定位算法大致可以分为两大类1基于分割的文本定位2基于回归的文本定位。 1 基于分割的文本定位 当前基于分割的文本定位方法大都受到完全卷积网络FCN [2]的启发。全卷积网络FCN, fully convolutional network 是去除了全连接(fc)层的基础网络最初是用于实现语义分割任务。由于FCN网络最后一层特征图的像素分辨率较高而图文识别任务中需要依赖清晰的文字笔画来区分不同字符特别是汉字所以FCN网络很适合用来提取文本特征。当FCN被用于图文识别任务时最后一层特征图中每个像素将被分成文字行前景和非文字行背景两个类别。   2 基于回归的文本定位 Textboxes [3] 是经典的也是最常用的基于回归的文本定位方法它基于SSD框架训练方式是端到端运行速度也较快。为了适应文本行细长型特点特征层也用长条形卷积核代替了其他模型中常见的正方形卷积核。为了防止漏检文本行还在垂直方向增加了候选框数量。为了检测大小不同的字符块在多个尺度的特征图上并行预测文本框 然后对预测结果做NMS过滤。 提出方法 我们的方法也是基于SSD整体框架如图4。为了应对多尺度文字尤其是小文字对高层特征图进行间隔采样以保持高层特征图分辨率。同时借鉴特征金字塔网络相关思路将高层特征图上采样与底层特征叠加构建一个新的多层级金字塔特征图图4蓝色框部分。此外为了处理各种方向文字在不同尺度的特征图上预测文字片段以及片段之间的连接关系然后对预测出的文字片段和连接关系进行组合得到最终文本框。下面将具体介绍方法。 1 扩大高层特征图 深度卷积神经网络通常是逐层下采样这对于物体分类来说是有效的但是对于检测任务来说是有损害的。基于时间和性能的权衡考量我们对卷积网络中最后几层特征进行间隔采样如图5从Conv6_2层开始下采样Conv7_2层保持原分辨率Conv8_2层再下采样。 2 构建特征金字塔 虽然通过扩大深度特征图的设计可以更好地检测小文本但较小的文本仍然难以检测。为了更好地检测较小的文本进一步增强较浅层例如图5中conv4_3Fc7的特征。我们通过融合高层和低层的特征构建了一个新的特征金字塔图4中蓝色部分conv4_3_f, fc7_f, conv6_2_f, conv7_2_f, conv8_2_f 和conv9_2_f新的金字塔特征具有更强辨别力和语义丰富性。 高层和低层特征融合策略如图6所示高层特征图先进行上采样使之与低层特征图相同大小然后与低层特征图进行叠加叠加后的特征图再连接一个3*3卷积获得固定维度的特征图我们设定固定维度d256。 3预测文字片段及片段之间连接关系 如图7先将每个文字词切割为更易检测的有方向的小文字块segment然后用邻近连接link 将各个小文字块连接成词。这种方案方便于识别长度变化范围很大的、带方向的词和文本行它不会象Faster-RCNN等方案因为候选框长宽比例原因检测不出长文本行而且处理速度很快。 基于第2小节构建的特征金字塔特征图将每层特征图上特征点用于检测小文字块和文字块连接关系。如图8连接关系可以分为八种上、下、左、右、左上、右上、左下、右下同一层特征图、或者相邻层特征图上的小文字块都有可能被连接入同一个词中换句话说位置邻近、并且尺寸接近的文字块都有可能被预测到同一词中。 最后基于检测出的小文字块以及文字块连接组合出文本框如图9具体组合过程如下 a 将所有具有连接关系的小文字块组合起来得到若干小文字块组 b 对于每组小文字块找到一条直线能最好的拟合组内所有小文字块中心点 c 将组内所有小文字块的中心点投影到该直线上找出距离最远的两个中心点A和B d 最终文字框中心点为AB/2方向为直线斜率宽度为AB两点直线距离加上AB两点的平均宽度高度为所有小文字块的平均高度。 实验及应用 我们在两个公开数据集上ICDAR2013ICDAR2015对方法进行评测。其中ICDAR2013数据集训练图片229张测试图片233张ICDAR2015数据集训练图片1000张测试图片500张它们都来自于自然场景下相机拍摄的图片。 1我们首先对比了扩大高层特征图与不扩大高层特征图的性能比较并在基础上对比加入特征金字塔后的性能比较在ICDAR2015数据集上实验结果如表1 “baseline”方法是ssd框架预测文字片段及片段之间连接关系模块“扩大高层特征图”是在baseline方法基础上对高层特征图进行扩大“金字塔扩大高层特征图”是在baseline方法基础上对高层特征图进行扩大 并且加入特征金字塔。从表1中不难发现扩大高层特征图可以带来精度和召回的提升尤其是召回有近3个点的提升73.4-76.3这很好理解因为更大的特征图产生更多的特征点以及预测结果在此基础上再加入金字塔机制精度获得显著提升说明金字塔结构极大增强低层特征判别能力。 2我们也和其他方法也做了比较具体见表2和表3 从上表中可以看出我们的方法在时间和精度上取得很好的权衡。在ICDAR2015数据集上虽然性能不及PixelLink但是FPS要远高于它而相比TextBoxes虽然FPS略低于它但是精度更高。图10给出一些文字定位结果示例。 3此外本方法也落地应用于实际业务场景菜单识别中。菜单上文字通常较小、较密菜名文字可长可短以及由于拍摄角度导致文字方向倾斜等。如图11所示方法能很好的解决以上问题小文字、密集文字行、长文本、不同方向并且在500张真实商家菜单图片上进行评测相比SegLink方法性能明显提升近5个点提升。 图 11 菜单文字定位结果示意图 结论 本文我们提出了一个高效的场景文本检测框架。针对文字特点我们扩大高层特征图尺寸并构建了一个特征金字塔以更适用于不同比例文本同时通过检测文本片段和片段连接关系来处理长文本和定向文本。实验结果表明该框架快速且准确在ICDAR2013和ICDAR2015数据集上获得了不错结果同时应用到公司实际业务场景菜单识别上获得明显性能提升。下一步受实例分割的方法PixelLink [4]的启发我们也考虑将文本片段进一步细化到像素级同时融合检测和分割方法各自优缺点构建联合检测和分割的文字定位框架。 参考文献 Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie. “Feature Pyramid Networks for Object Detection.” arXiv preprint. arXiv: 1612.03144, 2017.J. Long, E. Shelhamer, and T. Darrell. “Fully convolutional networks for semantic segmentation.” In CVPR, 2015.M. Liao, B. Shi, and X. Bai. “Textboxes: A single-shot oriented scene text detector.” IEEE Trans. on Image Processing, vol. 27, no. 8, 2018.D. Deng, H. Liu, X. Li, and D. Cai. “Pixellink: Detecting scene text via instance segmentation.” In AAAI, pages 6773– 6780, 2018.作者简介 刘曦美团视觉图像中心文字识别组算法专家。 招聘信息 美团视觉图像中心文字识别组针对美团各项业务如商家入驻资质审核、网页信息合规审核等需求对证照、票据、菜单、网图等图片类型开展文字识别研发工作。利用高性能文字识别功能帮助业务方和商家实现自动审核 、自动录入显著提升人效、降低成本改善体验。 欢迎计算机视觉相关及相关领域小伙伴加入我们简历可发邮件至 techmeituan.com邮件标题注明美团视觉图像中心文字识别组。
http://www.yutouwan.com/news/228613/

相关文章:

  • 洪山区建设局网站做智能网站系统下载软件
  • 公司英文网站多少钱河北公司网站建设
  • 网站开发工程师 英文知名品牌vi案例分析
  • 漳州手机网站建设公司哪家好宁波网站公司哪家好
  • 湖州网站建设策划新网站建设ppt
  • 专业的临沂网站优化企业内网搭建要多少钱
  • 陕西省建设厅网站首页郑州西区做网站
  • 建网站和开发网站重庆最大的网络公司
  • 外贸机械网站路由优化大师
  • 苏宁易购网站建设 的定位网站支付怎么做安全吗
  • 网站建设的优势是什么意思网络服务的工具
  • 网络营销上的网站建设流程张家口网站建设电话
  • 白城网站建设哪家好如何制作app图标
  • 外网访问wordpress全站路径设置淘宝网站开发系统
  • 网站管理规定包头 网站建设
  • asp网站连不上数据库无锡网页网站制作公司
  • wordpress调用评论数怎么优化网站源码关键词
  • 有没有如何做网站的书专业的医疗行业网站模板
  • 外贸公司网站开发制作公司网页官网
  • 陕西西安网站建设公司做网站设计的电话
  • 建立网站三大基础wordpress中文乱码
  • 松江九亭网站建设开发一个app有哪些好处
  • 网站建设出现乱码是怎么回事会计培训机构排名
  • 漯河做网站电子商务毕业设计网站建设业务
  • 如何查询网站建立时间网站开发需求分析包括哪些方面
  • 12380网站建设情况网站静态和动态
  • 做网站搭建环境百度联盟一天多少收入
  • 织梦dedecms女性时尚门户网站模板北京外企人力资源服务有限公司
  • 仿门户网站网络营销思路
  • 织梦网站需要付费吗国外网站如何做seo