当前位置: 首页 > news >正文

正版网站设计制作vi设计公司公司

正版网站设计制作,vi设计公司公司,建设美食电子商务网站,wordpress电子书主题目录 1.概述 2.应用场景 3.发展历史 4.基于传统算法的OCR技术原理 4.1 图像预处理 4.1.1 灰度化 4.1.2 二值化 4.1.3 去噪 4.1.4 倾斜检测与校正 4.1.4.2 轮廓矫正 4.1.5 透视矫正 4.2 版面分析 4.2.1 连通域检测文本 4.2.2 MSER检测文本 4.3 字符切割 4.3.1 连…目录 1.概述 2.应用场景 3.发展历史 4.基于传统算法的OCR技术原理 4.1 图像预处理 4.1.1 灰度化 4.1.2 二值化 4.1.3 去噪 4.1.4 倾斜检测与校正 4.1.4.2 轮廓矫正 4.1.5 透视矫正 4.2 版面分析 4.2.1 连通域检测文本 4.2.2 MSER检测文本 4.3 字符切割 4.3.1 连通域轮廓切割 4.3.2 垂直投影切割 4.4 字符识别 4.4.1 识别原理 4.5 版面恢复 4.6 后处理 4.7 传统OCR局限性 5.基于深度学习的OCR技术原理 5.1 两阶段文本识别 5.1.1 文本检测 5.1.1.1 基于回归的方法 5.1.1.2 基于分割的方法 5.1.1.3 文本检测算法发展 5.1.2 文本识别 5.1.2.1 基于CTC技术的预测方法 5.1.2.2 基于Attention机制的网络模型预测方法 5.1.2.3 文字识别算法发展 5.2 端到端文本识别 6.ChatOCR 7.总结 1.概述 OCR Optical Character Recognition光学字符识别技术是一种将印刷体或手写文字转化为可编辑文本的技术。即将图像中的文字进行识别并以文本的形式返回。 2.应用场景 OCR具有广泛的应用场景涵盖了各个领域如OCR识别车辆牌照实现快速通行和行车计费、识别票据快速录入信息、识别试卷辅助计算分数等以下是一些主要的应用场景: OCR生态图 3.发展历史 1929年德国科学家Tausheck首次提出了OCR的概念设想利用机器来读取字符和数字 20世纪60年代世界各国开始对OCR进行正式研究研究人员将OCR技术理论运用到实际应用中诞生了第一批OCR系统但基本只支持数字和英文字母的识别典型案例就是邮政编码自动识别系统。 20世纪70年代末我国开始开始进行汉字识别研究直到1986年研究才进入实际性阶段863计划相继推出各种OCR产品。 20世纪80年代随着计算机技术的发展、扫描设备的逐渐提升以及计算机视觉的不断成熟开始出现基于图像处理(二值化、投影分析等)和统计机器学习的OCR技术识别准确度进一步提升。 21世纪OCR场景逐渐复杂以及识别精度的要求不断提升传统OCR逐渐不能满足已有需求基于深度学习的技术让OCR识别效果更近一步。 4.基于传统算法的OCR技术原理 传统OCR基于图像处理二值化、连通域分析、投影分析等和统计机器学习Adaboot、SVM提取图片上的文本内容用到的计算机视觉算法库主要有OpenCV、Halcon、VisionPro等出于开源、多语言支持和方便易用的考虑我们通常采用OpenCV进行开发该算法主要流程如下 4.1 图像预处理 图像预处理是一种在进行主要的图像分析之前改进图像数据消除无用信息强化有用信息或者提高计算速度的技术。它可以增强图像质量使得OCR引擎更好地分离出文本和背景提高文本的识别准确度常用图像预处理操作有灰度化、二值化、去噪、倾斜检测与校正、透视矫正等。 4.1.1 灰度化 将彩色图像转化为灰度图像。因为在大多数情况下我们只需要关注文字和背景的对比度而不需要关注它们的颜色。灰度化能将计算复杂度大幅降低同时保留主要信息。 4.1.2 二值化 将图像转换为只包含黑白两色的图像。二值化过程可以通过设定一个阈值来实现所有低于这个阈值的像素将被标记为黑色而高于阈值的像素将被标记为白色。这样可以进一步强化文字与背景的对比度。 4.1.3 去噪 使用各种滤波器例如中值滤波器、高斯滤波器等来减少图像中的噪声如尘埃、划痕、噪点等 4.1.4 倾斜检测与校正 OCR系统需要自动纠正图像中的倾斜以确保文本的正确识别。这个过程包括检测图像中文本行的倾斜角度并进行相应的校正有如下两种常用倾斜校正算法 4.1.4.1 霍夫曼直线矫正 主要流程如下 矫正效果如下 4.1.4.2 轮廓矫正 主要流程如下 矫正效果如下 4.1.5 透视矫正 主要流程如下 矫正效果如下 4.2 版面分析 识别图像中的文本区域、非文本区域以及文本的结构信息如列、行、块、标题、段落、表格等为后续的文字提取步骤提供基础主要检测文本算法有连通域检测文和MSER检测文本 4.2.1 连通域检测文本 传统检测算法一般可以分为两个部分第一个是连通域的提取第二个是文字连通域的判别。其中将图像二值化后通过连通域提取环节会将所有的连通域找出来作为候选集然后根据启发式规则算法判断提取的连通域是否是文字连通域。流程如图所示 输出结果 4.2.2 MSER检测文本 MSER的处理过程对一幅灰度图像取不同的阈值进行二值化处理阈值从0至255递增这个递增的过程就好比是一片土地上的水面不断上升随着水位的不断上升一些较低的区域就会逐渐被淹没从天空鸟瞰大地变为陆地、水域两部分并且水域部分在不断扩大。在这个“漫水”的过程中图像中的某些连通区域变化很小甚至没有变化则该区域就被称为最大稳定极值区域。在一幅有文字的图像上文字区域由于颜色灰度值是一致的因此在水平面阈值持续增长的过程中一开始不会被“淹没”直到阈值增加到文字本身的灰度值时才会被“淹没”。流程如图所示 4.3 字符切割 在深度学习序列化模型还未兴起的时候传统文本识别还不能直接对文本行直接进行文字识别因为词与词的组合、词组与词组的组合无法枚举穷尽对这些词组直接分类基本不可能。相对于词语、词组字符的个数可以穷尽如果把文本切分成单个字符来识别任务会简单很多。主要有连通域轮廓切割和垂直投影切割两种方式 4.3.1 连通域轮廓切割 每个文本行切片的局部图中单个字符都是一个个独立的对象存在如果能找到单个独立对象的轮廓信息那么他的最小外接矩形也能通过一些opencv的函数获取得到基于连通域的大致流程原理如下 4.3.2 垂直投影切割 简单场景下文本行图像中除了文字像素就是背景像素字符与字符之间的空隙像素一般较少而在文字内像素分布较多基于该特征将文本行切片二值化变成黑底白字统计每列中白色像素的个数得到每列的白色像素的分布然后根据规律找到合适的分割间隔点并对单字符进行分割得到最终结果流程图如下所示 统计每列白色像素个数和画出垂直投影分布图示例 4.4 字符识别 在传统OCR文字识别领域是将文本行的字符识别看成一个多分类问题中文领域字符识别类别大概有5800包括常见汉字、标点符号、特殊字符等。 4.4.1 识别原理 在字符分类之前我们首先将字符切片归一化成统一尺寸参考经典手写字符分类尺寸大小28x28统一尺寸后根据图像的常见算法去提取特征比如hog、sift等最后分类器选择支持向量机、逻辑回归、决策树等模型训练完成可以集成端到端进行预测识别。大致流程如下 像素特征指图像中每个像素的颜色、亮度、饱和度等属性 HOG特征也叫方向梯度直方图特征将输入的图像分割成一个个小小的连通区域这些独立的区域被称为“细胞单元”。然后对每一个细胞单元中的所有像素点计算其梯度或边缘的方向信息并对这些信息进行统计生成相应的直方图。最后将所有细胞单元的直方图按照一定的规则组合起来就构成了这个图像的HOG特征描述符。 SIFT特征中文名为尺度不变特征变换是一种在图像处理领域广泛应用的局部特征提取算法核心思想实在不同尺度的空间中寻找并精确定位极值点也称为关键点或特征点这些极值点通常是图像中比较突出的元素如角点和边缘点等并且不会因为光照、仿射变换或者噪声等因素而变化。 4.5 版面恢复 与版面分析相对应将识别后的文字恢复原始文档图片的排列方式包括段落、位置和顺序等信息。这个过程不仅涉及到单个字符的识别也需要考虑文本的布局和结构。例如对于包含表格、段落样式、文字样式和文档版面的复杂文档版面恢复可以确保识别结果与原图片的版面布局一致。 4.6 后处理 由于图像质量、字体、噪声等原因OCR识别文本后往往存在一定的错误使用合适的后处理方案可以进一步提升OCR识别准确率后处理阶段主要包含两个核心任务文本纠错和文本结构化。 文本纠错主要目标是纠正OCR输出文本中的错误文字通常利用先验词典进行实现或经验规则来进行纠错也可以采用基于语言模型的纠错机制等方法来对OCR结果进行进一步的校正。 文本结构化主要目标是从OCR输出的文本中定位出所需的信息并根据特定的应用需求将这些信息进行有效的处理如从一张包含名片信息的图片中通过OCR技术识别出名片上的文字然后利用命名实体识别技术标记出名片中的姓名、电话、邮箱等语义实体 。 4.7 传统OCR局限性 虽然传统OCR技术在许多场景中表现得相当出色但这种技术确定存在一些局限性尤其实在比较复杂的场景下一下是一些主要的局限性 对清晰度和质量的高要求传统的OCR技术高度依赖图像的质量。如果输入的图像质量较差例如图像模糊、对比度低、光照不均、存在噪声等则OCR的准确度可能会大大降低。对字体和布局的依赖性传统的OCR技术通常基于特定的字体和布局进行训练。因此如果输入的文本使用了训练数据中未包含的字体或者不同的布局那么识别精度可能会受到影响。复杂背景下识别效果差如果文本字符与背景紧密相连或者文本在复杂的背景上传统的OCR系统可能会难以准确地分割和识别字符。类似地如果字符被装饰或者以艺术字形式呈现传统的OCR系统可能也无法准确地识别出这些字符。手写识别效果差对于手写文字的识别传统的OCR系统通常会遇到更大的挑战因为手写文字的形状、大小和倾斜度变化非常大且往往缺乏清晰的边界。无法处理多语言和特殊字符传统的OCR系统通常针对单一或者少数几种语言进行优化对于其他语言或者特殊字符例如数学符号、音乐符号等可能无法提供满意的识别效果。缺乏上下文理解传统的OCR技术通常将字符识别作为一个独立的任务进行而没有考虑字符的上下文信息。因此如果一个字符在图像中模糊不清OCR系统可能无法准确地识别出这个字符。 5.基于深度学习的OCR技术原理 传统OCR技术在处理复杂的图像和不规则形状的文本时效果并不理想。深度学习时代机器可以“学习”处理复杂任务并且对数据具有很好的适应性。通过结合深度学习建立更为强大和灵活的OCR模型它能够处理各种类型的文本并且提高字符识别的准确率。 典型OCR技术路线如下图所示 基于深度学习的场景文字识别主要包括两种方法第一种是分为文字检测和文字识别两个阶段第二种则是通过端对端的模型一次性完成文字的检测和识别。 5.1 两阶段文本识别 5.1.1 文本检测 给定输入图像或视频找出文本区域可以是单字符位置或者整个文本行位置 5.1.1.1 基于回归的方法 基于回归的文本检测是一种自然场景文本检测方法这种方法主要是借鉴目标检测技术文本检测方法只有两个类别图像中的文本视为待检测的目标其余部分视为背景。通过设定anchor回归检测框或者直接做像素回归实现这类方法对规则形状文本检测效果较好但是对不规则形状的文本检测效果会相对差一些。 设定anchor回归检测框方式实现思路 Anchor也被称为锚框或先验框主要思路是在图像上预设参照框这些参照框有不同的大小和形状并且会在图片上滑动形成不同的候选框对于每个候选框我们都需要预测两个参数一个是回归值这个值描述了候选框相对于锚框的位置偏移量另一个则是分类值用于判断该候选框是否包含物体。 主要方法有CTPN、Textbox系列和EAST。 像素回归方式实现思路 像素回归可以通过图像语义分割获得可能的文本像素然后通过像素点进行回归或对文本像素进行聚合得到文本框位置。 主要方法有CRAFT和SA-Text。 优缺点 优点对规则形状文本检测效果较好 缺点无法准确检测不规则形状文本 5.1.1.2 基于分割的方法 基于分割的识别算法是自然场景文本检测算法的一个重要分支通常包括3个步骤:图像预处理、单字符分割和单字符识别实现思路与传统OCR识别过程中的字符切割流程类似。 主要实现思路如图所示 算法示意图: 主要算法有PixelLink、PSENet、DB等 参考基于分割思想的文本检测算法-腾讯云开发者社区-腾讯云 优缺点 优点对不同形状文本的检测效果都比较好 缺点后处理复杂且耗时长重写文本识别效果差 5.1.1.3 文本检测算法发展 5.1.2 文本识别 在传统的文本识别方法中任务分为3个步骤即图像预处理、字符分割和字符识别。需要对特定场景进行建模一旦场景变化就会失效。面对复杂的文字背景和场景变动基于深度学习的方法具有更优的表现。多数现有的识别算法可用如下统一框架表示算法流程被划分为4个阶段 常见文本识别算法可以分为基于CTC技术的方法和基于Attention机制的网络模型两大类。 5.1.2.1 基于CTC技术的预测方法 CTCConnectionist Temporal Classification是一种经常被用于语音识别和文本识别的算法。它的主要作用是解决输入序列和输出序列长度不同、无法直接对齐的问题。 技术说明 CTC的关键创新是引入了一个特殊的符号通常被称为“空格”字符或者“blank”字符。这个字符没有实际的语义含义但它在训练模型时起着关键的作用。 由于OCR识别过程中输入图像的宽度往往是固定的而输出的字符数量是变化的这导致了输入和输出之间存在一个“不对齐”的问题。 CTC通过引入“空格”字符有效地解决了这个问题。在训练时我们可以为每个可能的字符预测一个概率同时还预测一个“空格”字符的概率。然后我们可以通过一种叫做“解码”的过程从这些预测的概率中生成最终的字符序列。 典型模型(CRNN) CRNN网络结构包含三部分从下到上依次为 1.卷积层使用深度CNN对输入图像提取特征。 2.循环层使用双向RNNBLSTM对特征序列进预测输出预测标签真实值分布。 3.转录层使用 CTC 损失把从循环层获取的一系列标签分布转换成最终的标签序列。 小结 基于CTC的解码方式在处理定长输入和变长输出的问题上有着显著的优势但由于其预测每个字符时并未充分利用上下文信息所以在处理不规则形状的文本如弯曲文本或者手写文本时效果可能会有所下降。 5.1.2.2 基于Attention机制的网络模型预测方法 我们在阅读时总是会关注到一些特定的部分而忽略其他不太重要的信息。在这个过程中我们总是在上下文中寻找重要的信息这就是Attention机制。 基于Attention的解码方式是一种在深度学习中广泛使用的方法尤其在处理序列型问题如机器翻译和OCR时表现优异。它之所以被称为Attention注意力是因为这种机制能模仿人类在处理信息时会关注关键部分的特性。 技术说明 Attention机制的基本思想是在进行预测时模型应该“关注”输入中最相关的部分。在OCR的环境中这意味着在预测某个字符时模型应该关注图像中与该字符最相关的区域。 Seq2SeqAttention模型就是基于Attention的一种典型模型。这种模型通常由两部分组成编码器Encoder和解码器Decoder。编码器的任务是将输入图像转化为一组特征向量。解码器的任务是将这些特征向量转化为字符序列。 与传统的Seq2Seq模型不同这里的解码器在生成每一个字符时都会通过Attention机制来选择和关注哪些特征向量。换句话说模型会“关注”那些对当前预测最有帮助的特征。 典型模型(ASTER) 引入注意力机制整合矫正和识别改善大规则文字识别 1.卷积层使用DCNN将输入的图像转化为一组特征向量 2.循环层使用双向RNNBLSTM对特征序列进预测将这些特征向量转化为字符序列在生成每一个字符时解码器都会使用Attention机制来选择和关注哪些特征向量。 小结 基于Attention的解码方式虽然在处理不规则形状的文本如弯曲文本或手写文本时效果较好但是需要注意的是当处理的文本过长或者过短时这种方法可能效果会有所降低。此外由于模型需要考虑全部的上下文信息因此计算复杂度相对较高这也是基于Attention的解码方式需要注意的一点。 5.1.2.3 文字识别算法发展 5.2 端到端文本识别 与检测-识别的多阶段OCR不同深度学习使端到端的OCR成为可能将文本的检测和识别统一到同一个工作流中其基本思想是共享同一个主干网络并设计不同的检测模块和识别模块可以同时训练文本检测和文本识别。 典型模型(FOTS) FOTS是一个快速的端对端的文字检测与识别框架通过共享训练特征、互补监督的方法减少了特征提取所需的时间从而加快了整体的速度。其整体结构如图所示 1.卷积共享从输入图象中提取特征并将底层和高层的特征进行融合 2.文本检测通过转化共享特征输出每像素的文本预测 3.ROIRotate将有角度的文本块通过仿射变换转化为正常的轴对齐的本文块 4.文本识别使用ROIRotate转换的区域特征来得到文本标签。 小结 端到端OCR的主要优点包括模型小速度快以及整合了文本检测和识别的功能但由于只有一个模型可解释性更差且目前仅在英文、数字识别领域识别效果较好中文领域识别准确性有待提升。 6.ChatOCR 最近百度飞桨团队推出了一款基于文心大模型的通用图像关键信息抽取工具PP-ChatOCR。它结合了OCR文字识别和文心一言大语言模型可以在多种场景下提取图像中的关键信息效果非常惊艳。而传统的OCR识别技术的准确率容易受到多种因素影响例如图像质量、字符布局、字体样式等。但当我们将OCR技术与大语言模型相结合时可以避免繁杂的规则后处理提升泛化能力从而能够更智能、准确地理解和利用文本信息。 PP-ChatOCRv2体验地址【PaddleX】PP-ChatOCRv2_AI应用-飞桨AI Studio星河社区 PP-ChatOCRv2效果演示图如下 7.总结 尽管基于深度学习的OCR表现相较于传统方法更为出色但是深度学习技术仍需要在OCR领域进行特化而其中的关键正式传统OCR方法的精髓。因此我们仍需要从传统方法中汲取经验使其与深度学习有机结合进一步提升OCR的性能表现。另一方面作为深度学习的推动力数据起到了至关重要的作用因此收集广泛而优质的数据也是现阶段OCR性能的重要举措之一。相信随着大模型技术的发展OCR表现也会越来越好。
http://www.huolong8.cn/news/59262/

相关文章:

  • 设计网页与创建网站吗漯河北京网站建设
  • 网站建立多少钱扬州网站建设icp备
  • 好看的个人网站设计网站logo怎么做最清楚
  • 小说网站开发猪八戒如何注册一个域名
  • 外贸网站的公司介绍视觉设计网站建设
  • 国外设计参考网站苏州网站建设上往建站
  • 网站网站建设专业营销团队建设与管理
  • 餐饮团购网站建设地产设计网站
  • 静态网站站内搜索宁波网站建设的过程
  • 模板网站建设流程图html企业网站模板下载
  • 模板做图 网站有哪些大型电商网站开发方案
  • 互联网教育网站开发上海昆山网站公司
  • 做外贸要建什么网站什么公司做网站好
  • 有没有教给做宝宝衣服的网站邢台手机网站建设公司
  • 网站建设需要服务器百度竞价推广教程
  • app和手机网站的区别是什么常州市住房和城乡建设局网站
  • 分包合同建设局网站下载seo优化教程
  • 徐州网站网站建设系统开发策略主要有
  • 网站知识网站跨境电商平台网站建设多少钱
  • 中关村在线官方网站游戏软件开发需要多少钱
  • 传销教你做网站wordpress密码重设链接无效
  • 网站登录 退出怎么做兰州最新大事
  • 东莞做营销网站建设企业型网站建设方案
  • 网站开发费属于研发支出吗企业官网建站流程
  • 安康网站建设制作建设企业网站得花多少
  • 网站怎么自适应屏幕广州做网站的公司有哪些
  • 代刷开通建设网站百度识图在线识别
  • 苏州公司技术支持 苏州网站建设长沙网站优化步骤
  • 做外汇必须要网站主机 搭建wordpress
  • 网站建设软件开发wordpress首页在哪