当前位置：首页 > news >正文

个人制作的网站电子商务系统网站开发总结

news 2025/12/11 23:27:30

个人制作的网站,电子商务系统网站开发总结,个人网站怎么制作成图片,途牛网站大数据建设SIGAI特约作者#xff1a;沪东三哥原创声明:本文为SIGAI 原创文章#xff0c;仅供个人学习使用#xff0c;未经允许#xff0c;不得转载#xff0c;不能用于商业目的。其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》#xff0c;清华大…SIGAI特约作者沪东三哥原创声明:本文为SIGAI 原创文章仅供个人学习使用未经允许不得转载不能用于商业目的。其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》清华大学出版社雷明著由SIGAI公众号作者倾力打造。书的购买链接书的勘误优化源代码资源获取全文PDF请查看场景文本检测-CTPN算法介绍何为OCR OCR的全称为“Optical Character Recognition” 中文翻译为光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来并转换成一种计算机和人都能够理解的形式的过程。先来看一个简单的OCR的流程第一步通过图像信息采集一般就是相机得到包含了待识别字符的图像分析结构。第二步运用阈值操作等一些图像处理的方法对待测对象进行去噪和矫正。第三步因为文本信息的特殊性质需要进行行列分割对单个字符或者是连续几个字符进行检测。第四步将分割后的字符图像导入识别模型中进行处理进而得到原图中的字符信息。场景文本识别对于印刷字体的OCR技术如今已经相当成熟了。腾讯TIM的手机版就自带有图像文字提取的功能微软的Office Lens的各种扫描功能呢等等虽然不能说是百分之百正确但是95%以上的印刷字体识别基本都是可以做到了。所以现在技术上关注的更多的是“场景文本识别”也就是复杂环境下的字符信息的识别如下面几张图所示。对于复杂环境中的字符的识别主要包括文字检测和文字识别两个步骤这里介绍的CTPN(Detecting Text inNatural Image with Connectionist Text Proposal Network)方法就是在场景中提取文字的一个效果较好的算法能将自然环境中的文本信息位置加以检测。涉及到了图像中位置信息的选择很容易联想到之前用于目标检测的R-CNN的模型。毕竟CNNConvolutional Neural Network在这两年的图像处理上一枝独秀已经“深入人心”。那么把“字符位置”标记成一类然后直接放入CNN模型处理岂不美哉不过现实总不会这么美好文字的多种情况、字体以及大面积的文字信息的位置都对我们直接用R-CNN的方法产生了干扰让结果产生严重的偏差。应对于此一类结合CNN优势专门应对环境文本信息的模型也就因运而生了CTPN正是其中的佼佼者。CTPN算法概述言归正传,那么算法上文本位置的准确界定是怎么做到的呢首先明确待检测的目标的特点无论是图3还是图4的样例文字信息的特点在于它是一个序列是由“字符、字符的一部分、多字符”组成的一个sequence。所以这个目标显然不像我们一般的目标检测中的对象那样是独立和封闭的所以不妨使用前后关联的序列的方法比如说RNN (Recurrent Neural Networks),利用前后文的信息来进行文本位置的测定。另外很重要的一点是作者认为预测文本水平方向的位置比预测竖直方向上的位置要困难得多。所以检测的过程中不妨引入一个类似数学上“微分”的思想如下图5所示先检测一个个小的、固定宽度的文本段。在后处理部分再将这些小文本段连接起来得到文本行。图5 “微分”示意图有了CNN和RNN结合以及数学上”微分”思想处理文字段这样的奇思妙想之后接下来就看作者是如何将其实现的了。具体流程图如下然后分别进行介绍。过程的图像如下图6图6算法流程示意图具体的步骤为1. 首先用VGG16的前5个Conv stage得到feature map大小为W*H*C2. 用3*3的滑动窗口在前一步得到的feature map上提取特征利用这些特征来对多个anchor进行预测,这里anchor定义与之前faster-rcnn中的定义相同也就是帮我们去界定出目标待选区域。3. 将上一步得到的特征输入到一个双向的LSTM中输出W*256的结果再将这个结果输入到一个512维的全连接层FC.4. 最后通过分类或回归得到的输出主要分为三部分根据上图从上到下依次为2k vertical coordinates:表示选择框的高度和中心的y轴的坐标2k scores:表示的是k个anchor的类别信息说明其是否为字符k side-refinement表示的是选择框的水平偏移量。本文实验中anchor的水平宽度都是16个像素不变也就是说我们微分的最小选择框的单位是 “16像素”。5. 用文本构造的算法将我们得到的细长的矩形如下图7然后将其合并成文本的序列框。图7 回归的长矩形框核心方法具体的流程已经介绍完毕了而这些流程中有很多作者提出的实现方法需要特别关注名称按照论文分别是Detecting Text in Fine-scale proposals选择出anchor也就是待选的”矩形微分框“、Recurrent Connectionist Text Proposals双向LSTM利用上下文本信息的RNN过程、Side-refinement文本构造将多个proposal合并成直线。Detecting Text in Fine-scale proposals 和faster-rcnn中的RPN的主要区别在于引入了”微分“思想将我们的的候选区域切成长条形的框来进行处理。k个anchor也就是k个待选的长条预选区域的设置如下宽度都是16像素高度从11~273像素变化每次乘以1.4也就是说k的值设定为10。最后结果对比如下图8 Fine-scale text的对比本文使用的方法回归出来的y轴坐标结果如下其中标记*的表示为真值v {vc,vh} 表示一个预测的框选位置因为长度固定之前确定的16像素vc表示的是该预选框在y轴上的中心位置vh表示这个预选框的高度。Recurrent Connectionist Text Proposals:其方法对应的就是之前流程中的”双向LSTM“对应的细节将前后文的信息用到文本位置的定位当中。其中BLSTM有128个隐含层。输入为3*3*C滑动窗口的feature输出为每个窗口所对应的256维的特征。简要表示如下图9 输入输出示意图下面是使用RNN和不使用RNN的效果对比图。图10 RNN效果对比图Side-refinement先进行文本位置的构造Side-refinement是最后进行优化的方法。对定位出来的“小矩形框”加以合并和归纳可以得到需要的文本信息的位置信息。我们最后保留的小矩形框是需要score0.7的情况也就是将下图中的红色小矩形框合并最后生成黄色的大矩形框。图11 小区域分割示意图主要的思路为每两个相近的proposal也就是候选区组成一个pair合并不同的pair直到无法再合并为止。而判断两个proposal,Bi和Bj可以组成一个pair的条件为Bi—Bj,同时Bj—Bi;该符号的判定条件见下图。图12 可合并区域判定示意图因为这里规定了回归出来的box的宽度是16个像素所以会导致一些位置上的误差这时候就是Side-refinement发挥作用的时候了。定义的式子如下其中带*表示为GroundTruth.。表示回归出来的左边界或者右边界表示anchor中心的横坐标是固定的宽度16像素。所以O的定义相当于是一个缩放的比例帮助我们去拉伸回归之后的box的结果从而更好地符合实际文本的位置。对比图如下红色框是使用了side-refinement的而黄色框是没有使用side-refinement方法的结果图13 Side-refinement结果对比纵观整个流程该方法的最大两点也是在于将RNN引入了文本检测之中同时将待检测的结果利用“微分”的思路来减少误差使用固定宽度的anchor来检测分割成许多块的proposal.最后合并之后的序列就是我们需要检测的文本区域。CNN和RNN的高效无缝衔接极大提升了精度实验对比如下表所示表1 实验结果与其他方法的对比说明1. 论文 https://arxiv.org/pdf/1609.03605.pdf2. 代码 https://github.com/eragonruan/text-detection-ctpn搬运实测运行可靠是有人根据faster-r-cnn的tensorflow版本进行改写的具体的训练和测试请参阅git上的readme 3. 除流程图外其他配图和表格信息均来自原文 “Detecting Text in Natural Image with Connectionist Text Proposal Network”参考文献[1] Ren, S., He,K., Girshick, R., Sun, J. (2015). Faster R-CNN: towards real-time objectdetection with region proposal networks. International Conference onNeural Information Processing Systems (Vol.39, pp.91-99). MIT Press.[2] sTian,Z., Huang, W., He, T., He, P., Qiao, Y. (2016). Detecting Text in Natural Image with Connectionist Text Proposal Network. European Conference on Computer Vision (pp.56-72). Springer, Cham.[3] Olah C(2015). Understanding LSTM networks.blog, http://colah.github.io/posts/2015-08-Understanding-LSTMs/, August 27, 2015.

查看全文

http://www.huolong8.cn/news/296219/