|
软件简介:上一页赛科先锋画王 2.0.0.4RC 下 下一页硕思闪客精灵专业版 7.0 (支持Flash转HTML5)
本软件是由七道奇为您精心收集,来源于网络转载,软件收录的是官方版,软件版权归软件作者所有,本站不对其观点以及内容做任何评价,请读者自行判断,以下是其具体内容:
Mini Ocr 汉字显示字体辨认软件
首先声明,我不是一个OCR范畴的专家.我的经验来自我写Mini Ocr软件的历程.
―― 马飞涛 关于Mini Ocr 软件
本软件是飞涛软件工作室开辟的一款免费Ocr软件,主要用于辨认图象文件之中,呈现 的汉字显示字体.Ocr的中文含义是光学字符辨认. 为什么叫Mini呢?因为现有的辨认汉字的商业Ocr软件,动辄二三十兆,而本软件解 压后,也不过三兆多,身体对比纤小,再加上本软件主要用于辨认字体对比小的汉字,所 以叫Mini,中文的发音是“迷你”,中文含义是超小型.
既然有了商业Ocr软件,为什么还要开辟这个软件?
差别于商业Ocr软件,本软件是免费的,可以安闲利用.第二个差别之处,本软件的 辨认对象是屏幕呈现的“显示汉字”,而不是针对扫描仪扫出来的“打印汉字”.二者有什 么差别呢?最重要的一点: 扫描出来的打印汉字的高度和宽度普通都在30多个像素点之 上,这是我用画图软件,翻开某个商业Ocr的samples\sample1.tif,然后一点一点数出 来的.从文件名和目录名的中文含义可以看出,这个点数应当是一个典型值.那么,假如 用商业Ocr辨认屏幕上呈现的小五号字,汉字的高度是12个像素点,会呈现什么情形呢? 测试办法:用记事本随便写几行汉字,设置字体为小五号字.这大约是看着还算舒服 的最小号的汉字字体了(高度是12个像素点),假如再小,字体就很丢脸了.然后,按拷 屏键PrtSc,把屏幕的图象拷贝、粘贴到画图软件中,修剪尺寸后,保存为bmp的格局. 然后,我找了两个国内最闻名的Ocr软件举行测试,后果让人大吃一惊,辨认率几近为零. 把图象放大两倍,再测试,后果仍旧很不睬想,大约也只有百分之二三十的模样.
开辟Mini Ocr软件的由来
我在开辟护花使者反黄图象辨认软件的时刻,碰到有些图象里,嵌有某些文字,假如能 把文字辨认出来,图象的含义就很简单让计算机理解了.预算有限,我连扫描仪都舍不得 买,就更别想买商业Ocr的开辟包了,大约几十万,大概更多,大概别人压根就不卖.何况 它们的辨认率对小字体几近为零,不符合我的要求.看来,只好独立更生,重新写一个了.
开辟Mini Ocr的历程
经过三个多月的勤奋,终于诞生了这款Mini Ocr 软件.第1个月做出了汉字辨认的 核心模块,第2个月做出了文章段落切分的算法,并加入了对英文,数字,标点的支持, 第三个月持续调整英汉混排和汉字切分的算法,并用MFC 做了一个界面.
Mini Ocr的软件架构
为了让更多的人能利用到这个软件,我在windows系统下,采取VC举行编程,界面当 然只好用MFC写了.软件架构是一个SDI框架下的多窗口切分界面,左上角的窗口是一个 CFormView,用来显示常用的按钮;左下角是一个CEditView,用来显示帮忙信息;右上角 是一个CView,用来显示要辨认的图象;右下角是一个CEditView,用来存放辨认出来的文 字.辨认部份采取了工作者线程,以避免显示界面的主线程僵掉.辨认部份是整个软件的 核心,与操作系统无关,可以单独摘出来放在dos窗口里跑,也可以移植到Linux系统中跑.
汉字辨认软件的难点所在:
英文辨认有一些开放源码的软件,我看过的软件,主要采纳两种辨认办法:基于法则 的办法,和采取神经网络办法.而这两种办法,在辨认汉字时,都不宜采取.因为汉字数 目众多,最常用的国标2312的一级汉字就有3755个.假如借用基于法则的办法,需求对 三千多个汉字,一一人工写出分类法则,工作量太大,我一个人无法完成;假如采取神经 网络的办法,这么多汉字,我不敢想象,需求多少层网络和神经节点呀!假如采取网格法, 抗位移的效果太差;而采取不变矩法,辨认人和入,土和士,类似度又难于掌握.除此之 外,汉字切分也是一大难题.英文宽度大约只有汉字一半,标点标记大约只有汉字三分之 一宽,数字大约只有四分之一的宽度.而汉字本身又有二分字,和三分字.某些字,如“啊”, 字体小时大概是独体字,字体大些,变成二分字,字体再大,又变成三分字.加上汉字与 汉字之间的粘连、汉字与英文的混排,英文与英文的粘连,造成汉字切分模块的算法,甚 至比汉字辨认模块的算法还要复杂得多.为了降服这些难点,并加快辨认速度,我在算法 计划时,采取了一些优化和简化的战略.经过实践查验,证明行之有效.
Mini Ocr举行汉字辨认的战略: 1) 采取复合特点的分类办法. 2) 字符集挑选3755个一级汉字. 3) 字体挑选最常用的宋体. 4) 字号挑选从小五号到一号汉字,主要针对20个点之内的小字体. 5) 英汉混排时,汉语优先. 6) 汉字粘连时,举行动态优化切分.
展望与下一步的开辟筹划: 1) 重新优化英文辨认的算法; 2) 对英文粘连的切分算法举行调整; 3) 移植进入Linux;
挑选Ocr软件的倡议:
假如您挑选Ocr软件,目的是用来辨认扫描仪出来打印字体,举荐还是选用出名的商业Ocr. 假如您要辨认屏幕上显示的汉字,Mini Ocr是一个对比不错的挑选.热诚地但愿您在利用 中,能喜好上它. “Mini Ocr下[图像软件]”系转载自网络,如有侵犯,请联系我们立即删除,另:本文仅代表作者个人观点,与本网站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性七道奇不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 |