软件名称:[B]Mini Ocr下[/B]
软件类型:国产软件
运行环境:Win9X/Win2000/WinXP/Win2003/
软件语言:简体中文
授权方式:共享版
软件大小:5.00 MB
官方主页:www.233122.com
更新时间:2012-01-18 20:39:00
软件简介:
Mini Ocr 汉字显示字体辨认软件
首先声明,我不是一个OCR范畴的专家.我的经验来自我写Mini Ocr软件的历程.
―― 马飞涛
关于Mini Ocr 软件
本软件是飞涛软件工作室开辟的一款免费Ocr软件,主要用于辨认图象文件之中,呈现
的汉字显示字体.Ocr的中文含义是光学字符辨认.
为什么叫Mini呢?因为现有的辨认汉字的商业Ocr软件,动辄二三十兆,而本软件解
压后,也不过三兆多,身体对比纤小,再加上本软件主要用于辨认字体对比小的汉字,所
以叫Mini,中文的发音是“迷你”,中文含义是超小型.
既然有了商业Ocr软件,为什么还要开辟这个软件?
差别于商业Ocr软件,本软件是免费的,可以安闲利用.第二个差别之处,本软件的
辨认对象是屏幕呈现的“显示汉字”,而不是针对扫描仪扫出来的“打印汉字”.二者有什
么差别呢?最重要的一点: 扫描出来的打印汉字的高度和宽度普通都在30多个像素点之
上,这是我用画图软件,翻开某个商业Ocr的samples\sample1.tif,然后一点一点数出
来的.从文件名和目录名的中文含义可以看出,这个点数应当是一个典型值.那么,假如
用商业Ocr辨认屏幕上呈现的小五号字,汉字的高度是12个像素点,会呈现什么情形呢?
测试办法:用记事本随便写几行汉字,设置字体为小五号字.这大约是看着还算舒服
的最小号的汉字字体了(高度是12个像素点),假如再小,字体就很丢脸了.然后,按拷
屏键PrtSc,把屏幕的图象拷贝、粘贴到画图软件中,修剪尺寸后,保存为bmp的格局.
然后,我找了两个国内最闻名的Ocr软件举行测试,后果让人大吃一惊,辨认率几近为零.
把图象放大两倍,再测试,后果仍旧很不睬想,大约也只有百分之二三十的模样.
开辟Mini Ocr软件的由来
我在开辟护花使者反黄图象辨认软件的时刻,碰到有些图象里,嵌有某些文字,假如能
把文字辨认出来,图象的含义就很简单让计算机理解了.预算有限,我连扫描仪都舍不得
买,就更别想买商业Ocr的开辟包了,大约几十万,大概更多,大概别人压根就不卖.何况
它们的辨认率对小字体几近为零,不符合我的要求.看来,只好独立更生,重新写一个了.
开辟Mini Ocr的历程
经过三个多月的勤奋,终于诞生了这款Mini Ocr 软件.第1个月做出了汉字辨认的
核心模块,第2个月做出了文章段落切分的算法,并加入了对英文,数字,标点的支持,
第三个月持续调整英汉混排和汉字切分的算法,并用MFC 做了一个界面.
Mini Ocr的软件架构
为了让更多的人能利用到这个软件,我在windows系统下,采取VC举行编程,界面当
然只好用MFC写了.软件架构是一个SDI框架下的多窗口切分界面,左上角的窗口是一个
CFormView,用来显示常用的按钮;左下角是一个CEditView,用来显示帮忙信息;右上角
是一个CView,用来显示要辨认的图象;右下角是一个CEditView,用来存放辨认出来的文
字.辨认部份采取了工作者线程,以避免显示界面的主线程僵掉.辨认部份是整个软件的
核心,与操作系统无关,可以单独摘出来放在dos窗口里跑,也可以移植到Linux系统中跑.
汉字辨认软件的难点所在:
英文辨认有一些开放源码的软件,我看过的软件,主要采纳两种辨认办法:基于法则
的办法,和采取神经网络办法.而这两种办法,在辨认汉字时,都不宜采取.因为汉字数
目众多,最常用的国标2312的一级汉字就有3755个.假如借用基于法则的办法,需求对
三千多个汉字,一一人工写出分类法则,工作量太大,我一个人无法完成;假如采取神经
网络的办法,这么多汉字,我不敢想象,需求多少层网络和神经节点呀!假如采取网格法,
抗位移的效果太差;而采取不变矩法,辨认人和入,土和士,类似度又难于掌握.除此之
外,汉字切分也是一大难题.英文宽度大约只有汉字一半,标点标记大约只有汉字三分之
一宽,数字大约只有四分之一的宽度.而汉字本身又有二分字,和三分字.某些字,如“啊”,
字体小时大概是独体字,字体大些,变成二分字,字体再大,又变成三分字.加上汉字与
汉字之间的粘连、汉字与英文的混排,英文与英文的粘连,造成汉字切分模块的算法,甚
至比汉字辨认模块的算法还要复杂得多.为了降服这些难点,并加快辨认速度,我在算法
计划时,采取了一些优化和简化的战略.经过实践查验,证明行之有效.
Mini Ocr举行汉字辨认的战略:
1) 采取复合特点的分类办法.
2) 字符集挑选3755个一级汉字.
3) 字体挑选最常用的宋体.
4) 字号挑选从小五号到一号汉字,主要针对20个点之内的小字体.
5) 英汉混排时,汉语优先.
6) 汉字粘连时,举行动态优化切分.
展望与下一步的开辟筹划:
1) 重新优化英文辨认的算法;
2) 对英文粘连的切分算法举行调整;
3) 移植进入Linux;
挑选Ocr软件的倡议:
假如您挑选Ocr软件,目的是用来辨认扫描仪出来打印字体,举荐还是选用出名的商业Ocr.
假如您要辨认屏幕上显示的汉字,Mini Ocr是一个对比不错的挑选.热诚地但愿您在利用
中,能喜好上它.
[url=http://www.xiamiku.com/soft/11306.html][B]Mini Ocr下[/B][/url]
普通下载
普通下载
普通下载