当前位置:七道奇下载中心图像软件Mini Ocr下
七道奇
找到您需要的资源啦!?本站所有软件高速免费下载,记得下次再来哦,七道奇您下载的首选
软件大小:5.00 MB 下载次数:103
更新时间:2012-01-18 20:39:00

软件简介:上一页赛科先锋画王 2.0.0.4RC 下 下一页硕思闪客精灵专业版 7.0 (支持Flash转HTML5)


  本软件是由七道奇为您精心收集,来源于网络转载,软件收录的是官方版,软件版权归软件作者所有,本站不对其观点以及内容做任何评价,请读者自行判断,以下是其具体内容:
  

Mini Ocr   汉字显示字体辨认软件

  首先声明,我不是一个OCR范畴的专家.我的经验来自我写Mini Ocr软件的历程.

                                                           ―― 马飞涛 

关于Mini Ocr 软件

    

    本软件是飞涛软件工作室开辟的一款免费Ocr软件,主要用于辨认图象文件之中,呈现

的汉字显示字体.Ocr的中文含义是光学字符辨认.

    为什么叫Mini呢?因为现有的辨认汉字的商业Ocr软件,动辄二三十兆,而本软件解

压后,也不过三兆多,身体对比纤小,再加上本软件主要用于辨认字体对比小的汉字,所

以叫Mini,中文的发音是“迷你”,中文含义是超小型.

既然有了商业Ocr软件,为什么还要开辟这个软件?

    

    差别于商业Ocr软件,本软件是免费的,可以安闲利用.第二个差别之处,本软件的

辨认对象是屏幕呈现的“显示汉字”,而不是针对扫描仪扫出来的“打印汉字”.二者有什

么差别呢?最重要的一点: 扫描出来的打印汉字的高度和宽度普通都在30多个像素点之

上,这是我用画图软件,翻开某个商业Ocr的samples\sample1.tif,然后一点一点数出

来的.从文件名和目录名的中文含义可以看出,这个点数应当是一个典型值.那么,假如

用商业Ocr辨认屏幕上呈现的小五号字,汉字的高度是12个像素点,会呈现什么情形呢? 

测试办法:用记事本随便写几行汉字,设置字体为小五号字.这大约是看着还算舒服

的最小号的汉字字体了(高度是12个像素点),假如再小,字体就很丢脸了.然后,按拷

屏键PrtSc,把屏幕的图象拷贝、粘贴到画图软件中,修剪尺寸后,保存为bmp的格局.

然后,我找了两个国内最闻名的Ocr软件举行测试,后果让人大吃一惊,辨认率几近为零.

把图象放大两倍,再测试,后果仍旧很不睬想,大约也只有百分之二三十的模样.

开辟Mini Ocr软件的由来

    

    我在开辟护花使者反黄图象辨认软件的时刻,碰到有些图象里,嵌有某些文字,假如能

把文字辨认出来,图象的含义就很简单让计算机理解了.预算有限,我连扫描仪都舍不得

买,就更别想买商业Ocr的开辟包了,大约几十万,大概更多,大概别人压根就不卖.何况

它们的辨认率对小字体几近为零,不符合我的要求.看来,只好独立更生,重新写一个了.

开辟Mini Ocr的历程

    

    经过三个多月的勤奋,终于诞生了这款Mini Ocr 软件.第1个月做出了汉字辨认的

核心模块,第2个月做出了文章段落切分的算法,并加入了对英文,数字,标点的支持,

第三个月持续调整英汉混排和汉字切分的算法,并用MFC 做了一个界面.

Mini Ocr的软件架构

  

    为了让更多的人能利用到这个软件,我在windows系统下,采取VC举行编程,界面当

然只好用MFC写了.软件架构是一个SDI框架下的多窗口切分界面,左上角的窗口是一个

CFormView,用来显示常用的按钮;左下角是一个CEditView,用来显示帮忙信息;右上角

是一个CView,用来显示要辨认的图象;右下角是一个CEditView,用来存放辨认出来的文

字.辨认部份采取了工作者线程,以避免显示界面的主线程僵掉.辨认部份是整个软件的

核心,与操作系统无关,可以单独摘出来放在dos窗口里跑,也可以移植到Linux系统中跑.

汉字辨认软件的难点所在:

    英文辨认有一些开放源码的软件,我看过的软件,主要采纳两种辨认办法:基于法则

的办法,和采取神经网络办法.而这两种办法,在辨认汉字时,都不宜采取.因为汉字数

目众多,最常用的国标2312的一级汉字就有3755个.假如借用基于法则的办法,需求对

三千多个汉字,一一人工写出分类法则,工作量太大,我一个人无法完成;假如采取神经

网络的办法,这么多汉字,我不敢想象,需求多少层网络和神经节点呀!假如采取网格法,

抗位移的效果太差;而采取不变矩法,辨认人和入,土和士,类似度又难于掌握.除此之

外,汉字切分也是一大难题.英文宽度大约只有汉字一半,标点标记大约只有汉字三分之

一宽,数字大约只有四分之一的宽度.而汉字本身又有二分字,和三分字.某些字,如“啊”,

字体小时大概是独体字,字体大些,变成二分字,字体再大,又变成三分字.加上汉字与

汉字之间的粘连、汉字与英文的混排,英文与英文的粘连,造成汉字切分模块的算法,甚

至比汉字辨认模块的算法还要复杂得多.为了降服这些难点,并加快辨认速度,我在算法

计划时,采取了一些优化和简化的战略.经过实践查验,证明行之有效.

Mini Ocr举行汉字辨认的战略:

1) 采取复合特点的分类办法.

2) 字符集挑选3755个一级汉字.

3) 字体挑选最常用的宋体.

4) 字号挑选从小五号到一号汉字,主要针对20个点之内的小字体.

5) 英汉混排时,汉语优先.

6) 汉字粘连时,举行动态优化切分.

展望与下一步的开辟筹划:

1) 重新优化英文辨认的算法;

2) 对英文粘连的切分算法举行调整;

3) 移植进入Linux;

挑选Ocr软件的倡议:

    

    假如您挑选Ocr软件,目的是用来辨认扫描仪出来打印字体,举荐还是选用出名的商业Ocr.

假如您要辨认屏幕上显示的汉字,Mini Ocr是一个对比不错的挑选.热诚地但愿您在利用

中,能喜好上它.



  “Mini Ocr下[图像软件]”系转载自网络,如有侵犯,请联系我们立即删除,另:本文仅代表作者个人观点,与本网站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性七道奇不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

Copyright © 2020-2022 www.xiamiku.com. All Rights Reserved .