国内专业的文档影像产品服务网
设为首页 | 收藏 | 管理登陆
   
热门搜索:阅卷扫描仪 | 零边距A300 | contex | 快递用扫描仪 | 干部考评扫描仪
  首页 高速文档扫描仪 档案书刊扫描仪 大幅面扫描仪 批量修图软件 联系我们
 所有商品分类
高速文档扫描仪
松下高速扫描仪
虹光高速扫描仪
贝灵巧高速扫描仪
富士通高速扫描仪
佳能高速扫描仪
柯达高速扫描仪
中晶高速扫描仪
精益高速扫描仪
国产操作系统扫描仪
影源高速文档扫描仪
大幅面工程图纸扫描仪
书刊及缩微类扫描仪
虹光零边距扫描仪
柯尼卡美能达书刊及缩微扫描仪
赛数扫描复印系统
中晶快速平板扫描仪
精益书刊扫描仪
仿真平板扫描仪
工程图档扫描仪
日图(GRAPHTEC)扫描仪
康泰克斯(CONTEX&Vidar)扫描仪
卡莱泰克(colortrac)扫描仪
卡莱奇(ColorGiant)扫描仪
其他类扫描仪
医疗胶片扫描仪
证件扫描仪
名片及便携扫描仪
中晶扫描仪
底片扫描仪
爱普生扫描仪
汉王扫描仪
紫光扫描仪
惠普扫描仪
方正扫描仪
明基扫描仪
鸿友扫描仪
佳能扫描仪
艾尼提便携扫描仪
文档影像管理相关软件
融品影像管理系统
文通系列软件
内容管理系统
档案管理系统
数字图书馆系统
工程图纸矢量化软件
干部考评系统
高拍仪
良田
多易拍
捷易拍
紫光
 
中晶扫描仪OCR文字识别软件使用技巧
新闻来源:中晶科技 2011-3-15 11:09:00
 
 


                            尚书OCR7.5的使用方法介绍

因为不断有用户来电咨询尚书OCR软件的使用方法,说尚书软件不知道如何操作。实际上,当用户安装了扫描仪驱动光盘中的尚书OCR软件,会在”开始”-“所有程序”下面有一 个单独的组图标,如下所显示:

在这个组图标中,尚书OCR7.5是程序的执行图标,“快速入门”和“帮助文件”是提供了两个尚书软件学习使用的方法。但是因为这两个文挡写得太简单,下面我们就一般用户所 关心的问题,一步一步的做一些使用上面的介绍,希望能提供用户尽快学习和掌握这个软件。

一、 尚书OCR软件是用来做什么的?

回答:尚书OCR是一个中文印刷体的光学字符识别软件。将从扫描仪得到的包含有文字信息的图像,进行识别,将其中的文字辨认出来,输出保存为对应的文字档案。尚书 OCR是中国人开发的,所以,相对来说,它对中文的识别率高,是这个软件的特点。通过使用这个软件,能够提高用户在摘抄文字方面的速度,特别适合于毕业生写论文时候,摘 抄各种书籍资料。但是OCR软件也有其比较不足的地方,就是其文字识别率无法达到100%的成功率,识别完的稿件,为了保证100%正确,还需要进行校对工作。所以这样,就限 制了使用该软件时的工作效率。所以,建议在必须OCR软件的时候,再使用此软件。一般情况下,作为资料收集的时候,可以直接扫描成压缩的图像文件保存,用户再次打开看图 像,即可保证看到其内容。不做OCR识别,就能够大大提高资料搜集的速度。而图像文件存盘的容量问题,随着现在数字存储技术的发展,新式的大硬盘和DVD刻录盘片出现, 已经解决了。

二、 尚书OCR软件如何工作的?

回答:下面我们介绍一下OCR软件的一般工作过程:

1. 图像的输入:打开尚书OCR软件,从“文件”菜单中,我们能够看到有两种选择,

就是“打开图像”和“扫描”两种方式。一般用户的图像是需要通过扫描得到的。 在扫描之前,如果用户是第一次使用,建议用户进入“选择扫描仪”的项目,如下图:

请用户选择对应自己使用扫描仪的驱动,我们这里用Scanmaker 3870扫描仪所对应的Microtek ScanWizard 5 6.60 版本的驱动。然后按下“确定”按钮。

在保证扫描仪已经联机的状态下,将要扫描的稿件放置在玻璃平台上,请点击“文件”菜单下的“扫描”选项,可以打开扫描仪的软件界面如下:

首先扫描仪会做自动预览。注意:因为扫描仪是第一次使用的话,出现的是ScanWizard 5软件的标准控制面板,这个控制面板在打开时,默认会做自动的“预览”,这个会花费 用户一些时间,大概30多秒钟。如果用户觉得这个功能太费时间,建议之一:可以点击其窗口右下角的“属性”按钮,打开“属性”窗口,将自动预览选项勾选去掉。这样能够加快扫 描仪使用速度。如果不用自动预览,用户可以根据自己需要进行预览。

建议之二,是可以将扫描仪的驱动程序,切换到高级控制面板状态下使用。这个切换方法,我们放在后面解说。

接下来,需要做的是选择扫描范围,针对我们现在要扫描的报纸,我们可以将扫描范围选择得大一些,只要包含了要识别的内容即可。下面就要进行扫描前的设置:

首先是选择“原稿”,默认是照片,我们建议此时用户选择“文档”

接下来选择“扫描类型”,我们这里推荐使用“真彩色”或者“灰阶”。

然后是“输出目的”选择,我们这推荐使用“OCR文字识别”或者“自定义”中键入“300DPI”

如此,我们就进行完毕了扫描的设置,在控制界面窗口的下面,就可以看到扫描参数的设置信息了。

接下来,用户点“扫描”按钮。扫描仪将进行扫描工作。扫描完毕后,扫描的图象会传送到尚书OCR内。如下图。

此时,用户需要点击ScanWizard 5标准控制面板窗口的右上角的“X”按钮,关闭扫描仪驱动程序。如下。

这样我们就可在尚书OCR程序内,看到了扫描完毕的稿件。

在左上角看到一个自动命名的文件出现了hw005.jpg 。

这里,我们可以通过工具栏的放大缩小按钮,实现图片的放大缩小。

缩小可以看到整图状态。

2 识别前的预处理:

为了提高识别的正确率,我们这里提出一个识别前的预先处理的过程。预处理过程的主要工作是,将待处理的稿件,通过旋转,变成正的和字迹是水平状的。下面是错误的稿件状态:


如果扫描到尚书内的稿件,是这种状态的话,用户一定要将其旋转过来。旋转的方法是在“编辑”菜单下,“旋转图像”下的“左转90度”与“右转90度”两个选项,使用了,当前的画面就会立即旋转。

如此旋转后,得到下面的状态,是否可以开始识别工作了?

仔细观察,发现稿件中,每行字还是有点不是完全水平。后面可以看到,如果文字不是水平的,会造成软件切分行的错误,导致识别率的下降。所以在尚书软件中,“编辑”菜单下,提供了一个自动倾斜校正的功能。

使用了该功能后,我们看到的情况是如何的?

可以看到字迹已经水平了。

3.识别与校对

经过以上的预先处理后,接下来就可以开始让尚书做OCR做识别工作。对于简单的文稿,直接用“识别”菜单下的“开始识别”就可以了。

识别完成后,画面会进入文字校对的画面。

如果需要,用户可以在这里,做一个字一个字的校对。通过对比,修改识别结果。在校对的时候,可以看到尚书软件已经提供了此行的行图像在文字的上方,用户可以比较方便的做原图像与识别后结果的核对工作。遇到有些字,可能识别错误,软件提供了类似字型的参考字备选。

4.输出结果

前面的内容校对完毕后,用户就可以保存自己的结果,保存的方法是怎样的。需要用菜单上的“输出”到“指定格式文件”的功能。

输出窗口如下:

默认保存的路径是:尚书软件下的OUTPUT目录。

我们可以看到,输出的格式有以下几种:TXT、RTF、HTM、XLS

用户选择一个对应的文件名,就可以存盘了。然后用户打开这个文件就可以用到识别的结果了。下面我们再看,复杂版面的情况,OCR如何工作的?这是一张扫描结果图片,

然后版面分析,

可以看到两张图片所在位置,也有框选,仔细检查,它的属性是图像。我们按下“开始识别”然后选择输出,

注意这个时候,我们输出前,选择了“输出到外部编辑器”的选项,然后按下保存。用户就会发现,文件保存的同时,系统中的NOTEPAD软件也会自动打开,并将保存的文件显示出来了。

但是这个时候,我们看不到图片,和原来的版式。那么我们这个时候用RTF格式存盘。

存盘后,我们能够在打开的WORD中得到如下的情况:

可以看到,原来的稿件的样式,全部还原了。但是,仔细研究,会发现,里面的文字,只能做个别字的修改,而不能重新排版,所以重新排版的用户,还是需要分两步来工作,先保存文字。然后另外扫描图片存盘,再到WORD中进行重新排版,并插入图像。

总结:尚书OCR做识别工作,整个工作流程分:

获取图像过程,如果做扫描,需要彩色或者灰度方式扫描,300DPI(PPI)分辨率的精度。图像预处理过程,将图像翻转成人能够阅读的状态,以及通过自动倾斜校正,让字迹保持水平状态。

识别和校对。

输出保存。

 

新闻 | 典型用户 | 合作伙伴 | 企业文化 | 关于我们 | 联系我们 | 人才招聘 | 京ICP备17063966号-2 | 京公网安备 110108007993
扫描仪网-融品科技 版权所有 Copyright 2011-2021 版权所有
电话:010 - 51657162 产品咨询:sales@scannercn.com 地址:北京市昌平区建材城西路金燕龙办公楼4层
 
QQ客服1:
QQ客服2:
WEB在线: