尚书OCR7.5使用方法
因为不断有用户来电咨询尚书OCR软件的使用方法,说尚书软件不知道如何操作。实际上,当用户安装了扫描仪驱动光盘中的尚书OCR软件,会在”开始”-“所有程序”下面有一 个单独的组图标,如下所显示:
在这个组图标中,尚书OCR7.5是程序的执行图标,“快速入门”和“帮助文件”是提供了两个尚书软件学习使用的方法。但是因为这两个文挡写得太简单,下面我们就一般用户所 关心的问题,一步一步的做一些使用上面的介绍,希望能提供用户尽快学习和掌握这个软件。
一、 尚书OCR软件是用来做什么的?
回答:尚书OCR是一个中文印刷体的光学字符识别软件。将从扫描仪得到的包含有文字信息的图像,进行识别,将其中的文字辨认出来,输出保存为对应的文字档案。尚书 OCR是中国人开发的,所以,相对来说,它对中文的识别率高,是这个软件的特点。通过使用这个软件,能够提高用户在摘抄文字方面的速度,特别适合于毕业生写论文时候,摘 抄各种书籍资料。但是OCR软件也有其比较不足的地方,就是其文字识别率无法达到100%的成功率,识别完的稿件,为了保证100%正确,还需要进行校对工作。所以这样,就限 制了使用该软件时的工作效率。所以,建议在必须OCR软件的时候,再使用此软件。一般情况下,作为资料收集的时候,可以直接扫描成压缩的图像文件保存,用户再次打开看图 像,即可保证看到其内容。不做OCR识别,就能够大大提高资料搜集的速度。而图像文件存盘的容量问题,随着现在数字存储技术的发展,新式的大硬盘和DVD刻录盘片出现, 已经解决了。
二、 尚书OCR软件如何工作的?
回答:下面我们介绍一下OCR软件的一般工作过程:
1. 图像的输入:打开尚书OCR软件,从“文件”菜单中,我们能够看到有两种选择,
就是“打开图像”和“扫描”两种方式。一般用户的图像是需要通过扫描得到的。 在扫描之前,如果用户是第一次使用,建议用户进入“选择扫描仪”的项目,如下图:
请用户选择对应自己使用扫描仪的驱动,我们这里用Scanmaker 3870扫描仪所对应的Microtek ScanWizard 5 6.60 版本的驱动。然后按下“确定”按钮。
在保证扫描仪已经联机的状态下,将要扫描的稿件放置在玻璃平台上,请点击“文件”菜单下的“扫描”选项,可以打开扫描仪的软件界面如下:
首先扫描仪会做自动预览。注意:因为扫描仪是第一次使用的话,出现的是ScanWizard 5软件的标准控制面板,这个控制面板在打开时,默认会做自动的“预览”,这个会花费 用户一些时间,大概30多秒钟。如果用户觉得这个功能太费时间,建议之一:可以点击其窗口右下角的“属性”按钮,打开“属性”窗口,将自动预览选项勾选去掉。这样能够加快扫 描仪使用速度。如果不用自动预览,用户可以根据自己需要进行预览。
建议之二,是可以将扫描仪的驱动程序,切换到高级控制面板状态下使用。这个切换方法,我们放在后面解说。
接下来,需要做的是选择扫描范围,针对我们现在要扫描的报纸,我们可以将扫描范围选择得大一些,只要包含了要识别的内容即可。下面就要进行扫描前的设置:
首先是选择“原稿”,默认是照片,我们建议此时用户选择“文档”
接下来选择“扫描类型”,我们这里推荐使用“真彩色”或者“灰阶”。
然后是“输出目的”选择,我们这推荐使用“OCR文字识别”或者“自定义”中键入“300DPI”
如此,我们就进行完毕了扫描的设置,在控制界面窗口的下面,就可以看到扫描参数的设置信息了。
接下来,用户点“扫描”按钮。扫描仪将进行扫描工作。扫描完毕后,扫描的图象会传送到尚书OCR内。如下图。
此时,用户需要点击ScanWizard 5标准控制面板窗口的右上角的“X”按钮,关闭扫描仪驱动程序。如下。
这样我们就可在尚书OCR程序内,看到了扫描完毕的稿件。
在左上角看到一个自动命名的文件出现了hw005.jpg 。
这里,我们可以通过工具栏的放大缩小按钮,实现图片的放大缩小。
缩小可以看到整图状态。
2 识别前的预处理:
为了提高识别的正确率,我们这里提出一个识别前的预先处理的过程。预处理过程的主要工作是,将待处理的稿件,通过旋转,变成正的和字迹是水平状的。下面是错误的稿件状态:
如果扫描到尚书内的稿件,是这种状态的话,用户一定要将其旋转过来。旋转的方法是在“编辑”菜单下,“旋转图像”下的“左转90度”与“右转90度”两个选项,使用了,当前的画面就会立即旋转。
如此旋转后,得到下面的状态,是否可以开始识别工作了?
仔细观察,发现稿件中,每行字还是有点不是完全水平。后面可以看到,如果文字不是水平的,会造成软件切分行的错误,导致识别率的下降。所以在尚书软件中,“编辑”菜单下,提供了一个自动倾斜校正的功能。
使用了该功能后,我们看到的情况是如何的?
可以看到字迹已经水平了。
3.识别与校对
经过以上的预先处理后,接下来就可以开始让尚书做OCR做识别工作。对于简单的文稿,直接用“识别”菜单下的“开始识别”就可以了。
识别完成后,画面会进入文字校对的画面。
如果需要,用户可以在这里,做一个字一个字的校对。通过对比,修改识别结果。在校对的时候,可以看到尚书软件已经提供了此行的行图像在文字的上方,用户可以比较方便的做原图像与识别后结果的核对工作。遇到有些字,可能识别错误,软件提供了类似字型的参考字备选。
4.输出结果 前面的内容校对完毕后,用户就可以保存自己的结果,保存的方法是怎样的。需要用菜单上的“输出”到“指定格式文件”的功能。
输出窗口如下:
默认保存的路径是:尚书软件下的OUTPUT目录。
我们可以看到,输出的格式有以下几种:TXT、RTF、HTM、XLS
用户选择一个对应的文件名,就可以存盘了。然后用户打开这个文件就可以用到识别的结果了。下面我们再看,复杂版面的情况,OCR如何工作的?这是一张扫描结果图片,
然后版面分析,
可以看到两张图片所在位置,也有框选,仔细检查,它的属性是图像。我们按下“开始识别”然后选择输出,
注意这个时候,我们输出前,选择了“输出到外部编辑器”的选项,然后按下保存。用户就会发现,文件保存的同时,系统中的NOTEPAD软件也会自动打开,并将保存的文件显示出来了。
但是这个时候,我们看不到图片,和原来的版式。那么我们这个时候用RTF格式存盘。
存盘后,我们能够在打开的WORD中得到如下的情况:
可以看到,原来的稿件的样式,全部还原了。但是,仔细研究,会发现,里面的文字,只能做个别字的修改,而不能重新排版,所以重新排版的用户,还是需要分两步来工作,先保存文字。然后另外扫描图片存盘,再到WORD中进行重新排版,并插入图像。
总结:尚书OCR做识别工作,整个工作流程分:
获取图像过程,如果做扫描,需要彩色或者灰度方式扫描,300DPI(PPI)分辨率的精度。图像预处理过程,将图像翻转成人能够阅读的状态,以及通过自动倾斜校正,让字迹保持水平状态。
识别和校对。
输出保存。 |