中晶扫描仪OCR文字识别软件使用技巧--扫描仪中国网

国内专业的文档影像产品服务网

设为首页 | 收藏 | 管理登陆

热门搜索：阅卷扫描仪 | 零边距A300 | contex | 快递用扫描仪 | 干部考评扫描仪

档案数字化加工

安可信创扫描仪

档案书刊扫描仪

大幅面扫描仪

所有商品分类

高速文档扫描仪

◆ 松下高速扫描仪

◆ 虹光高速扫描仪

◆ 贝灵巧高速扫描仪

◆ 富士通高速扫描仪

◆ 佳能高速扫描仪

◆ 柯达高速扫描仪

◆ 中晶高速扫描仪

◆ 精益高速扫描仪

国产操作系统扫描仪

◆ 影源高速文档扫描仪

◆ 大幅面工程图纸扫描仪

书刊及缩微类扫描仪

◆ 虹光零边距扫描仪

◆ 柯尼卡美能达书刊及缩微扫描仪

◆ 赛数扫描复印系统

◆ 中晶快速平板扫描仪

◆ 精益书刊扫描仪

◆ 仿真平板扫描仪

工程图档扫描仪

◆ 日图（GRAPHTEC）扫描仪

◆ 康泰克斯（CONTEX&Vidar）扫描仪

◆ 卡莱泰克（colortrac）扫描仪

◆ 卡莱奇（ColorGiant）扫描仪

其他类扫描仪

◆ 医疗胶片扫描仪

◆ 证件扫描仪

◆ 名片及便携扫描仪

◆ 中晶扫描仪

◆ 底片扫描仪

◆ 爱普生扫描仪

◆ 汉王扫描仪

◆ 紫光扫描仪

◆ 惠普扫描仪

◆ 方正扫描仪

◆ 明基扫描仪

◆ 鸿友扫描仪

◆ 佳能扫描仪

◆ 艾尼提便携扫描仪

文档影像管理相关软件

◆ 融品影像管理系统

◆ 文通系列软件

◆ 内容管理系统

◆ 档案管理系统

◆ 数字图书馆系统

◆ 工程图纸矢量化软件

◆ 干部考评系统

高拍仪

中晶扫描仪OCR文字识别软件使用技巧

新闻来源：中晶科技 2011-3-15 11:09:00

尚书OCR7.5的使用方法介绍

因为不断有用户来电咨询尚书OCR软件的使用方法，说尚书软件不知道如何操作。实际上，当用户安装了扫描仪驱动光盘中的尚书OCR软件，会在”开始”-“所有程序”下面有一个单独的组图标，如下所显示：

在这个组图标中，尚书OCR7.5是程序的执行图标，“快速入门”和“帮助文件”是提供了两个尚书软件学习使用的方法。但是因为这两个文挡写得太简单，下面我们就一般用户所关心的问题，一步一步的做一些使用上面的介绍，希望能提供用户尽快学习和掌握这个软件。

一、尚书OCR软件是用来做什么的？

回答：尚书OCR是一个中文印刷体的光学字符识别软件。将从扫描仪得到的包含有文字信息的图像，进行识别，将其中的文字辨认出来，输出保存为对应的文字档案。尚书 OCR是中国人开发的，所以，相对来说，它对中文的识别率高，是这个软件的特点。通过使用这个软件，能够提高用户在摘抄文字方面的速度，特别适合于毕业生写论文时候，摘抄各种书籍资料。但是OCR软件也有其比较不足的地方，就是其文字识别率无法达到100%的成功率，识别完的稿件，为了保证100%正确，还需要进行校对工作。所以这样，就限制了使用该软件时的工作效率。所以，建议在必须OCR软件的时候，再使用此软件。一般情况下，作为资料收集的时候，可以直接扫描成压缩的图像文件保存，用户再次打开看图像，即可保证看到其内容。不做OCR识别，就能够大大提高资料搜集的速度。而图像文件存盘的容量问题，随着现在数字存储技术的发展，新式的大硬盘和DVD刻录盘片出现，已经解决了。

二、尚书OCR软件如何工作的？

回答：下面我们介绍一下OCR软件的一般工作过程：

1. 图像的输入：打开尚书OCR软件，从“文件”菜单中，我们能够看到有两种选择，

就是“打开图像”和“扫描”两种方式。一般用户的图像是需要通过扫描得到的。在扫描之前，如果用户是第一次使用，建议用户进入“选择扫描仪”的项目，如下图：

请用户选择对应自己使用扫描仪的驱动，我们这里用Scanmaker 3870扫描仪所对应的Microtek ScanWizard 5 6.60 版本的驱动。然后按下“确定”按钮。

在保证扫描仪已经联机的状态下，将要扫描的稿件放置在玻璃平台上，请点击“文件”菜单下的“扫描”选项，可以打开扫描仪的软件界面如下：

首先扫描仪会做自动预览。注意：因为扫描仪是第一次使用的话，出现的是ScanWizard 5软件的标准控制面板，这个控制面板在打开时，默认会做自动的“预览”，这个会花费用户一些时间，大概30多秒钟。如果用户觉得这个功能太费时间，建议之一：可以点击其窗口右下角的“属性”按钮，打开“属性”窗口，将自动预览选项勾选去掉。这样能够加快扫描仪使用速度。如果不用自动预览，用户可以根据自己需要进行预览。

建议之二，是可以将扫描仪的驱动程序，切换到高级控制面板状态下使用。这个切换方法，我们放在后面解说。

接下来，需要做的是选择扫描范围，针对我们现在要扫描的报纸，我们可以将扫描范围选择得大一些，只要包含了要识别的内容即可。下面就要进行扫描前的设置：

首先是选择“原稿”，默认是照片，我们建议此时用户选择“文档”

接下来选择“扫描类型”，我们这里推荐使用“真彩色”或者“灰阶”。

然后是“输出目的”选择，我们这推荐使用“OCR文字识别”或者“自定义”中键入“300DPI”

如此，我们就进行完毕了扫描的设置，在控制界面窗口的下面，就可以看到扫描参数的设置信息了。

接下来，用户点“扫描”按钮。扫描仪将进行扫描工作。扫描完毕后，扫描的图象会传送到尚书OCR内。如下图。

此时，用户需要点击ScanWizard 5标准控制面板窗口的右上角的“X”按钮，关闭扫描仪驱动程序。如下。

这样我们就可在尚书OCR程序内，看到了扫描完毕的稿件。

在左上角看到一个自动命名的文件出现了hw005.jpg 。

这里，我们可以通过工具栏的放大缩小按钮，实现图片的放大缩小。

缩小可以看到整图状态。

2 识别前的预处理：

为了提高识别的正确率，我们这里提出一个识别前的预先处理的过程。预处理过程的主要工作是，将待处理的稿件，通过旋转，变成正的和字迹是水平状的。下面是错误的稿件状态：

如果扫描到尚书内的稿件，是这种状态的话，用户一定要将其旋转过来。旋转的方法是在“编辑”菜单下，“旋转图像”下的“左转90度”与“右转90度”两个选项，使用了，当前的画面就会立即旋转。

如此旋转后，得到下面的状态，是否可以开始识别工作了？

仔细观察，发现稿件中，每行字还是有点不是完全水平。后面可以看到，如果文字不是水平的，会造成软件切分行的错误，导致识别率的下降。所以在尚书软件中，“编辑”菜单下，提供了一个自动倾斜校正的功能。

使用了该功能后，我们看到的情况是如何的？

可以看到字迹已经水平了。

3．识别与校对

经过以上的预先处理后，接下来就可以开始让尚书做OCR做识别工作。对于简单的文稿，直接用“识别”菜单下的“开始识别”就可以了。

识别完成后，画面会进入文字校对的画面。

如果需要，用户可以在这里，做一个字一个字的校对。通过对比，修改识别结果。在校对的时候，可以看到尚书软件已经提供了此行的行图像在文字的上方，用户可以比较方便的做原图像与识别后结果的核对工作。遇到有些字，可能识别错误，软件提供了类似字型的参考字备选。

4．输出结果

前面的内容校对完毕后，用户就可以保存自己的结果，保存的方法是怎样的。需要用菜单上的“输出”到“指定格式文件”的功能。

输出窗口如下：

默认保存的路径是：尚书软件下的OUTPUT目录。

我们可以看到，输出的格式有以下几种：TXT、RTF、HTM、XLS

用户选择一个对应的文件名，就可以存盘了。然后用户打开这个文件就可以用到识别的结果了。下面我们再看，复杂版面的情况，OCR如何工作的？这是一张扫描结果图片，

然后版面分析，

可以看到两张图片所在位置，也有框选，仔细检查，它的属性是图像。我们按下“开始识别”然后选择输出，

注意这个时候，我们输出前，选择了“输出到外部编辑器”的选项，然后按下保存。用户就会发现，文件保存的同时，系统中的NOTEPAD软件也会自动打开，并将保存的文件显示出来了。

但是这个时候，我们看不到图片，和原来的版式。那么我们这个时候用RTF格式存盘。

存盘后，我们能够在打开的WORD中得到如下的情况：

可以看到，原来的稿件的样式，全部还原了。但是，仔细研究，会发现，里面的文字，只能做个别字的修改，而不能重新排版，所以重新排版的用户，还是需要分两步来工作，先保存文字。然后另外扫描图片存盘，再到WORD中进行重新排版，并插入图像。

总结：尚书OCR做识别工作，整个工作流程分：

获取图像过程，如果做扫描，需要彩色或者灰度方式扫描，300DPI（PPI）分辨率的精度。图像预处理过程，将图像翻转成人能够阅读的状态，以及通过自动倾斜校正，让字迹保持水平状态。

识别和校对。

输出保存。

新闻 | 典型用户 | 合作伙伴 | 企业文化 | 关于我们 | 联系我们 | 人才招聘 | 京ICP备17063966号-2 | 京公网安备 110108007993

扫描仪网-融品科技版权所有 Copyright 2011-2021 版权所有

电话：010 - 51657162 产品咨询:sales@scannercn.com 地址：北京市昌平区建材城西路金燕龙办公楼4层

QQ客服1:

QQ客服2:

WEB在线: