当前位置：K88软件开发 → 文章中心 → 办公应用 → 办公应用18 → 文章内容

用OCR软件进行扫描识别文本的技巧

减小字体

增大字体作者：华军来源：华军资讯发布时间：2019-3-5 0:26:09

扫描仪的一个重要功能就是通过OCR软件（即文字识别软件）将扫描后的文字图像转换成文本格式的文件，使文字处理软件能够调用处理。这样可以大大提高文字录入速度，极大地提高工作效率。目前，文字识别软件主要有《尚书OCR》、《汉王OCR》和《紫光OCR》等几种。不过，我们在进行文字识别时经常会遇到识别率低的问题，其原因除了被识别稿件有问题外，主要还是我们没有掌握好扫描及OCR识别软件的使用技巧。那么进行文字识别时有哪些技巧呢？一、根据识别稿的质量进行处理进行扫描识别时，在可能的情况下应尽量选择清晰度与洁净度都很高的识别稿，识别稿的清晰度与洁净度的不同会使扫描后的识别率有很大差距。对一般的印刷稿、打印稿等质量较好的文稿进行识别，只要掌握好方法与技巧，其识别率一般可达到98％以上。而对报纸、杂志等清晰度不佳的原稿进行识别，无论使用何种识别软件都难以达到很高的识别率。1.对一些带有下划线、分隔线等符号的文本原稿，有些OCR软件是识别不出的，一般会出现乱码。如果必须扫描带有这些符号的原稿，一是要确保使用的识别软件能够识别这些符号。二是使用工具擦掉这些特殊符号，使识别软件能正确识别这些文字。如果扫描后的文档中含有OCR软件不能识别的图像、图形和一些特殊符号，可以考虑使用“擦拭”工具将文档中的图像、图形和一些特殊符号擦除，同时将图像上一些杂点也一并去除。使图像中除了文字没有多余的东西，这可以大大提高识别率并减少识别后的修改工作。2.在扫描识别报纸或纸张较薄的文稿时，扫描时稿件背面的文字通常会透过纸张造成错字或乱码，使识别率大大降低。在对这类原稿扫描时，我们可以在原稿的背面覆盖一张黑纸，在进行正式扫描时，适当增加扫描对比度或亮度，即可有效提高识别率。3.对于一些图文混排的原稿，扫描成一幅图像进行全区识别会严重影响OCR软件的识别率。我们可以根据实际情况将扫描后的版面切分成多个区域后再识别，切分区域的原则是：将图形、图像排除在区域之外（图1），尽量把文字字体、字号一致的划在一个区域内，不要嫌这个过程烦琐而选用自动切分区域，手动选取扫描区域会有更好识别效果，还应注意各识别区域不能有交叉情况。图1 版面切分

用OCR软件进行扫描识别文本的技巧

[] [返回上一页] [打印]

·上一篇文章：快报!腾讯QQ 2008版将在半年后发布
·下一篇文章：远程控制软件搭建批量IT远程协助服务平台

用OCR软件进行扫描识别文本的技巧

文章评论评论内容只代表网友观点，与本站立场无关！

频道栏目导航

本类热门阅览

相关文章