【摘要】本文首先对档案数字化过程中的OCR技术作了简单介绍。然后分析了OCR
技术的优势和在档案数字化工作中的独特应用,最后探讨了提高OCR识别率的各种方法。
以期对档案数字化工作人员有所借鉴。
【关键词】档案 数字化 OCR
信息时代,档案数字化已成为今后一段时期档案工作的重中之重,纸质档案扫描工作在
各地如火如荼地进行。然而,扫描所产生的电子档案实际上只是以图像形式存在的文件,而
非真正意义上的文本文件。也就是说,计算机只认识档案的外表,却不认识其内在文字。用
户通过计算机只能看到档案的原貌,却不能对其中的内容进行引用、检索等操作,这无疑对
将来的电子档案利用工作造成了很大的不便。考虑到档案用户的利用需求,若要得到真正文
本形态的电子档案,使档案数字化工作更加有效、更加彻底,便要应用到OCR技术。
一、OCR概况
所谓OCR(Optical Character Recognition)即光学字符识别。通俗点说,就是让计算机
“认字”。其原理是通过专门的OCR软件将含有文字的图像按字切割成可独立识别的单
元,然后运用各种算法分析每个图像单元中文字的形态特征。通过比对标准特征库中的数据,
判断出该文字在计算机中的标准编码并按通用格式输出保存在文本文件中。
OCR的工作流程为影像输入、影像前处理、文字特征抽取、比对识别、人工校正、
最后将识别结果输出保存。
①虽然一张图像真正用于软件识别的时间不到一秒,但前期和后
期的加工处理不可小视。尤其是前两个环节的操作,往往决定了OCR软件的识别率,乃至
整个OCR工作的效率。而后期人工校正环节,则是保证OCR工作质量的最直接环节。
二、OCR技术的优势及其在档案数字化过程中的应用
OCR技术相对于传统的手工录入方式来说,具有强大的优势。首先,OCR文字识别的
速度远快于手工录入。根据国际通行的打字速度评级标准,即使是专业人员,每分钟也仅能
输入150~240个字。而采用OCR技术,即使算上前后期的处理环节所花时间,其速度也绝
对比前者快好多倍。其次,OCR文字识别的质量远高于手工录入。虽然由于各种因素影响,
OCR技术的识别率很难达到100%,但比起大批量手工录入,其出错率要小得多。最后,
OCR还节省了大量人力资源,优化了资源配置,使人员分配于更加有意义的工作。
对于档案数字化工作来说,OCR技术除了具有以上几个普遍的优势之外,还有其独特
的用武之地。
1。创新著录标引方式
创建档案目录数据库是一项较基础的档案数字化工作,目前大多数档案馆都在进行这项
工作很多档案馆已建成较为完备的目录库。然而各档案部门的档案条目基本都是通过手
工录入的,既费时又费力,还很容易出错。尤其是一些档案、标题很长,又是“印发”又是“转发”一个题名就占了好几行,要输入老半天。
OCR技术提供了一种新的著录方式,使档案条目通过计算机录入成为可能。工作人员
可以直接从OCR后的全文中找到著录项:如题名、文号、责任者等复制粘贴到目录数
据库的相应字段中去。
②但这么做必须先扫描档案全文、OCR然后再输条目,颠覆了档案数字化工作的一般工作流程。
因此可行性并不高。还有一种方法是先将档案卷内目录扫描、
OCR处理,再复制粘贴条目或通过特定的程序自动采集条目信息
③但由于很多卷内目录
是手写的OCR无法识别,只得依靠手工录入。相信随着未来技术的发展,OCR在这方面
的应用一定能够有所突破。
此外,系统还可以对OCR后的档案全文进行词频统计、内容分析从而自动提取关键
词、主题词等标识符一定程度上实现了档案内容的自动标引。
2。实现真正的全文检索
档案工作中所说的全文检索实际包括两种类型:一种是仅对档案目录数据库进行检索,
找到相关条目后再打开相应的档案全文。目前档案馆大多采用这种检索方式。且尚有很多档
案没有电子全文。另一种是真正的全文检索,即直接对档案全文库进行检索,而且是对档案
全文进行逐字检索。很明显,后一种检索方式的查全率比前者要高出很多。使用户能从浩如
烟海的档案馆藏中找到更多所需信息,更深入地开发利用档案信息资源。
而要实现真正的全文检索自然离不开OCR技术,因为只有将扫描图像中的文字变成
文本格式,才有可能对其中的文字进行逐字检索。
3。支持双层PDF技术
所谓双层PDF,就是一个PDF文件中的每一页都包含两层,上层是扫描所得到原始图
像,下层是OCR识别的文字结果。这种技术在数字图书馆领域已得到广泛应用。我们在CNKI
等数据库中检索到的PDF格式的电子文献大多采用了双层PDF技术。
由于采用双层PDF技术既能较好地保证档案的原真性,在用户需要时又能对档案中的
文字进行选择、复制、搜索等处理。因此必将在今后的档案数字化工作中越来越得到青睐。
而这一技术的运用必须首先以OCR技术为支撑。
4。拓宽档案用户利用面
以往的档案用户大多是基于档案的凭证价值而对其加以利用如政府查阅某份文件、居
民查阅房产证、结婚证、学籍卡等这些利用需求对档案的原真性要求较高。很多情况下还
是需要纸质档案才能发挥作用。但档案用户的利用面绝不应该仅限于此,档案除了拥有凭证
价值还与图书、情报一样具有情报价值、参考价值。如利用档案进行学术研究时,用户就
更加注重档案的知识性、信息性但如果档案是纸质的要利用其中的内容就必须亲自去档
案馆。通过印刷或手工摘录所需信息,非常不便以至于有些用户转而通过网站或数字图书
馆查阅所需信息。
将纸质档案数字化并采用OCR识别,能够使档案信息资源实现全文检索、网络传输、
方便用户异地检索、复制引用。从而深化用户对档案内容的查询与利用,拓宽其利用面。使
档案也能像图书、情报一样成为人们日常生活中获取信息、利用信息、增加学识的手段使
档案多方面地服务于公众。
三、提高档案数字化过程中的OCR识别率 OCR识别率是整个OCR工作的中心问题。有专家认为,OCR识别率低于90%,采用OCR技术便毫无意义因为后期需要进行大量的人工校正工作,抵消了OCR所带来的效率。
④对于档案数字化这样浩大的工程来说,提高OCR识别率意味着成倍减少花在OCR工作上
的人力物力和时间精力。从而提高整个档案数字化工作的效率极大地降低档案数字化的成
本。由于手写体档案的识别率普遍较低。不宜进行OCR识别。因此本文所述OCR的对象
仅指印刷体档案。要提高OCR识别率。关键应注意以下几点:
1。选择较好的OCR软件
目前市场上比较流行的OCR软件很多,主要有清华文通、汉王、泰比等品牌。其中有些可以从网上下载免费版本但功能很少,识别率很低。只有在图像质量非常好的情况下才能达到较高的识别率,稍有差池便错误百出,
毕竟一分价钱一分货。用在项目中还需谨慎再谨慎。还有的是扫描仪自带的OEM软件,如丹青、蒙恬等这样的软件往往功能较少,识别率较专业的OCR软件要低。
所以,对于档案数字化过程中的批量OCR处理工作,若要用得省心、放心必须购买
和使用专业的OCR软件。建议使用清华文通专业OCR软件,虽然要花点钱,但
物有所值。
2。设置合适的扫描参数
档案数字化若要进行OCR处理,在前期扫描的时候就应设置适合OCR识别的扫描参
数。如果已经扫描完毕再说要进行OCR处理,就应采用相关图像处理软件。如Photoshop
等,先对图像的参数进行修改再OCR。合适的扫描参数能使图像质量更贴近于OCR识别的
要求,OCR识别率自然会有很大程度的提高。
1分辨率的设定
分辨率太小,每英寸图像上像素点太少,OCR软件无法获得足够图像信息,识别率当
然就不会高。但是,并不是分辨率越高,OCR识别率也越高。分辨率太高,特别是在使用
一些存在轻微扫描失真的扫描仪时,由于纸张本身着墨不均匀,反而会把一些本应连着的笔
画识别成几段,造成识别错误。不仅不能提高识别率,还会使图像文件变得很大,不利于存
储、处理和传输。
《纸质档案数字化技术规范》规定,需要进行OCR汉字识别的档案扫描分辨率建议
选择200-300dpi最佳。
⑤但是在实际工作中,200dpi还是有点小,经验表明300dpi在
OCR识别中最为合适。有的扫描软件有一项“OCR扫描”直接将扫描分辨率锁定为300dpi
⑥2色彩模式的选择
如果要进行OCR识别,采用黑白二值模式扫描的图像,其识别速度和正确率比灰度、
24位真彩,C24模式扫描的图像都要高。这是因为文本通常只用到黑白二色,过多的颜色
只会变成干扰信息。
灰度模式在OCR中的应用也比较广泛。对于一些纸张发黄或文字字迹较淡的档案,要
对扫描后的图像进行处理,第一步可将色彩模式设置为灰度,将图像划分为不同的灰度级别,
然后通过特定算法将某个灰度值以下的像素点都认定为白色,其他为黑色从而达到黑白分
明。一些纸张较薄甚至有点透明的档案,OCR会受到背面文字的干扰而识别率降低。如果
扫描时在纸张背面垫一张黑纸,并使用灰度扫描,效果会好很多。
⑦而采用24位真彩,C24模式扫描的图像,由于颜色干扰信息太多,识别率往往不太
理想。若要进行OCR,最好先转化为黑白二值或灰度模式再加以识别。
3亮度和对比度的调节
档案由于年代久远,很多都会底色发黄、字迹变淡,扫描时设置灰度模式,并不能完全
改善图像质量。若要进一步提高OCR识别率,需改变更多参数,即调节亮度和对比度,且
应先调亮度再调对比度。
亮度的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则。
⑧对于文字字迹
较浅、笔划较细的档案,可适当降低亮度,文字字体较小、笔划较粗的档案,可适当增加亮
度。对于底色较深的档案,如前文所提灰度模式扫描的图像,可通过图像处理软件增加亮度,
使图像背景变成白色,同时去除了一些原有的污点。但调节亮度的同时,必然会使图像中的
文字一起变淡。这时便要增加图像对比度使文字的颜色变深。
⑨通过亮度和对比度的调节,可使图像变得更加黑白分明,从而有利于OCR识别率的提
高。
3对图像进行纠偏、去污处理
图像中文字的偏斜,会极大地降低OCR识别率,笔者曾经做过实验,一张只是略微有
点歪的图像,其识别率比纠偏之后至少低了10%。而图像中的污点,也很有可能被OCR错
误识别为文字。因此,在OCR识别前,图像必须经过纠偏、去污处理,以提高识别率。通
常,档案扫描工作流程中必须具备图像纠偏、去污这一环节,而无论其是否要进行OCR。
4仔细进行人工校对
无论电脑有多聪明,始终比不过人脑。因此,人工校对是提高OCR识别率的最后一关,
也是最直接的环节。
通常,OCR软件识别完后会将原文用两行显示。一行是图像,另一行是识别结果。一
些OCR软件。如文通OCR,会将不确定的文字用另一种颜色显示出来,便于用户发现错误。
但实验表明,很多情况下没有变色的文字也会出错,相反变了色的文字并不一定是错的。因
此,工作人员在校对时应仔细,最好能通读一遍,尤其注意字母和数字等较易出错的地方,
尽量不放过任何错误。
当然,人工校对是建立在OCR识别率本身就已很高的基础上的,它只是一个提高OCR
识别率的补充环节。否则过多的人工校对只会降低档案数字化工作的效率使OCR变得
与手工录入无异。
综上所述,OCR在纸质档案数字化过程中有其独特的应用。如何提高OCR识别率,并
将该技术运用于档案管理最需要的地方,是值得我们考虑的问题。只有将OCR技术运用得
恰到好处,才不至于浪费人力物力,才能使档案信息资源的利用价值达到最大化,更好地服
务于民。
文编辑/wintone 文通科技 吴丽云
标签: 安卓版ocr