全国统一服务电话: 400-668-9008
睿欣文档智能识别系统

文档智能识别系统

1、系统概述
  欣文档智能识别系统主要针对有文字录入需求的用户而开发的一款能够对图像中的文字信息进行自动识别并将识别结果作为通用文本形式存储输出的文字识别工具。
  本产品目前已经能够识别、录入多种中文、英文及中英文混排的印刷字体,现已支持多国语言符号及图形符号,识别正确率均能达到99%以上,但随着训练阶段识别样本的不断扩增,识别正确率还会不断提升。在本产品的开发目标中支持的语言将还会包括中文繁体、俄文、法文、德文、韩文、日文、日英混排、韩英混排等。

2、OCR原理
    OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的问题图片信息,利用各种模式识别算法分析文字的形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中。 

3、功能及特点

  • 识别器有自动记忆功能
    在程序的字符集列表文件中,可以根据需要自定义添加新的字符或者图形符号,当此字符或者符号出现的频率在库文件中达到了一定的标准时,识别器就可以记住以后遇到时即可识别出来。对经常识别的印刷体字符等,识别正确率将会不断提高。

  • OCR训练程序
    当根据需要往字符库中新加入某种字符及图形符号时,我们可以在OCR的训练程序中,让OCR识别器自动学习并记忆;如果识别时某种情况的效果不是很好,或出于谋种原因(比如,出现某种识别器以前接触少的字体符号等)正确率不是很理想的情况下,我们可以将这些文件提取出来放入OCR训练程序中训练,识别器的记忆功能即会让OCR在以后的识别中提高正确率。

  • 附有图像处理功能
    可以直接在OCR中对原图像进行纠偏/去污等操作,不论是页面很分散的小污点,还是比如像下划线等不需要的地方都可采用不同的合适的工具清楚;纠偏工具能对扫描图像不同的倾斜度进行纠正。

  • 多种图像视图查看方式
    将鼠标在图像视图中获取某一处的焦点,即可用快捷键(A)以此点为中心按比例将原图随意放大,很方便的查看原图像。用快捷键(S)则立即将原图像调整到最佳适应窗口。
    将鼠标定位于著录内容中,即在这一行文字的下方显示出原图像,且它的大小可以用快捷键随意缩放,更方便录入校对。

  • 自定义词典功能
    根据当前文字信息的语言种类,可以加入对应的词典库,即可在识别后的结果中查找与字典库中匹配的需要修改的单词并在著录内容中以正确的替换,经过这样的处理功能后,可提高当前图像的识别率。被替换的地方在图像视图中将被标出来,方便用户判断替换是否正确。

4、典型界面

中文OCR识别

 

英文OCR识别