人工智能如何推动OCR
人工智能正在改变光学字符识别(OCR)工具的能力。一个地区的计算机视觉, OCR处理文本的图像并将文本转换为机器可读的形式。换句话说,它将物理文档中的手写或打印文本转换为数字格式。
在20世纪90年代,许多企业所有者使用OCR(有时被称为文本识别)将物理文档转换为数字文件。从那时起,OCR技术的质量得到了提高,但对更广泛的可用性的需求也在增加。由于精确度和速度的提高,人工智能的最新发展扩大了OCR的用途。有了人工智能的好处,人们不需要在每一步都进行监督。
OCR和人工智能:对企业的好处
在OCR发明之前,将物理文本转换为数字是一项手工工作:人们必须重新输入每个文档,这是一项很耗时的任务,容易出错。使用OCR,转换速度很快,对原始内容的保真度也更高。一旦OCR将硬拷贝转换成数字格式,浏览者就可以编辑、格式化和搜索文档。他们也可以很容易地通过电子邮件发送,将其包含在网站中,并以压缩文件的形式存储。当然,这消除了对物理存储空间的需求,为严重依赖文档的企业(如抵押贷款经纪人或法律公司)节省了成本。
随着团队将OCR与人工智能和机器学习(ML)技术相结合,他们能够使用机器更准确地转换文本,并检查在转换过程中可能出现的错误。人工智能还可以更好地解读笔迹,为更广泛的文档数字化创造了机会。手写仍然是人工智能面临的一个挑战,因为每个人都是独一无二的,但随着手写训练数据的增多,机器在这方面的能力也在增强。
以人工智能驱动的OCR为例,假设OCR工具正在将打印发票转换为数字副本。让我们假设扫描仪识别出发票总额为500美元,而实际上是5000美元。在人工智能出现之前,OCR工具不会发现这个错误,它将取决于人类的审查来发现它。然而,有了人工智能工具,算法可以查看整个文档,计算出所提供服务的小计加起来应该是5000美元,并在无需人工监督的情况下修复错误。
此文档理解功能可帮助企业分析大量文档,而无需投入人力。减少繁琐的行政工作对于最大限度地提高员工敬业度和减少人员流动至关重要。研究人员预计,随着这些工具变得更高效、更具成本效益,人工智能驱动的OCR的需求将继续增长。
OCR是如何工作的
OCR系统的特点是硬件和软件的结合。该系统的目标是扫描物理文档的文本,并将文档中的字符转换为代码,然后用于数据处理。想想邮政和邮件分拣服务——OCR是它们快速处理目的地和返回地址以更快、更有效地分拣邮件的能力的核心。该系统通过三个步骤实现:
1.图像预处理
在第一步中,硬件(通常是光学扫描仪)将文件的物理形式处理成图像——例如信封的图像。这一步的目标是使机器在再现时准确无误,但也要消除任何不必要的失真。生成的图像被转换成黑白版本,然后分析亮区域(背景)和暗区域(字符)。如果需要,OCR系统还可以将图像分类为单独的元素,如表格、文本或嵌入图像。
2.智能字符识别
人工智能分析图像的黑暗区域来识别字母和数字。通常,人工智能会使用以下方法中的一种来一次锁定一个字符、单词或文本块:
- 模式识别:团队在各种文本、文本格式和笔迹上训练人工智能算法。该算法将扫描的信封图像上的字符与它已经学习过的字符进行比较,以识别匹配。
- 特征提取:为了识别新的字符,该算法应用有关特定字符特征的规则。特征可以包括字符的角度、交叉或水平线和曲线的数量。例如,“H”有两条垂直线和一条横线;机器将使用这些特征标识符来识别信封上的所有“H”。
在机器识别出字符后,它们被转换成可用于进一步操作的ASCII码。
3.后处理
在第三步,人工智能纠正结果文件中的错误。一种方法是根据文档中找到的特定词汇对人工智能进行训练。限制人工智能的输出,只输出那些单词/格式,以确保没有解释超出词典。
OCR的应用
OCR有许多应用;任何管理物理文件的业务都将受益于它的使用。以下是一些突出的用例:
字(词)处理技术
也许OCR最早和最常见的用途之一是字处理。用户可以扫描打印的文档,将其转换为可编辑和可搜索的版本。人工智能有助于确保这些文件以最大的准确性转换。
法律文件
OCR可以将重要的签署法律文件,如贷款文件,放入电子数据库以方便参考。多方也可以轻松地查看和共享文档。
零售
零售商使用序列号来表示他们的产品。在零售店或仓库中,机器人可以扫描产品条形码,应用OCR从这些条形码中提取序列号,并使用这些信息跟踪库存。
保护历史古迹
OCR将历史文档转换为可搜索的pdf文件。这对存档旧报纸、杂志、信件和其他历史记录特别有帮助。
银行
今天,你可以用你的智能手机拍一张你想存的支票的正面和背面照片。人工智能OCR技术可以自动检查支票,以确认支票的有效性,并确认支票与你想存入的金额相符。
如果没有人工智能的推动,今天的OCR技术不会如此先进。与OCR结合使用的人工智能减少了错误,显著提高了转换精度,并为文档提供了额外的分析。减少行政和成本负担是公司寻求更有效的文件管理方法的主要吸引力。
来自光学字符识别Appen专家Kirsten Gokay的见解
在Appen,我们依靠我们的专家团队来帮助您构建利用OCR的尖端模型。Kirsten Gokay, Appen高级产品经理,致力于确保Appen客户模型使用OCR的成功执行。
Kirsten对光学字符识别的三大见解包括:
- 为您的模型使用正确的数据,确保它映射到您希望在现实世界中看到的数据类型。例如,如果您正在训练一个模型来自动转录收据,那么您的数据应该包含包含您正在寻找的值的收据。您的数据也应该是全面的:不同角度的图像,不同类型的图像质量,等等——特别是如果这个模型将应用于用户生成的内容。
- 正确的工具很重要!因为您的培训数据需要是全面的,所以用于注释数据的工具必须能够处理所有类型的文档。
- 人在环的方法是成功的关键。为了确保模型的准确性,最好不要只依赖人工智能。让人们参与注释过程可以让您在培训前发现并纠正错误。
阿彭能为你做些什么
Appen提供现成的数据集,包括我们的手写识别数据集其中包含了超过40万个手写名字。我们还提供了一套图像注释工具,包括一些专门用于OCR的工具,以帮助您获得您自己的模型所需的高质量训练数据。