1. 磐创AI-开放猫官方网站首页
  2. Medium

使用Google Cloud Vision API从扫描文件中提取文本

一种从扫描的图像和pdf中检索文本的快速而肮脏的方式。

遇到无法搜索和查找文本或复制特定内容的扫描文档时,可能会有点烦人。在大多数情况下,这只是耸耸肩带来的不便,但是许多重要的文档,特别是那些大于一两页的文档,确实可以从提取文本中获益。事实上,当我试图购买我的第一套房子时,我很惊讶,销售合同是一张扫描的图像,我无法通过文本搜索具体的条款。扫描的这一特殊陷阱也影响到了许多公共文档,包括根据信息自由法发布的文档,旧书/文件的扫描,人们签名和拍照的任何东西。freedom of information act

解决方案是什么?

有一些文本吸引工具可以帮助你做到这一点。所有三大云提供商,AWS、Google Cloud和Azure都有某种形式的计算机视觉服务,可以从图像中收集洞察力。它们有各种各样的功能,甚至可以从图像中识别物体并给它们贴上标签,但今天我们只想让我们的计算机从图片中读取文本!AWS Google Cloud Azure

为什么选择谷歌云?

我选择Google Cloud主要是因为它丰富的语言支持。我有几本孟加拉(我的母语)旧书想要扫描一下,然后转换成可搜索的文本,所以熟悉Google Cloud Vision API对我更有好处。与只支持五种语言的AWS相比,这是相当令人印象深刻的。five languages

价格比较

在价格方面,AWS和谷歌没有太大区别,前1000页/图片是免费的,然后每1000个收费1.5美元。在AWS,在第一个100万台之后,价格变成了每千台0.6美元,而有了Google Cloud,第一个500万台之后的价格变成了0.6美元。Azure没有赠品,但整体价格要便宜一些,前100万台每千台1美元,之后每千台0.65美元。

让我们摘录一些文本!

首先,创建一个项目,设置身份验证,并从您的Google Cloud帐户启用Google Cloud API(如果您还没有注册)。作为该过程的一部分,您将生成一个可以访问云API的服务帐户。create a project, set up authentication and enable the Google Cloud API sign up

不要忘记在命令行上将生成的服务帐户的服务密钥json设置为环境变量。service key

export GOOGLE_APPLICATION_CREDENTIALS=”KEY_PATH”

克隆scan2text存储库。 scan2text

git clone https://github.com/shouvSarker/scan2text.git

加载节点版本并安装包。

nvm use
npm install

要从图像中提取文本,请运行以下命令。它将在您的本地目录中创建一个带换行符的文本文件,如图所示。

node scan2textImage.js /path/to/image path/to/output/text

要从pdf中提取文本,请运行以下命令。它会将提取的文本保存在一个json文件中(带有pdf中看到的附加样式和定位信息,以及感知到的准确性),保存在您的Google Cloud存储桶中的一个文件夹中。

node scan2textPdf.js bucketname filename outputfolder

Text_Detect与Document_Text_Detect

文档提取(可用于application/pdf和image/tiff)仅适用于位于Google云存储中的文件,并且比文本提取精确得多。但是,解释输出的json文件需要一些繁重的工作,因此不适合无缝文本提取。从图像中提取文本(TEXT_EXTRACTION)非常有用,即使对于扫描并转换为图像的文档,结果也相当准确,并将文本块作为输出。对于一般用途,图像文本提取可能更适合大多数用例。

结束了!

现在你知道了,把人们埋葬在难以理解的文书工作中变得更加困难了!这也适用于手写笔记,但根据手写质量的不同,可能不会那么准确。

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/07/08/%e4%bd%bf%e7%94%a8google-cloud-vision-api%e4%bb%8e%e6%89%ab%e6%8f%8f%e6%96%87%e4%bb%b6%e4%b8%ad%e6%8f%90%e5%8f%96%e6%96%87%e6%9c%ac/

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息