当前位置: 首页>>技术教程>>正文


如何从图像中提取文本?

,

问题描述

如何从图像中提取文本?

我说的不是扫描文件,而是花园里的各种图像,比如你在课堂上用黑板拍了一张 high-def 的照片,而且手写得很好;或者当您从食谱书中拍摄一页并想要文本格式的食谱时。

有什么免费和开放的软件吗?

我尝试了 tesseract,结果很糟糕。

最佳思路

从图像中提取文本的行为称为 OCR ,Ubuntu 有一个专用于 OCR 的 wiki 页面。从该页面:

可用的 OCR 工具

Ubuntu Universe 存储库包含以下 OCR 工具:

  1. gocr – 命令行 OCR

  2. fuzzyocr – 用于检查图像附件的 spamassassin 插件

  3. libhocr0 – 希伯来语 OCR

  4. ocrad – 光学字符识别程序

  5. ocrfeeder – 文档布局分析和光学字符识别系统

  6. ocropus – 文档分析和OCR系统

  7. tesseract-ocr

Ubuntu 多元宇宙存储库还包含:

  1. cuneiform – multi-language OCR系统

一些包已经过时了,但非官方的新鲜包可以在 Alex_P PPA 中找到(PPA 添加代码:ppa:alex-p/notesalexp)。如果您从未使用过 PPA,请检查 how to add software from a PPA

编辑:\n如评论中所示,Clara OCR 也存在,但它在 Hardy 受到了影响,他们的网站最后更新的是 2009 年。

次佳思路

与其他所有产品相比,tesseract-ocr 将是最棒的一款。 \n要安装,请运行以下命令

sudo apt-get install tesseract-ocr

用法为 tesseract filename.jpg output.txt ,则生成 output.txt 文件。

您可以考虑选择合适的语言。在这种情况下,您需要安装 tesseract-ocr-LANG 包,其中 LANG 是三个字母的 ISO 639-2 language code 。现在你在 18.04 repo 上有 123 种语言。 Then use 例如:

tesseract mySpanishText.jpg output -l spa

参考资料

本文由Ubuntu问答整理, 博文地址: https://ubuntuqa.com/article/12961.html,未经允许,请勿转载。