如何从图像中提取文本？

问题描述

如何从图像中提取文本？

我说的不是扫描文件，而是花园里的各种图像，比如你在课堂上用黑板拍了一张 high-def 的照片，而且手写得很好；或者当您从食谱书中拍摄一页并想要文本格式的食谱时。

有什么免费和开放的软件吗？

我尝试了 tesseract，结果很糟糕。

从图像中提取文本的行为称为 OCR ，Ubuntu 有一个专用于 OCR 的 wiki 页面。从该页面：

可用的 OCR 工具

Ubuntu Universe 存储库包含以下 OCR 工具：

Ubuntu 多元宇宙存储库还包含：

一些包已经过时了，但非官方的新鲜包可以在 Alex_P PPA 中找到(PPA 添加代码：ppa:alex-p/notesalexp)。如果您从未使用过 PPA，请检查 how to add software from a PPA 。

编辑：\n如评论中所示，Clara OCR 也存在，但它在 Hardy 受到了影响，他们的网站最后更新的是 2009 年。

与其他所有产品相比，tesseract-ocr 将是最棒的一款。 \n要安装，请运行以下命令

sudo apt-get install tesseract-ocr

用法为 tesseract filename.jpg output.txt ，则生成 output.txt 文件。

您可以考虑选择合适的语言。在这种情况下，您需要安装 tesseract-ocr-LANG 包，其中 LANG 是三个字母的 ISO 639-2 language code 。现在你在 18.04 repo 上有 123 种语言。 Then use 例如：

tesseract mySpanishText.jpg output -l spa