问题描述
如何从图像中提取文本?
我说的不是扫描文件,而是花园里的各种图像,比如你在课堂上用黑板拍了一张 high-def 的照片,而且手写得很好;或者当您从食谱书中拍摄一页并想要文本格式的食谱时。
有什么免费和开放的软件吗?
我尝试了 tesseract,结果很糟糕。
最佳思路
从图像中提取文本的行为称为 OCR
,Ubuntu 有一个专用于 OCR 的 wiki 页面。从该页面:
可用的 OCR 工具
Ubuntu Universe 存储库包含以下 OCR 工具:
-
gocr – 命令行 OCR
-
fuzzyocr – 用于检查图像附件的 spamassassin 插件
-
libhocr0 – 希伯来语 OCR
-
ocrad – 光学字符识别程序
-
ocrfeeder – 文档布局分析和光学字符识别系统
-
ocropus – 文档分析和OCR系统
Ubuntu 多元宇宙存储库还包含:
-
cuneiform – multi-language OCR系统
一些包已经过时了,但非官方的新鲜包可以在 Alex_P PPA 中找到(PPA 添加代码:ppa:alex-p/notesalexp)。如果您从未使用过 PPA,请检查 how to add software from a PPA 。
编辑:\n如评论中所示,Clara OCR 也存在,但它在 Hardy 受到了影响,他们的网站最后更新的是 2009 年。
次佳思路
与其他所有产品相比,tesseract-ocr
将是最棒的一款。 \n要安装,请运行以下命令
sudo apt-get install tesseract-ocr
用法为 tesseract filename.jpg output.txt
,则生成 output.txt
文件。
您可以考虑选择合适的语言。在这种情况下,您需要安装 tesseract-ocr-LANG
包,其中 LANG
是三个字母的 ISO 639-2 language code 。现在你在 18.04 repo 上有 123 种语言。 Then use 例如:
tesseract mySpanishText.jpg output -l spa