问题描述
我想扫描一下我躺在身边的大量文件,尽量减少麻烦。我想使用简单扫描将它们转换为图像,然后使用OCR将它们转换为文本。是否有一个带有GUI的优秀OCR应用程序,只需按一下按钮就可以获得良好的效果?
最佳解决办法
-
CLARA是另一个很好的图形选项。
-
KOOKA from是一个KDE应用程序,但工作正常,此外你必须安装实际的OCR程序,如GOCR和OCRAD.After安装Kooka和OCR程序后,你必须指向Kooka到OCR安装位置,以便它能够将JPEG转换为文本。
-
Tesseract from是命令行实用程序,使用起来非常简单。您可以从here安装语言包tesseract-ocr-eng。
看看这个page。
注意:要运行tesseract goto终端并键入以下内容
tesseract imagefile.tif outputfile.txt
Tesseract只能读取TIFF文件 – 如果你有JPEG或PDF或其他什么,你将不得不转换它。此外,文件扩展名必须是.tif,而不是.tiff,否则会出现tesseract错误。
次佳解决办法
linux-intelligent-ocr解决方案
免责声明 – 我与此开源解决方案的开发密切相关
Lios可以使用扫描仪或相机将打印转换为文本。
它还可以从其他来源(例如包含图像的Pdf,图像或文件夹)生成扫描图像。
该计划为视障人士提供完全无障碍服务。
由于我紧密相连 – 我很乐意反馈。
第三种解决办法
你可以使用很少的流行的OCR 命令行工具(我不确定他们是否有GUI):
-
也适用于:Tesseract .NET,Tesseract iOS
一种OCR引擎,于1985年至1995年间在惠普实验室开发,现在又在Google上开发。 Tesseract可能是最准确的开源OCR引擎。
用法:
tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
-
GOCR Open-source字符识别。它将扫描的文本图像转换回文本文件。 GOCR可以与不同的front-ends一起使用,这使得它很容易移植到不同的操作系统和架构。它可以打开许多不同的图像格式,其质量每天都在提高。
-
OCRopus™(FAQ)(用Python,NumPy和SciPy编写)OCR系统专注于使用大规模机器学习来解决文档分析中的问题,具有可插拔布局分析,可插入字符识别,统计自然语言建模和multi-lingual功能。 OCRopus引擎基于两个研究项目:一个90年代中期开发并由美国人口普查局部署的high-performance手写识别器,以及新颖的high-performance布局分析方法。 OCRopus的开发是由Google赞助的,最初用于high-throughput,high-volume文档转换工作。我们希望它也是许多其他应用的优秀OCR系统。
-
Tessnet2(开源,OCR,Tesseract,.NET,DOTNET,C#,VB.NET,C++ /CLI)Tesseract是一个C++开源OCR引擎。 Tessnet2是.NET程序集,它公开了非常简单的OCR方法。 Tessnet2属于Apache 2许可证(如tesseract),这意味着您可以按照自己的意愿使用它,包含在商业产品中。
其他几个:ABBYY CLI OCR for Linux,Asprise OCR
有关更完整的列表,请查看:Wikipedia上的List of optical character recognition software
另请参阅:wanghaisheng/awesome-ocr
– GitHub上有前途的OCR资源的精选列表。
第四种办法
Gscan2PDF
OCR在多页PDF或扫描文档上
这可能是最简单的方法。 Gscan2pdf是一个图形工具,它不仅可以扫描文件,还可以导入文件并对它们执行OCR。从Ubuntu软件中心安装gscan2pdf from here或在终端中运行此命令:
sudo apt-get install gscan2pdf
-
运行gscan2pdf
-
导入pdf(Ctrl + O)
-
可选:工具>清理
-
选择工具> OCR保存(Ctrl + S)
Gscan2PDF可以使用可定制的OCR引擎,默认为tesseract-ocr
您可以考虑选择适当的语言。在这种情况下,您需要安装tesseract-ocr-LANG
软件包,其中LANG
是三字母ISO 639-2语言代码。现在你在16.04 repo上有108种语言。
第五种办法
我刚用pdfocr.rb取得了成功(16.04以下)。这在Ubuntu wiki上列出
Here is a ppa但16.04的存储库未更新。上面来自github的ruby脚本虽然仍然适用于16.04。
你可以从Github下载它。您将需要安装以下软件包:
ruby tesseract-ocr pdftk exactimage
然后制作pdfocr.rb可执行文件并运行:
./pdfocf.rb -i source.pdf -o output.pdf
您可以选择使用-l LANG
参数。在这种情况下,您需要安装tesseract-ocr-LANG
软件包,其中LANG
是三字母ISO 639-2语言代码。现在你在16.04 repo上有108种语言。
第六种办法
最好和最简单的方法是使用pypdfocr
它不会改变pdf。 pypdfocr is a python module link here.
pypdfocr your_document.pdf
最后,您将获得另一个your_document_ocr.pdf
,您可以使用可搜索的文本。该应用程序不会改变图像的质量。通过添加叠加文本来增加文件的大小。
我认为命令非常简单,不需要任何GUI。也许安装pypdfocr有点冗长:
sudo apt install tesseract-ocr
pip install pypdfocr