OCR open source [fermé]

Question

OCR open source [fermé]

Je cherche une bibliothèque OCR open source qui fonctionne sous Linux. J'ai besoin de cela pour fonctionner pour les PNG et les PDF. Surtout, je voudrais interfacer cette bibliothèque à partir de java ou ruby. Une idée s'il y a quelque chose disponible?

Cordialement.

15

French java linux ruby ocr pdf

Author: Chris, 2011-03-01

Source

3 answers

score 12 · Answer 1

Tesseract est un très bon moteur de ROC: https://github.com/tesseract-ocr/tesseract

Le projet a été lancé par HP Labs et est maintenant poursuivi et parrainé par Google (pour Google Books !). Il est publié sous la licence Apache, et il fonctionne sur Linux. Il utilise des fichiers Tiff ou PNGs; pour les PDF, vous devrez convertir dans l'un de ces formats. Je suppose qu'il n'y a pas de liaison, vous devez donc invoquer ce logiciel en tant que sous-programme...

score 1 · Answer 2

Cunéiforme est libre et fait un travail décent. Vous pouvez l'invoquer comme sous-programme mais il n'y a pas de liaison de langue que je connaisse. Il ne lira pas directement les PDF, mais vous pouvez facilement démonter les PDF qui sont des séquences d'images numérisées pour les alimenter en cunéiforme. Il existe également des scripts pour réassembler les images et le texte dans un PDF consultable.

score 0 · Answer 3

Essayeztesjeract , qui utilise JNI pour appeler l'API OCR Tesseract.

Pour les PDF, vous devrez d'abord les convertir en image, en utilisant GhostScript, par exemple.

0

Author: nguyenq, 2011-05-15 00:27:29