comment extraire du texte d'un fichier PDF numérisé à l'aide de java

Question

comment extraire du texte d'un fichier PDF numérisé à l'aide de java

J'ai numérisé manuellement certains fichiers papier et les ai stockés dans des fichiers pdf(copie électronique).Maintenant, ces fichiers pdf sont mon entrée, j'ai donc besoin d'extraire du texte de ces fichiers pdf. J'ai essayé tika,pdfbox,itext, tess4j rien ne donne au moins 50% de précision(principalement obtenir des données indésirables) pour mes fichiers (obtenir le texte exact pour les autres pdf téléchargés à partir d'Internet), pouvez-vous me suggérer une solution à ce problème.

Merci

0

French java pdfbox tesseract itext pdftotext

Author: user2786905, 2013-09-26

Source