Comment lire des fichiers PDF en utilisant Java? [fermé]


Je veux lire des données texte à partir d'un fichier PDF en utilisant Java. Merci de m'aider à le faire.

Toute aide est appréciée.

Author: informatik01, 2011-01-24

4 answers

PDFBox est la meilleure bibliothèque que j'ai trouvée à cet effet, elle est complète et vraiment assez facile à utiliser si vous faites simplement de l'extraction de texte de base. Des exemples peuvent être trouvés ici.

Il l'explique sur la page, mais une chose à surveiller est que les index de début et de fin lors de l'utilisation de setStartPage() et setEndPage() sont tous deux inclus. J "ai sauté sur cette explication la première fois et puis il m" a fallu un certain temps pour réaliser pourquoi je recevais plus que une page de retour à chaque appel!

Itext est une autre alternative qui fonctionne également avec C#, bien que je ne l'ai personnellement jamais utilisé. C'est plus bas niveau que PDFBox, donc moins adapté au travail si tout ce dont vous avez besoin est l'extraction de texte de base.

 58
Author: Michael Berry, 2015-07-09 21:06:56

PDFBox contient des outils d'extraction de texte .

IText a plus de support de bas niveau pour la manipulation de texte, mais vous devez écrire une quantité considérable de code pour obtenir l'extraction de texte.

IText in Action contient un bon aperçu des limites de l'extraction de texte à partir de PDF, quelle que soit la bibliothèque utilisée (Section 18.2: Extraction et édition de texte), et une explication convaincante des raisons pour lesquelles la bibliothèque ne prend pas en charge l'extraction de texte. En bref, il est relativement facile d'écrire un code qui traitera des cas simples, mais il est fondamentalement impossible d'extraire du texte du PDF en général.

 16
Author: Bolo, 2013-07-18 20:03:12

Avec Apache PDFBox, cela se passe comme ceci:

PDDocument document = PDDocument.load(new File("test.pdf"));
if (!document.isEncrypted()) {
    PDFTextStripper stripper = new PDFTextStripper();
    String text = stripper.getText(document);
    System.out.println("Text:" + text);
}
document.close();
 14
Author: Sachin, 2017-12-12 15:15:36

Utilisez une bibliothèque PDF telle queiText .

 2
Author: Oded, 2011-01-24 17:12:48