Existe-t-il une bibliothèque C++ pour extraire du texte d'un fichier PDF comme PDFBox pour Java? [fermé]


L'année dernière, j'ai fait une application en Java en utilisant PDFBox pour obtenir le texte brut dans certains fichiers PDF et j'ai besoin de porter cette application en C++ maintenant.

Je voulais savoir quelle était la meilleure alternative C++ pour accomplir ce dont j'avais besoin.

Je vais donner un exemple au cas où cela aiderait:

La Plupart des fichiers ressemblera à ceci: http://www.jumbala.net/backup/league.pdf

Avec PDFBox, en utilisant ce fichier, chaque ligne lue à la page 2 et la plupart de la page 3 produirait toutes les données d'un ligne, séparés par un espace au lieu de le garder dans une grille comme il est maintenant.

Donc la première ligne pertinente de la page 2 ressemblerait à ceci:

FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615

Ou quelque chose comme ça car il y a des changements mineurs dans l'ordre où ils apparaissent, mais je ne m'en soucie pas tant que des lignes similaires produisent la même chose puisque je les analyse et mets les valeurs dont j'ai besoin dans différentes variables.

Donc, sachant tout cela, est-il une bibliothèque que je peux utiliser dans un programme en C++ pour obtenir similaire des résultats?

Edit: Après avoir regardé le lien de sacredFaith à http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file et en l'essayant, j'obtiens une sortie bizarre comme telle pour l'exemple de fichier que j'ai mentionné plus tôt:

Http://www.jumbala.net/backup/league.pdf.txt

Les parties dont j'ai réellement besoin sont dans les caractères étranges au début. En utilisant Adobe Acrobat Reader X et en utilisant Enregistrer sous... Texte (accessible), je reçois le résultat suivant:

Http://www.jumbala.net/backup/league_good.pdf.txt

Qui est à peu près ce que j'obtiens en Java en utilisant PDFBox et ce que je veux obtenir en sortie en C++.

Author: Adam Smith, 2012-03-31

3 answers

Xpdf est une application/bibliothèque C++ qui comprend des outils pour extraire du texte brut à partir d'un fichier PDF.

 10
Author: Charles Salvia, 2012-03-31 14:23:20

Puisque c'est ce que vous cherchez: PoDoFo est une bibliothèque C++ pour analyser/lire/modifier ou créer des fichiers pdf. La bibliothèque est multiplateforme.

 3
Author: grifos, 2012-03-31 15:38:15

Je n'ai jamais utilisé ce qui suit, mais après quelques recherches sur Google, j'ai trouvé ceci:

Http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file

 2
Author: sacredfaith, 2015-10-07 22:27:02