comparer deux fichiers pdf (approche) en utilisant java [fermé]

Question

comparer deux fichiers pdf (approche) en utilisant java [fermé]

Fermé. Cette question doit être plus concentré. Il n'accepte pas actuellement de réponses.

Vous voulez améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post.

Fermé il y a 2 ans.

Améliorer cette question

J'ai besoin d'écrire une classe java qui compare deux fichiers pdf et souligne les différences (différences de texte / position/police) en utilisant une sorte de mise en évidence. mon approche initiale était l'utilisation pdfbox pour analyser le fichier en utilisant pdfbox et stocker le texte extrait en utilisant dans une structure de données qui m'aiderait à comparer. Existe-t-il une bibliothèque java qui peut extraire le texte,préserver le formatage,m'aider à indexer et à comparer.Puis-je utiliser le diff-match de tika/ Google pour cela. tika extrait du texte sous forme de xhtml mais comment puis-je comparer deux fichiers xhtml?

1

French java pdfbox apache-tika

Author: Alvin, 2013-08-14

Source

5 answers

score 8 · Answer 1

J'ai dû comparer des tonnes de fichiers pdf dans mon projet. mon exigence était de comparer les fichiers pdf pixel par pixel. Après beaucoup de recherches sur Google et comme je ne trouvais rien de bon, j'ai fini par créer mon propre utilitaire pdf à cet effet.

Veuillez consulter ce blog pour plus de détails et télécharger jar.

Http://www.testautomationguru.com/introducing-pdfutil-to-compare-pdf-files-extract-resources/

score 1 · Answer 2

Comme vous l'avez mentionné, pdfbox pour extraire son contenu et ensuite utiliser google diff pour comparer.

1

Author: Sajal Dutta, 2013-08-14 07:43:34

score 0 · Answer 3

Vérifiez cepost sur la comparaison des documents PDF. Prendre note de la ligne;

PDF est un format de fichier flexible dans lequel vous pouvez faire des choses dans beaucoup différentes façons. Vous pouvez donc créer 2 versions PDF différentes d'un fichier utilisant Acrobat et Ghostscript (par exemple). Les fichiers seraient (espérons) être identique. Mais les fichiers seraient de tailles différentes et la structure interne de chacun serait très différente

score 0 · Answer 4

Je ne sais pas si vous avez pu résoudre votre problème. Voici mon approche pour résoudre ce problème.

Convertissons d'abord les PDF en HTML en utilisantPdf2dom , puis utilisezdaisydiff pour générer un rapport de comparaison en HTML. Si vous voulez un PDF, convertissez ce rapport HTML en PDF. Mais gardez à l'esprit que la conversion PDF en HTML n'est pas précise à 100% en raison de la complexité du PDF. Vous pouvez également essayer une autre approche de conversion de PDF en images et comparer pixel à pixel et générer un PDF rapport. Vous pouvez essayer la bibliothèquePDFcompare . Il semble prometteur pour moi. Faites-moi savoir si quelqu'un a déjà essayé cela.

score -1 · Answer 5

Reportez-vous à l'exemple de code ci-dessous pour la comparaison pdf.

ZPDFCompare obj = new ZPDFCompare();
obj.pdfcompare("C:\\Users\\Desktop\\expectedFile.pdf", "C:\\Users\\Desktop\\actualFile.pdf", "C:\\Users\\Desktop\\expectedFile_Diff.pdf","C:\\Users\\tarun.kumar\\Desktop\\actualFile_Diff.pdf");

Zeonpad a fourni l'api java gratuite pour la comparaison de pdf.