Convertir un fichier PDF en fichier HTML Java API


Je veux convertir un fichier pdf en fichier html à l'aide de l'application java. Le fichier PDF contient des images, du texte, etc. Quelqu'un connaît-il une bonne API java? (veuillez ne pas suggérer Aspose). J'ai essayé Apache PDFBox mais pas satisfait

Author: user3505725, 2014-04-07

5 answers

CSSBox Pdf2Dom est une bibliothèque Java qui permet (entre autres) de convertir des PDF en HTML. La distribution contient même un outil de ligne de commande PDFToHTML basé sur cette bibliothèque afin que vous puissiez vérifier si les résultats correspondent à vos besoins. Cependant, la conversion de PDF en HTML est toujours délicate comme indiqué ci-dessus. Les résultats dépendent de la complexité et de la structure du fichier PDF particulier, de sorte que différents outils peuvent convenir à différents fichiers PDF.

 6
Author: radkovo, 2014-04-07 11:40:42

Consultez

JPedal , il gère très bien les polices intégrées mais pas gratuitement.

IcePDF , il est gratuit mais afaik il ne peut extraire du texte/images ou rendre le PDF à une image.

public class QHyperArticleHtmlBuilder extends QHtmlBuilder {
    QStyle anchorStyle = createStyle("anchorStyle", a);
    QStyle sectionStyle = createStyle("sectionStyle", div);
    QStyle subsectionStyle = createStyle("subsectionStyle", div);
    ...    
    public String buildSubSectionHeading(String anchorName, String text) {
        return buildAnchorHeading(subsectionStyle, anchorName, text);
    }

    protected String buildAnchorHeading(QStyle divStyle, 
            String anchorName, String text) {
        QMutableElement element = create(p);
        element.add(br);
        element.add(create(a, anchorStyle, name.create(anchorName)))
        .add(create(div, divStyle, text));
        return element.buildHtml();
    }

    public String buildLink(String url, String label) {
        QMutableElement element = create(a, anchorStyle, href.create(url));
        element.add(create(span, underlineStyle))
        .add(create(span, linkStyle, label));
        return element.buildHtml();
    }
}


pre.javaStyle {
  font-family: courier new, courier, mono;
  background-color: #fbfbfb;
  font-size: 11pt;
  width: 800px;
  border: dashed 1px;
  border-color: lightgray;
  padding-left: 4px;
}

Ressources ici

 1
Author: 4dgaurav, 2014-04-07 08:16:32

Vous pouvez essayer d'utiliser Print2Flash: www.print2flash.com Il peut convertir en HTML à partir de Java non seulement des PDF, mais aussi d'autres types de documents: documents Office, dessins AutoCAD, etc. Il a résolu tous les besoins de publication de documents pour le site Web de notre entreprise.

 0
Author: alex, 2016-04-12 08:29:13

Essayez notre bibliothèque Java appelée jPDFWeb qui préserve les polices et la résolution d'image du PDF d'origine. Vous pouvez télécharger votre propre PDF et essayer la démo en direct.

Https://www.qoppa.com/pdfhtml/

 0
Author: Leila Holmann, 2016-08-23 18:10:30

Peut-être que vous pouvez utiliser cette API: https://market.mashape.com/netservice/convert-pdf-to-html fonctionne pour java, nœud, php etc...

 -1
Author: Rob, 2016-06-17 11:53:34