Aspose.HTML for Java est une API de manipulation HTML avancée pour manipuler et générer du HTML dans les applications Java. L'API permet d'ajouter, de supprimer, de remplacer des nœuds, d'extraire du CSS et de naviguer dans un document de plusieurs manières. De plus, l'API offre les capacités de charger EPUB et MHTML ainsi que les scripts qui permettent de manipuler DOM via JavaScript.
Aspose.HTML for Java prend en charge la conversion de format inter-fichiers pour charger le document HTML et enregistrer la sortie dans des images XPS, PDF et raster, y compris JPEG, PNG, BMP et plus, ainsi que fournir un cryptage pour les fichiers PDF.

Fonctionnalités avancées de l'API de traitement Java HTML

 

Fonctionnalités de l'API dans la documentation

Vous pouvez consulter la liste complète des fonctionnalités d'Aspose.HTML dans notre documentation. L'utilisation de la bibliothèque Aspose.HTML for Java dans votre projet vous permet d'effectuer les tâches suivantes :

  • Création ou ouverture d'un document HTML existant à partir de différentes sources.
  • Manipulation HTML : création, modification, suppression et remplacement de nœuds HTML via l'API.
  • Enregistrement du document HTML.
  • Extraction de styles CSS pour un nœud HTML particulier.
  • Configuration d'un sandbox de document qui affecte le traitement des documents HTML.
  • Navigation dans un document HTML de différentes manières.
  • Conversion d'un document HTML en divers formats pris en charge : JPEG, PNG, BMP, TIFF, PDF, XPS, etc.

Convertir HTML en format PDF et XPS

L'API prend en charge le rendu du HTML vers les images raster les plus couramment utilisées, notamment les formats BMP, TIFF, JPEG et PNG, PDF et XPS. Les développeurs peuvent personnaliser en configurant les aspects PageSetup pour les formats de mise en page fixes résultants, y compris les numéros de page à rendre, la taille de page résultante ou en définissant la compression JPEG pour les images intégrées.

Rendu HTML sous forme de formats à mise en page fixe – Java


// Load HTML document from file
HTMLDocument htmdoc = new HTMLDocument(dir + "template.html");

// Render HTML to PDF & XPS
HtmlRenderer renderer = new HtmlRenderer();

renderer.render(new PdfDevice(new PdfRenderingOptions(), dir + "output.pdf"), htmdoc);
renderer.render(new XpsDevice(new XpsRenderingOptions(), dir + "output.xps"), htmdoc);

Conversion en images raster

Aspose.HTML for Java offre le moteur de rendu haute fidélité à sa base qui peut convertir des pages HTML aux formats d'image raster les plus couramment utilisés, notamment TIFF, BMP, PNG et JPEG sans nécessiter de logiciel ou d'outil supplémentaire.

Convertir HTML en PNG à l'aide d'Aspose.HTML for Java


// Initialize an HTML document from a file
HTMLDocument document = new HTMLDocument("document.html");

// Initialize ImageSaveOptions
ImageSaveOptions options = new ImageSaveOptions(ImageFormat.Png);

// Convert HTML to PNG
Converter.convertHTML(document, options, "document-output.png");

Vous pouvez essayer le convertisseur HTML en ligne.

Vous pouvez également convertir HTML, XHTML, MHTML, Markdown, EPUB ou SVG dans de nombreux autres formats de fichiers, dont quelques-uns sont répertoriés ci-dessous:


Manipulation de fichiers EPUB et MHTML

La bibliothèque est capable de charger des fichiers EPUB et MHTML pour effectuer diverses opérations, notamment la conversion en formats d'image à mise en page fixe et raster.

Convertir MHTML en PDF à l'aide d'Aspose.HTML for Java


// Open an existing MHTML file for reading
java.io.FileInputStream fileInputStream = new java.io.FileInputStream("sample.mht");

// Create an instance of the PdfSaveOptions class
PdfSaveOptions options = new PdfSaveOptions();

// Call the convertMHTML() method to convert MHTML to PDF
Converter.convertMHTML(fileInputStream, options, "sample-output.pdf");

Navigation des nœuds HTML

L'API prend en charge la navigation dans le fichier HTML soit par XPath, éléments ou requêtes de sélecteur CSS et on peut facilement insérer, extraire, supprimer ou remplacer des nœuds.

Extraire tous les nœuds de type ancre – Java


// Instance creation of HTMLDocument and loading HTML from URL
HTMLDocument dct = new HTMLDocument("https://www.aspose.com");

// Get all anchor type nodes
NodeList nodelist = dct.getDocumentElement().querySelectorAll("a");

// Display anchor text & href values for all nodes
for (Node node : nodelist){

    HTMLAnchorElement anchor = (HTMLAnchorElement)node;
    System.out.println("Text: " + node.getTextContent() + " Href: " + anchor.getHref());
}

Configurer le bac à sable

L'API HTML vous permet de configurer un environnement de sandbox qui affecte le traitement des documents HTML, c'est-à-dire ; les styles CSS dépendent, dans certains cas, de la taille de l'écran.

Désactiver les scripts pour la conversion HTML en PDF avec Java


// Prepare HTML code and save it to a file
String code = "Hello, World!!\n" +
        "\n";

try (java.io.FileWriter fileWriter = new java.io.FileWriter("sandboxing.html")) {
    fileWriter.write(code);
}

// Create an instance of the Configuration class
Configuration configuration = new Configuration();

// Mark 'scripts' as an untrusted resource
configuration.setSecurity(com.aspose.html.Sandbox.Scripts);

// Initialize an HTML document with specified configuration
HTMLDocument document = new HTMLDocument("sandboxing.html", configuration);

// Convert HTML to PDF
Converter.convertHTML(document, new PdfSaveOptions(), "sandboxing_out.pdf");

FAQ

1. Qu'est-ce qu'Aspose.HTML for Java ?

Aspose.HTML for Java est une bibliothèque de classes qui permet aux développeurs de manipuler et de convertir des documents HTML dans leurs applications Java sans nécessiter d'outils ou de logiciels externes.

2. Quel problème Aspose.HTML for Java résout-il au niveau de l'API ?

Aspose.HTML for Java fournit un moteur de traitement HTML programmable qui permet de charger, analyser, modifier, rendre et convertir des documents HTML sans dépendre d'un environnement de navigateur. Vous interagissez directement avec un DOM structuré, une chaîne de rendu et une couche de conversion via des API Java, ce qui rend le comportement déterministe et adapté aux systèmes backend.

3. Comment le HTML est-il analysé en interne et respecte-t-il les normes modernes ?

Le parseur est aligné sur les spécifications WHATWG et W3C, ce qui signifie qu'il gère le balisage incorrect, les balises implicites et les règles d'encodage conformément aux normes web modernes. Le document résultant est exposé comme un DOM entièrement navigable, ce qui est important pour des tâches telles que la transformation, la validation et le rendu.

4. Est-il possible d'extraire des données structurées à partir du HTML via l'API ?

Oui. Comme le document est représenté sous forme de DOM complet, vous pouvez l'interroger à l'aide de sélecteurs ou d'API de parcours et extraire des éléments spécifiques, des attributs ou des nœuds de texte. Cela est particulièrement utile lorsque le HTML est utilisé comme conteneur de données et non seulement comme document visuel.

5. L'API peut-elle fonctionner avec d'autres formats que le HTML ?

Oui, mais tous les formats ne sont pas traités de la même manière. Aspose.HTML for Java peut charger et traiter des formats tels que XHTML, MHTML, SVG, EPUB et Markdown, mais ils ne sont pas tous considérés comme des documents HTML équivalents. Certains nécessitent des méthodes de chargement spécifiques ou ne sont pris en charge que pour certaines opérations, comme la conversion plutôt que l'édition complète.
En pratique, le HTML reste le format de travail principal, tandis que les autres formats sont généralement utilisés comme sources d'entrée ou cibles de conversion dans le même flux de traitement.




  

Support and Learning Resources

  
  

Aspose.HTML propose des API de traitement HTML individuelles pour d'autres environnements de développement populaires, comme indiqué ci-dessous: