Aspose.HTML for Java es una API potente de manipulación de HTML que permite a los desarrolladores crear, editar, analizar y convertir documentos HTML dentro de las aplicaciones Java. La API permite agregar, eliminar y reemplazar nodos, extraer estilos CSS y navegar por los documentos usando XPath, selectores CSS o métodos DOM. Soporta la carga de formatos EPUB y MHTML y proporciona capacidades de manipulación DOM mediante JavaScript.
Con Aspose.HTML for Java, puede convertir documentos HTML a formatos PDF, XPS, DOCX e imágenes rasterizadas (JPEG, PNG, BMP, GIF, TIFF) sin necesidad de software o dependencias externas. La API también proporciona cifrado PDF y opciones personalizables de configuración de página.
Características avanzadas de la API de procesamiento HTML de Java
Implementar especificaciones W3C
Insertar, reemplazar o eliminar nodos
Extraer información de estilo CSS
Cargue formatos de documentos EPUB y MHTML
Renderizar HTML a imágenes rasterizadas
Características de la API en la documentación
Puede ver la lista completa de funciones de Aspose.HTML en nuestra documentación. El uso de la biblioteca Aspose.HTML for Java en su proyecto le permite realizar las siguientes tareas:
- Crear o abrir un documento HTML existente desde diferentes fuentes.
- Editar HTML – Crear, editar, eliminar y reemplazar nodos HTML usando la API.
- Guardar documento HTML.
- Convertir documentos HTML en varios formatos admitidos - PDF, XPS, DOCX, JPEG, PNG, BMP, TIFF, Markdown y más.
- Configuración de un entorno limitado de documentos que afecta el procesamiento de documentos HTML.
- Navegación por un documento HTML de diferentes formas.
- Comprobar la accesibilidad del sitio web.
Convertir HTML a formato PDF y XPS
La API admite la representación de HTML en una variedad de formatos populares incluidos PDF, XPS, DOCX, MHTML, Markdown y formatos de imagen. Los desarrolladores pueden personalizar configurando los aspectos de PageSetup para los formatos de diseño fijo resultantes, incluidos los números de página a renderizar, el tamaño de página resultante o la compresión JPEG para las imágenes incrustadas.
Renderizar HTML como formatos de diseño fijo – Java
// Load HTML document from file
HTMLDocument htmdoc = new HTMLDocument(dir + "template.html");
// Render HTML to PDF & XPS
HtmlRenderer renderer = new HtmlRenderer();
renderer.render(new PdfDevice(new PdfRenderingOptions(), dir + "output.pdf"), htmdoc);
renderer.render(new XpsDevice(new XpsRenderingOptions(), dir + "output.xps"), htmdoc);
Conversión a imágenes ráster
Aspose.HTML for Java cuenta con un motor de renderizado de alta fidelidad que convierte páginas HTML a los formatos de imagen rasterizados más utilizados, incluidos TIFF, GIF, BMP, PNG y JPEG, sin necesidad de software o herramientas adicionales.
Convertir HTML a PNG con Aspose.HTML for Java
// Initialize an HTML document from a file
HTMLDocument document = new HTMLDocument("document.html");
// Initialize ImageSaveOptions
ImageSaveOptions options = new ImageSaveOptions(ImageFormat.Png);
// Convert HTML to PNG
Converter.convertHTML(document, options, "document-output.png");
Puede probar el Convertidor HTML en línea.
También puede convertir HTML, XHTML, MHTML, Markdown, EPUB o SVG en muchos otros formatos de archivo, incluidos algunos de los que se enumeran a continuación:
Manipulación de archivos EPUB y MHTML
La biblioteca es capaz de cargar archivos EPUB y MHTML para realizar varias operaciones, incluida la conversión a formatos de imagen rasterizados y de diseño fijo.
Convierte MHTML a PDF con Aspose.HTML for Java
// Open an existing MHTML file for reading
java.io.FileInputStream fileInputStream = new java.io.FileInputStream("sample.mht");
// Create an instance of the PdfSaveOptions class
PdfSaveOptions options = new PdfSaveOptions();
// Call the convertMHTML() method to convert MHTML to PDF
Converter.convertMHTML(fileInputStream, options, "sample-output.pdf");
Navegación de nodos HTML
La API admite la navegación a través de documentos HTML usando XPath, selectores CSS o métodos DOM. Puede fácilmente insertar, extraer, eliminar o reemplazar nodos en el árbol del documento.
Extraer todos los nodos de tipo ancla
// Instance creation of HTMLDocument and loading HTML from URL
HTMLDocument dct = new HTMLDocument("https://www.aspose.com");
// Get all anchor type nodes
NodeList nodelist = dct.getDocumentElement().querySelectorAll("a");
// Display anchor text & href values for all nodes
for (Node node : nodelist){
HTMLAnchorElement anchor = (HTMLAnchorElement)node;
System.out.println("Text: " + node.getTextContent() + " Href: " + anchor.getHref());
}
Configurar Sandbox
La API de HTML le permite configurar un entorno limitado de documentos que afecta el procesamiento de documentos HTML, es decir; los estilos CSS en algunos casos dependen del tamaño de la pantalla.
Deshabilitar scripts para la conversión de HTML a PDF con Java
// Prepare HTML code and save it to a file
String code = "Hello, World!!\n" +
"\n";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("sandboxing.html")) {
fileWriter.write(code);
}
// Create an instance of the Configuration class
Configuration configuration = new Configuration();
// Mark 'scripts' as an untrusted resource
configuration.setSecurity(com.aspose.html.Sandbox.Scripts);
// Initialize an HTML document with specified configuration
HTMLDocument document = new HTMLDocument("sandboxing.html", configuration);
// Convert HTML to PDF
Converter.convertHTML(document, new PdfSaveOptions(), "sandboxing_out.pdf");
FAQ
1. ¿Qué es Aspose.HTML for Java?
Aspose.HTML for Java es una biblioteca de clases que permite a los desarrolladores manipular y convertir documentos HTML dentro de sus aplicaciones Java sin necesidad de herramientas o software externos.2. ¿Qué problema resuelve Aspose.HTML for Java a nivel de API?
Aspose.HTML for Java proporciona un motor programable de procesamiento de HTML que permite cargar, analizar, modificar, renderizar y convertir documentos HTML sin depender de un entorno de navegador. Interactúas directamente con un DOM estructurado, una canalización de renderizado y una capa de conversión a través de APIs de Java, lo que hace que el comportamiento sea determinista y adecuado para sistemas backend.3. ¿Cómo se analiza HTML internamente y cumple con los estándares modernos?
El analizador está alineado con las especificaciones de WHATWG y W3C, lo que significa que maneja markup mal formado, etiquetas implícitas y reglas de codificación de acuerdo con los estándares web modernos. El documento resultante se expone como un DOM completamente navegable, lo cual es importante para tareas como transformación, validación y renderizado.4. ¿Es posible extraer datos estructurados de HTML usando la API?
Sí. Dado que el documento se representa como un DOM completo, puedes consultarlo usando selectores o APIs de recorrido y extraer elementos específicos, atributos o nodos de texto. Esto es especialmente útil cuando HTML se utiliza como contenedor de datos y no solo como un documento visual.5. ¿Puede la API trabajar con formatos distintos de HTML?
Sí, pero no todos los formatos se manejan de la misma manera. Aspose.HTML for Java puede cargar y procesar formatos como XHTML, MHTML, SVG, EPUB y Markdown, pero no todos se tratan como documentos HTML equivalentes. Algunos requieren métodos de carga específicos o solo están soportados para ciertas operaciones, como la conversión en lugar de la edición completa.En la práctica, HTML sigue siendo el formato principal de trabajo, mientras que otros formatos suelen utilizarse como fuentes de entrada o destinos de conversión dentro del mismo flujo de procesamiento.
Support and Learning Resources
- Recursos de aprendizaje
- Documentación
- Código fuente
- Referencias de API
- Soporte de producto
- Soporte gratuito
- Soporte pagado
- Blog
- Notas de lanzamiento
- ¿Por qué Aspose.HTML for Java?
- Lista de clientes
- Historias de éxito