Aspose.HTML for Java é uma API avançada de manipulação de HTML para manipular e gerar HTML dentro dos aplicativos Java. A API permite adicionar, excluir, substituir nós, extrair CSS e navegar por um documento de várias maneiras. Além disso, a API fornece os recursos para carregar EPUB e MHTML, bem como oferece o script que permite a manipulação de DOM via JavaScript.
Aspose.HTML for Java oferece suporte à conversão de formato entre arquivos para carregar documentos HTML e salvar a saída em XPS, PDF e imagens raster, incluindo JPEG, PNG, BMP e mais, além de fornecer criptografia para arquivos PDF.

Recursos avançados da API de processamento de HTML Java

 

Recursos da API na documentação

Você pode ver a lista completa de recursos do Aspose.HTML em nossa documentação. Usar a biblioteca Aspose.HTML for Java em seu projeto permite que você execute as seguintes tarefas:

  • Criar ou abrir um documento HTML existente de fontes diferentes.
  • Manipulação de HTML: criação, edição, remoção e substituição de nós HTML via API.
  • Salvando documento HTML.
  • Extraindo estilos CSS para um nó HTML específico.
  • Configurando uma sandbox de documento que afeta o processamento de documentos HTML.
  • Navegação através de um documento HTML de diferentes maneiras.
  • Convertendo documento HTML em vários formatos suportados: JPEG, PNG, BMP, TIFF, PDF, XPS e muito mais.

Converta HTML para o formato PDF e XPS

A API suporta a renderização de HTML para as imagens raster mais usadas, incluindo os formatos BMP, TIFF, JPEG e PNG, PDF e XPS. Os desenvolvedores podem personalizar configurando os aspectos do PageSetup para os formatos de layout fixo resultantes, incluindo números de página a serem renderizados, tamanho de página resultante ou definindo a compactação JPEG para as imagens incorporadas.

Renderizar HTML como formatos de layout fixo – Java


// Load HTML document from file
HTMLDocument htmdoc = new HTMLDocument(dir + "template.html");

// Render HTML to PDF & XPS
HtmlRenderer renderer = new HtmlRenderer();

renderer.render(new PdfDevice(new PdfRenderingOptions(), dir + "output.pdf"), htmdoc);
renderer.render(new XpsDevice(new XpsRenderingOptions(), dir + "output.xps"), htmdoc);

Conversão para Imagens Raster

Aspose.HTML for Java oferece o mecanismo de renderização de alta fidelidade em seu núcleo, que pode converter páginas HTML nos formatos de imagem raster mais comumente usados, incluindo TIFF, BMP, PNG e JPEG, sem a necessidade de nenhum software ou ferramenta adicional.

Converter HTML para PNG usando Aspose.HTML for Java


// Initialize an HTML document from a file
HTMLDocument document = new HTMLDocument("document.html");

// Initialize ImageSaveOptions
ImageSaveOptions options = new ImageSaveOptions(ImageFormat.Png);

// Convert HTML to PNG
Converter.convertHTML(document, options, "document-output.png");

Você pode experimentar o Conversor de HTML on-line.

Você também pode converter HTML, XHTML, MHTML, Markdown, EPUB ou SVG em muitos outros formatos de arquivo, incluindo alguns listados abaixo:


Manipulando arquivos EPUB e MHTML

A biblioteca é capaz de carregar arquivos EPUB e MHTML para executar várias operações, incluindo a conversão para formatos de imagem de layout fixo e raster.

Converter MHTML para PDF usando Aspose.HTML for Java


// Open an existing MHTML file for reading
java.io.FileInputStream fileInputStream = new java.io.FileInputStream("sample.mht");

// Create an instance of the PdfSaveOptions class
PdfSaveOptions options = new PdfSaveOptions();

// Call the convertMHTML() method to convert MHTML to PDF
Converter.convertMHTML(fileInputStream, options, "sample-output.pdf");

Navegação de nós HTML

A API oferece suporte à navegação pelo arquivo HTML por XPath, elementos ou consultas do seletor CSS e pode-se inserir, extrair, remover ou substituir nós facilmente.

Extraia todos os nós do tipo âncora – Java


// Instance creation of HTMLDocument and loading HTML from URL
HTMLDocument dct = new HTMLDocument("https://www.aspose.com");

// Get all anchor type nodes
NodeList nodelist = dct.getDocumentElement().querySelectorAll("a");

// Display anchor text & href values for all nodes
for (Node node : nodelist){

    HTMLAnchorElement anchor = (HTMLAnchorElement)node;
    System.out.println("Text: " + node.getTextContent() + " Href: " + anchor.getHref());
}

Configurar Sandbox

A API HTML permite configurar uma caixa de proteção de documento que afeta o processamento de documentos HTML, ou seja; os estilos CSS em alguns casos dependem do tamanho da tela.

Desativar scripts para conversão de HTML para PDF usando Java


// Prepare HTML code and save it to a file
String code = "Hello, World!!\n" +
        "\n";

try (java.io.FileWriter fileWriter = new java.io.FileWriter("sandboxing.html")) {
    fileWriter.write(code);
}

// Create an instance of the Configuration class
Configuration configuration = new Configuration();

// Mark 'scripts' as an untrusted resource
configuration.setSecurity(com.aspose.html.Sandbox.Scripts);

// Initialize an HTML document with specified configuration
HTMLDocument document = new HTMLDocument("sandboxing.html", configuration);

// Convert HTML to PDF
Converter.convertHTML(document, new PdfSaveOptions(), "sandboxing_out.pdf");

FAQ

1. O que é Aspose.HTML for Java?

Aspose.HTML for Java é uma biblioteca de classes que permite aos desenvolvedores manipular e converter documentos HTML dentro de suas aplicações Java sem a necessidade de ferramentas ou software externos.

2. Que problema o Aspose.HTML for Java resolve no nível da API?

Aspose.HTML for Java fornece um mecanismo programável de processamento de HTML que permite carregar, analisar, modificar, renderizar e converter documentos HTML sem depender de um runtime de navegador. Você interage diretamente com um DOM estruturado, um pipeline de renderização e uma camada de conversão por meio de APIs Java, tornando o comportamento determinístico e adequado para sistemas backend.

3. Como o HTML é analisado internamente e ele segue padrões modernos?

O parser é alinhado com as especificações WHATWG e W3C, o que significa que ele trata marcação inválida, tags implícitas e regras de codificação de acordo com os padrões modernos da web. O documento resultante é exposto como um DOM totalmente navegável, o que é importante para tarefas como transformação, validação e renderização.

4. É possível extrair dados estruturados de HTML usando a API?

Sim. Como o documento é representado como um DOM completo, você pode consultá-lo usando seletores ou APIs de navegação e extrair elementos específicos, atributos ou nós de texto. Isso é especialmente útil quando o HTML é usado como um contêiner de dados e não apenas como um documento visual.

5. A API pode trabalhar com formatos além de HTML?

Sim, mas nem todos os formatos são tratados da mesma maneira. O Aspose.HTML for Java pode carregar e processar formatos como XHTML, MHTML, SVG, EPUB e Markdown, mas nem todos são tratados como documentos HTML equivalentes. Alguns exigem métodos de carregamento específicos ou são suportados apenas para certas operações, como conversão em vez de edição completa.
Na prática, o HTML continua sendo o formato principal de trabalho, enquanto outros formatos são normalmente usados como fontes de entrada ou destinos de conversão dentro do mesmo fluxo de processamento.




  

Support and Learning Resources

  
  

Aspose.HTML oferece APIs individuais de processamento de HTML para outros ambientes de desenvolvimento populares, conforme listado abaixo: