Aspose.HTML for Java – это расширенный API для работы с HTML файлами, позволяющий манипулировать и генерировать HTML в приложениях Java. API позволяет добавлять, удалять, заменять узлы, извлекать CSS и перемещаться по документу несколькими способами. Кроме того, API предоставляет возможность загрузки EPUB и MHTML, а также предлагает скрипты, позволяющие манипулировать DOM с помощью JavaScript.
Aspose.HTML for Java поддерживает межфайловое преобразование формата для загрузки HTML-документа и сохранения вывода в XPS, PDF и растровых изображениях, включая JPEG, PNG, BMP и другие, а также обеспечивает шифрование файлов PDF.
Расширенные функции Java HTML Processing API
Создание HTML-страниц с нуля
Реализовать спецификации W3C
Вставка, замена или удаление узлов
Извлечение информации о стилях CSS
Загрузка форматов документов EPUB и MHTML
Рендеринг HTML в растровые изображения
Возможности API в документации
Вы можете увидеть полный список функций Aspose.HTML в нашей документации. Использование библиотеки Aspose.HTML for Java в вашем проекте позволяет выполнять следующие задачи:
- Создание или открытие существующего HTML-документа из разных источников.
- Управление HTML документом: создание, редактирование, удаление и замена узлов HTML с помощью API.
- Сохранение HTML-документа.
- Извлечение стилей CSS для определенного узла HTML.
- Настройка изолированной программной среды для документов, которая влияет на обработку HTML-документов.
- Навигация по HTML-документу различными способами.
- Конвертация документа HTML в различные поддерживаемые форматы: JPEG, PNG, BMP, TIFF, PDF, XPS и другие.
Преобразование HTML в формат PDF и XPS
API поддерживает рендеринг HTML в наиболее часто используемые растровые изображения, включая форматы BMP, TIFF, JPEG и PNG, PDF и XPS. Разработчики могут настроить параметры PageSetup для результирующих форматов с фиксированным макетом, включая номера отображаемых страниц, результирующий размер страницы или настройку сжатия JPEG для встроенных изображений.
Отображение HTML в виде форматов с фиксированным макетом – Java
// Load HTML document from file
HTMLDocument htmdoc = new HTMLDocument(dir + "template.html");
// Render HTML to PDF & XPS
HtmlRenderer renderer = new HtmlRenderer();
renderer.render(new PdfDevice(new PdfRenderingOptions(), dir + "output.pdf"), htmdoc);
renderer.render(new XpsDevice(new XpsRenderingOptions(), dir + "output.xps"), htmdoc);
Конвертация в растровые изображения
Aspose.HTML for Java предлагает высокоточный механизм рендеринга, который может преобразовывать HTML-страницы в наиболее часто используемые форматы растровых изображений, включая TIFF, BMP, PNG и JPEG, без необходимости использования какого-либо дополнительного программного обеспечения или инструмента.
Конвертировать HTML в PNG с помощью Aspose.HTML for Java
// Initialize an HTML document from a file
HTMLDocument document = new HTMLDocument("document.html");
// Initialize ImageSaveOptions
ImageSaveOptions options = new ImageSaveOptions(ImageFormat.Png);
// Convert HTML to PNG
Converter.convertHTML(document, options, "document-output.png");
Вы можете попробовать в работе онлайн Конвертер HTML.
Вы также можете конвертировать HTML, XHTML, MHTML, Markdown, EPUB или SVG во многие другие форматы файлов, включая некоторые из перечисленных ниже:
Управление файлами EPUB и MHTML
Библиотека способна загружать файлы EPUB и MHTML для выполнения различных операций, включая преобразование в форматы с фиксированным макетом и растровые изображения.
Конвертировать MHTML в PDF с помощью Aspose.HTML for Java
// Open an existing MHTML file for reading
java.io.FileInputStream fileInputStream = new java.io.FileInputStream("sample.mht");
// Create an instance of the PdfSaveOptions class
PdfSaveOptions options = new PdfSaveOptions();
// Call the convertMHTML() method to convert MHTML to PDF
Converter.convertMHTML(fileInputStream, options, "sample-output.pdf");
Навигация по узлам HTML
API поддерживает навигацию по файлу HTML с помощью XPath, элементов или запросов селектора CSS, и можно легко вставлять, извлекать, удалять или заменять узлы.
Извлечь все узлы типа привязки – Java
// Instance creation of HTMLDocument and loading HTML from URL
HTMLDocument dct = new HTMLDocument("https://www.aspose.com");
// Get all anchor type nodes
NodeList nodelist = dct.getDocumentElement().querySelectorAll("a");
// Display anchor text & href values for all nodes
for (Node node : nodelist){
HTMLAnchorElement anchor = (HTMLAnchorElement)node;
System.out.println("Text: " + node.getTextContent() + " Href: " + anchor.getHref());
}
Настроить песочницу
HTML API позволяет настроить изолированную программную среду документа, которая влияет на обработку HTML-документов, т.е. стили CSS в некоторых случаях зависят от размера экрана.
Отключить скрипты для конвертации HTML в PDF с помощью Java
// Prepare HTML code and save it to a file
String code = "Hello, World!!\n" +
"\n";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("sandboxing.html")) {
fileWriter.write(code);
}
// Create an instance of the Configuration class
Configuration configuration = new Configuration();
// Mark 'scripts' as an untrusted resource
configuration.setSecurity(com.aspose.html.Sandbox.Scripts);
// Initialize an HTML document with specified configuration
HTMLDocument document = new HTMLDocument("sandboxing.html", configuration);
// Convert HTML to PDF
Converter.convertHTML(document, new PdfSaveOptions(), "sandboxing_out.pdf");
FAQ
1. Что такое Aspose.HTML for Java?
Aspose.HTML for Java – это библиотека классов, которая позволяет разработчикам манипулировать и конвертировать HTML-документы в своих Java-приложениях без необходимости использования внешних инструментов или программного обеспечения.2. Какую проблему решает Aspose.HTML for Java на уровне API?
Aspose.HTML for Java предоставляет программируемый движок обработки HTML, который позволяет загружать, парсить, изменять, рендерить и конвертировать HTML-документы без зависимости от браузерной среды выполнения. Вы работаете напрямую со структурированным DOM, пайплайном рендеринга и слоем конвертации через Java API, что делает поведение детерминированным и подходящим для backend-систем.3. Как HTML обрабатывается внутри и соответствует ли он современным стандартам?
Парсер соответствует спецификациям WHATWG и W3C, что означает обработку некорректной разметки, неявных тегов и правил кодировки в соответствии с современными веб-стандартами. Полученный документ представлен как полностью навигируемый DOM, что важно для задач трансформации, валидации и рендеринга.4. Можно ли извлекать структурированные данные из HTML с помощью API?
Да. Поскольку документ представлен в виде полного DOM, его можно запрашивать с помощью селекторов или API обхода и извлекать отдельные элементы, атрибуты или текстовые узлы. Это особенно полезно, когда HTML используется как контейнер данных, а не только как визуальный документ.5. Может ли API работать с форматами, отличными от HTML?
Да, но не все форматы обрабатываются одинаково. Aspose.HTML for Java может загружать и обрабатывать форматы XHTML, MHTML, SVG, EPUB и Markdown, однако они не всегда рассматриваются как эквивалентные HTML-документы. Некоторые требуют специальных методов загрузки или поддерживаются только для отдельных операций, например конвертации, а не полноценного редактирования.На практике HTML остаётся основным рабочим форматом, а другие форматы обычно используются как источники входных данных или цели конвертации в рамках одного и того же процесса обработки.
Support and Learning Resources
- Образовательные ресурсы
- Документация
- Исходный код
- Ссылки на API
- Поддержка продукта
- Бесплатная поддержка
- Платная поддержка
- Блог
- Примечания к выпуску
- Почему Aspose.HTML for Java?
- Список клиентов
- Истории успеха