Aspose.HTML for Java は、Java アプリケーション内で HTML を操作および生成するための高度な HTML 操作 API です。 API を使用すると、ノードの追加、削除、置換、CSS の抽出、複数の方法でドキュメント内を移動できます。さらに、API は、EPUB および MHTML をロードする機能を提供するだけでなく、JavaScript を介して DOM を操作できるスクリプトも提供します。
Aspose.HTML for Java は、HTML ドキュメントをロードし、XPS、PDF、JPEG、PNG、BMP などのラスター イメージで出力を保存するためのファイル間フォーマット変換をサポートし、PDF ファイルの暗号化を提供します。

高度な Java HTML 処理 API 機能

 

ドキュメントの API 機能

Aspose.HTML 機能の完全なリストは、ドキュメントで確認できます。プロジェクトで Aspose.HTML for Java ライブラリを使用すると、次のタスクを実行できます。

  • さまざまなソース から既存の HTML ドキュメントを作成または開く。
  • HTML 操作: API を介して HTML ノードを作成、編集、削除、および置換します。
  • HTML ドキュメントを保存しています。
  • 特定の HTML ノードの CSS スタイルを抽出しています。
  • HTML ドキュメントの処理に影響を与えるドキュメント サンドボックスを構成します。
  • さまざまな方法で HTML ドキュメントをナビゲートします。
  • HTML ドキュメントを、JPEG、PNG、BMP、TIFF、PDF、XPS など、サポートされているさまざまな形式に変換します。

HTML を PDF および XPS 形式に変換する

API は、BMP、TIFF、JPEG、および PNG、PDF、XPS 形式を含む最も一般的に使用されるラスター イメージへの HTML のレンダリングをサポートします。開発者は、レンダリングされるページ番号、結果のページ サイズ、埋め込み画像の JPEG 圧縮の設定など、結果の固定レイアウト形式の PageSetup アスペクトを構成することによってカスタマイズできます。

HTML を固定レイアウト形式としてレンダリングする – Java


// Load HTML document from file
HTMLDocument htmdoc = new HTMLDocument(dir + "template.html");

// Render HTML to PDF & XPS
HtmlRenderer renderer = new HtmlRenderer();

renderer.render(new PdfDevice(new PdfRenderingOptions(), dir + "output.pdf"), htmdoc);
renderer.render(new XpsDevice(new XpsRenderingOptions(), dir + "output.xps"), htmdoc);

ラスター画像への変換

Aspose.HTML for Java は、追加のソフトウェアやツールを必要とせずに、HTML ページを TIFF、BMP、PNG および JPEG などの最も一般的に使用されるラスター イメージ形式に変換できるハイファイ レンダリング エンジンをコアに提供します。

Aspose.HTML for Java を使用して HTML を PNG に変換


// Initialize an HTML document from a file
HTMLDocument document = new HTMLDocument("document.html");

// Initialize ImageSaveOptions
ImageSaveOptions options = new ImageSaveOptions(ImageFormat.Png);

// Convert HTML to PNG
Converter.convertHTML(document, options, "document-output.png");

オンライン HTML コンバーター を試すことができます。

HTML、XHTML、MHTML、Markdown、EPUB、または SVG を他の多くのファイル形式に変換することもできます。


EPUB および MHTML ファイルの操作

このライブラリは、EPUB および MHTML ファイルをロードして、固定レイアウトおよびラスター イメージ形式への変換を含むさまざまな操作を実行できます。

Aspose.HTML for Java を使用して MHTML を PDF に変換


// Open an existing MHTML file for reading
java.io.FileInputStream fileInputStream = new java.io.FileInputStream("sample.mht");

// Create an instance of the PdfSaveOptions class
PdfSaveOptions options = new PdfSaveOptions();

// Call the convertMHTML() method to convert MHTML to PDF
Converter.convertMHTML(fileInputStream, options, "sample-output.pdf");

HTML ノードのナビゲーション

API は、XPath、要素、または CSS セレクター クエリによる HTML ファイルのナビゲーションをサポートし、ノードを簡単に挿入、抽出、削除、または置換できます。

タイプアンカーのすべてのノードを抽出する – Java


// Instance creation of HTMLDocument and loading HTML from URL
HTMLDocument dct = new HTMLDocument("https://www.aspose.com");

// Get all anchor type nodes
NodeList nodelist = dct.getDocumentElement().querySelectorAll("a");

// Display anchor text & href values for all nodes
for (Node node : nodelist){

    HTMLAnchorElement anchor = (HTMLAnchorElement)node;
    System.out.println("Text: " + node.getTextContent() + " Href: " + anchor.getHref());
}

サンドボックスの構成

HTML API を使用すると、HTML ドキュメントの処理に影響を与えるドキュメント サンドボックスを構成できます。場合によっては、CSS スタイルは画面サイズに依存します。

Java を使用して HTML から PDF への変換時にスクリプトを無効にする


// Prepare HTML code and save it to a file
String code = "Hello, World!!\n" +
        "\n";

try (java.io.FileWriter fileWriter = new java.io.FileWriter("sandboxing.html")) {
    fileWriter.write(code);
}

// Create an instance of the Configuration class
Configuration configuration = new Configuration();

// Mark 'scripts' as an untrusted resource
configuration.setSecurity(com.aspose.html.Sandbox.Scripts);

// Initialize an HTML document with specified configuration
HTMLDocument document = new HTMLDocument("sandboxing.html", configuration);

// Convert HTML to PDF
Converter.convertHTML(document, new PdfSaveOptions(), "sandboxing_out.pdf");

FAQ

1. Aspose.HTML for Javaとは何ですか?

Aspose.HTML for Javaは、開発者が外部ツールやソフトウェアを必要とせずに、Javaアプリケーション内でHTMLドキュメントを操作および変換できるクラスライブラリです。

2. Aspose.HTML for JavaはAPIレベルでどのような問題を解決しますか?

Aspose.HTML for Javaは、ブラウザのランタイムに依存せずにHTMLドキュメントを読み込み、解析、変更、レンダリング、変換できるプログラム可能なHTML処理エンジンを提供します。構造化されたDOM、レンダリングパイプライン、および変換レイヤーにJava APIを通じて直接アクセスできるため、動作は決定論的であり、バックエンドシステムに適しています。

3. HTMLは内部でどのように解析され、最新の標準に準拠していますか?

パーサーはWHATWGおよびW3C仕様に準拠しており、不正なマークアップ、暗黙的なタグ、およびエンコーディング規則を最新のWeb標準に従って処理します。生成されたドキュメントは完全にナビゲート可能なDOMとして公開され、変換、検証、レンダリングなどのタスクに重要です。

4. APIを使用してHTMLから構造化データを抽出することは可能ですか?

はい。ドキュメントは完全なDOMとして表現されるため、セレクタやトラバーサルAPIを使用して特定の要素、属性、またはテキストノードを取得できます。これは、HTMLが単なる視覚的なドキュメントではなくデータコンテナとして使用される場合に特に有用です。

5. APIはHTML以外のフォーマットにも対応していますか?

はい、ただしすべてのフォーマットが同じように扱われるわけではありません。Aspose.HTML for JavaはXHTML、MHTML、SVG、EPUB、Markdownなどの形式を読み込みおよび処理できますが、それらすべてが同等のHTMLドキュメントとして扱われるわけではありません。一部は特定の読み込み方法を必要とするか、完全な編集ではなく変換などの特定の操作のみがサポートされています。
実際には、HTMLが主要な作業フォーマットであり、他のフォーマットは同じ処理パイプライン内で入力ソースまたは変換ターゲットとして使用されることが一般的です。




  
  

Aspose.HTML は、以下に示すように、他の一般的な開発環境向けに個別の HTML 処理 API を提供します。