HTMLからテーブルを抽出する方法

HTML からテーブルを抽出する機能は、Web スクレイピングやコンテンツ分析などのさまざまなアプリケーションにとって重要です。 Aspose.HTML for .NET は、HTML ドキュメントからシームレスに移動して情報を収集するためのツール セットを開発者に提供することで、このプロセスを簡素化する堅牢なライブラリです。 HTML ドキュメントからテーブルを抽出する方法を見てみましょう。

まず、プロジェクトに Aspose.HTML for .NET がインストールされていることを確認してください。 このライブラリのインストールプロセスは非常に簡単です。 NuGet パッケージ マネージャーを開き、Aspose.HTML を検索してインストールします。 パッケージ マネージャー コンソールから次のコマンドを使用することもできます。


Aspose.HTML for .NET をインストールする

Install-Package Aspose.HTML



C# を使用して HTML テーブルを抽出する

Aspose.HTML for .NET API は、HTML ドキュメントから情報を分析および収集するための強力なツールセットを提供します。数行の C# コードを使用して HTML テーブルを抽出できます。次の例は、HTML ドキュメント内のすべての <table> 要素を検索し、テーブルごとに個別の HTML ファイルを作成し、出力ディレクトリに保存する方法を示しています。各出力 HTML ファイルには、ソース HTML ドキュメントのテーブルが 1 つだけ含まれています。


HTML からテーブルを抽出する C# コード

using Aspose.Html;
using System.IO;
using System.Collections.Generic;
...

    // Prepare a path to a source HTML file
    string documentPath = Path.Combine(DataDir, "tables.html");

    // Create an instance of an HTML document
    using (var document = new HTMLDocument(documentPath))
    {
        var tables = document.GetElementsByTagName("table");
        var result = new List<Dictionary<string, string>>();
        var i = 0;
        foreach (var table in tables)
        {
            // Save table to new html document
            var newFileName = "table" + i + ".htm";
            var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
            newDoc.Save(Path.Combine(OutputDir, newFileName));
            i++;
        }
    }



HTML からテーブルを抽出する手順

  1. HTMLDocument() コンストラクターを使用して HTML ドキュメントを初期化します。ソース HTML ファイルのパスをパラメーターとしてコンストラクターに渡します。
  2. GetElementsByTagName("table") メソッドを使用して、すべての <table> 要素を収集します。このメソッドは、HTML ドキュメントの <table> 要素のリストを返します。
  3. 各テーブル要素を反復するループを開始します。
    • HTML テーブル ファイルの新しいファイル名を作成します。
    • HTMLDocument(content,baseUri) コンストラクターを使用して、テーブル要素の OuterHTML プロパティと新しいファイル名を使用して HTML ドキュメントの新しいインスタンスを作成します。
    • Save() メソッドを使用して、新しく作成したHTMLドキュメントを出力ディレクトリに保存します。

Aspose.HTML API の詳細については、 ドキュメント ガイドを参照してください。 Aspose.HTML for .NET は、HTML、XHTML、MD、EPUB、および MHTML ファイルの作成、編集、変換を可能にする高度な HTML 解析ライブラリです。 Data Extraction ドキュメント セクションでは、Aspose.HTML for .NET を使用して Web ページからデータを自動的に検査、収集、抽出する方法について説明します。このセクションの記事では、HTML ドキュメントを操作してその要素を詳細に検査する方法、URL から Web サイトまたはファイルを保存する方法、Web サイトからさまざまな種類の画像を抽出する方法などを学びます。



HTML テーブル ジェネレーター – オンライン アプリ

Aspose.HTML が提供する HTML テーブルジェネレータ は、カスタマイズ可能なオプションを備えたテーブルを作成するためのオンライン アプリケーションです。無料で使用することができます。必要なオプションをすべて入力するだけで結果が得られます。 HTML テーブル ジェネレーターは、HTML テーブル コードを自動的に作成します。このツールは、必要な HTML テーブルを取得して、できるだけ早くオンラインにできるように設計されています。

サポートされているその他の C# ライブラリの機能

Aspose.HTML for .NET ライブラリを使用して、HTML ベースのドキュメントを解析および操作します。明確、安全、そして簡単!