HTMLからテーブルを抽出する方法
HTML からテーブルを抽出する機能は、Web スクレイピングやコンテンツ分析などのさまざまなアプリケーションにとって重要です。 Aspose.HTML for .NET は、HTML ドキュメントからシームレスに移動して情報を収集するためのツール セットを開発者に提供することで、このプロセスを簡素化する堅牢なライブラリです。 HTML ドキュメントからテーブルを抽出する方法を見てみましょう。
まず、プロジェクトに Aspose.HTML for .NET がインストールされていることを確認してください。 このライブラリのインストールプロセスは非常に簡単です。 NuGet パッケージ マネージャーを開き、Aspose.HTML を検索してインストールします。 パッケージ マネージャー コンソールから次のコマンドを使用することもできます。
Aspose.HTML for .NET をインストールする
Install-Package Aspose.HTML
C# を使用して HTML テーブルを抽出する
Aspose.HTML for .NET API は、HTML ドキュメントから情報を分析および収集するための強力なツールセットを提供します。数行の C# コードを使用して HTML テーブルを抽出できます。次の例は、HTML ドキュメント内のすべての <table>
要素を検索し、テーブルごとに個別の HTML ファイルを作成し、出力ディレクトリに保存する方法を示しています。各出力 HTML ファイルには、ソース HTML ドキュメントのテーブルが 1 つだけ含まれています。
HTML からテーブルを抽出する C# コード
using Aspose.Html;
using System.IO;
using System.Collections.Generic;
...
// Prepare a path to a source HTML file
string documentPath = Path.Combine(DataDir, "tables.html");
// Create an instance of an HTML document
using (var document = new HTMLDocument(documentPath))
{
var tables = document.GetElementsByTagName("table");
var result = new List<Dictionary<string, string>>();
var i = 0;
foreach (var table in tables)
{
// Save table to new html document
var newFileName = "table" + i + ".htm";
var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
newDoc.Save(Path.Combine(OutputDir, newFileName));
i++;
}
}
HTML からテーブルを抽出する手順
- HTMLDocument() コンストラクターを使用して HTML ドキュメントを初期化します。ソース HTML ファイルのパスをパラメーターとしてコンストラクターに渡します。
- GetElementsByTagName(
"table"
) メソッドを使用して、すべての<table>
要素を収集します。このメソッドは、HTML ドキュメントの<table>
要素のリストを返します。 - 各テーブル要素を反復するループを開始します。
- HTML テーブル ファイルの新しいファイル名を作成します。
- HTMLDocument(
content,baseUri
) コンストラクターを使用して、テーブル要素のOuterHTML
プロパティと新しいファイル名を使用して HTML ドキュメントの新しいインスタンスを作成します。 - Save() メソッドを使用して、新しく作成したHTMLドキュメントを出力ディレクトリに保存します。
Aspose.HTML API の詳細については、 ドキュメント ガイドを参照してください。 Aspose.HTML for .NET は、HTML、XHTML、MD、EPUB、および MHTML ファイルの作成、編集、変換を可能にする高度な HTML 解析ライブラリです。 Data Extraction ドキュメント セクションでは、Aspose.HTML for .NET を使用して Web ページからデータを自動的に検査、収集、抽出する方法について説明します。このセクションの記事では、HTML ドキュメントを操作してその要素を詳細に検査する方法、URL から Web サイトまたはファイルを保存する方法、Web サイトからさまざまな種類の画像を抽出する方法などを学びます。
HTML テーブル ジェネレーター – オンライン アプリ
Aspose.HTML が提供する HTML テーブルジェネレータ は、カスタマイズ可能なオプションを備えたテーブルを作成するためのオンライン アプリケーションです。無料で使用することができます。必要なオプションをすべて入力するだけで結果が得られます。 HTML テーブル ジェネレーターは、HTML テーブル コードを自動的に作成します。このツールは、必要な HTML テーブルを取得して、できるだけ早くオンラインにできるように設計されています。
サポートされているその他の C# ライブラリの機能
Aspose.HTML for .NET ライブラリを使用して、HTML ベースのドキュメントを解析および操作します。明確、安全、そして簡単!