ウェブサイトからテーブルを抽出する方法

HTML からテーブルを抽出する機能は、Web スクレイピングやコンテンツ分析などのさまざまなアプリケーションにとって重要です。 Aspose.HTML for .NET は、HTML ドキュメントからシームレスに移動して情報を収集するためのツール セットを開発者に提供することで、このプロセスを簡素化する堅牢なライブラリです。 Web サイトからテーブルを抽出する方法を見てみましょう。

まず、プロジェクトに Aspose.HTML for .NET がインストールされていることを確認してください。 このライブラリのインストールプロセスは非常に簡単です。 NuGet パッケージ マネージャーを開き、Aspose.HTML を検索してインストールします。 パッケージ マネージャー コンソールから次のコマンドを使用することもできます。


Aspose.HTML for .NET をインストールする

Install-Package Aspose.HTML



C# を使用して Web サイトからテーブルを抽出する

数行の C# コードを使用して、Web サイトからテーブルを抽出できます。次の例は、HTML ドキュメント内のすべての <table> 要素を検索し、テーブルごとに個別の HTML ファイルを作成し、出力ディレクトリに保存する方法を示しています。


Web サイトからテーブルを抽出する C# コード

using Aspose.Html;
using System.IO;
using System.Linq;
using System.Collections.Generic;
...

    // Open a document you want to download tables from
    using var document = new HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/");
    { 
        // Check if there are any table elements in the document
        var tables = document.GetElementsByTagName("table");

        if (tables.Any())
        {
            var result = new List<Dictionary<string, string>>();
            var i = 0;
            foreach (var table in tables)
            {
                // Save table to new html document
                var newFileName = "table" + i + ".htm";
                var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
                newDoc.Save(Path.Combine(OutputDir, newFileName));
                i++;
            }
        }
        else
        {
            // Handle the case where no tables are found
            Console.WriteLine("No tables found in the document.");
        }
    }



Web サイトからテーブルを抽出する手順

この C# の例は、Web サイトからテーブルを抽出し、各テーブルを個別の HTML ファイルとして保存する方法を示しています。これには、ドキュメント内に表が存在する場合と存在しない場合の両方のシナリオを処理する手順が含まれています。

  1. HTMLDocument() コンストラクターを使用して HTML ドキュメントを初期化します。コンストラクターは、テーブルのダウンロード元となる Web サイトの URL をパラメーターとして受け取ります。
  2. GetElementsByTagName("table") メソッドを使用して、HTML ドキュメントからすべての <table> 要素を取得します。テーブル要素のコレクションをtables変数に格納します。
  3. ドキュメントにテーブル要素が含まれているかどうかを確認します。 Any() メソッドを使用して、tables コレクションに要素が含まれているかどうかを確認します。テーブルが見つかった場合:
    • HTML テーブル ファイルの新しいファイル名を作成します。
    • HTMLDocument(content,baseUri) コンストラクターを使用して、テーブル要素の OuterHTML プロパティと新しいファイル名を使用して HTML ドキュメントの新しいインスタンスを作成します。
    • Save() メソッドを使用して、新しく作成したHTMLドキュメントを出力ディレクトリに保存します。
  4. 文書に表が含まれていない場合は、表が見つからなかったことを示すメッセージをコンソールに出力します。

Aspose.HTML API の詳細については、 ドキュメント ガイドを参照してください。 Aspose.HTML for .NET は、HTML、XHTML、MD、EPUB、および MHTML ファイルの作成、編集、変換を可能にする高度な HTML 解析ライブラリです。 Data Extraction ドキュメント セクションでは、Aspose.HTML for .NET を使用して Web ページからデータを自動的に検査、収集、抽出する方法について説明します。このセクションの記事では、HTML ドキュメントを操作してその要素を詳細に検査する方法、URL から Web サイトまたはファイルを保存する方法、Web サイトからさまざまな種類の画像を抽出する方法などを学びます。



HTML テーブル ジェネレーター – オンライン アプリ

Aspose.HTML が提供する HTML テーブルジェネレータ は、カスタマイズ可能なオプションを備えたテーブルを作成するためのオンライン アプリケーションです。無料で使用することができます。必要なオプションをすべて入力するだけで結果が得られます。 HTML テーブル ジェネレーターは、HTML テーブル コードを自動的に作成します。このツールは、必要な HTML テーブルを取得して、できるだけ早くオンラインにできるように設計されています。

サポートされているその他の C# ライブラリの機能

Aspose.HTML for .NET ライブラリを使用して、HTML ベースのドキュメントを解析および操作します。明確、安全、そして簡単!