Webページからテーブルを抽出する方法

WebページからHTMLテーブルを抽出することは、Webスクレイピング、データ分析、コンテンツ処理において一般的なタスクです。 Aspose.HTML for Python via .NET を使用すると、開発者は任意のWebページから<table>要素を検索、ダウンロード、保存するプロセスを簡単に自動化できます。プログラムでテーブルを抽出するこの強力なソリューションは、記事、レポート、その他のウェブページから構造化データを扱う必要がある人に最適です。


Pythonを使ってテーブルを抽出する

以下のPythonコードは、ウェブサイトからHTMLドキュメントをダウンロードし、その中のすべてのテーブル要素を識別し、後で使用するために各テーブルを個別の自己完結型HTMLファイルにエクスポートする方法を示しています:


ウェブページから表をダウンロードするPythonコード

import os
import aspose.html as ah

# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
    # Get all <table> elements
    tables = doc.get_elements_by_tag_name("table")

    if tables.length > 0:
        for i, table in enumerate(tables):
            # Construct output file path
            file_name = f"table{i}.htm"
            file_path = os.path.join(output_dir, file_name)

            # Create a new HTML document from the table's outer HTML
            new_doc = ah.HTMLDocument(table.outer_html, file_path)

            # Save the new document
            new_doc.save(file_path)
    else:
        # Handle case where no tables are found
        print("No tables found in the document.")


ウェブページからテーブルを抽出する手順

  1. HTMLDocument(url) コンストラクタを使って、指定されたURLからHTMLドキュメントを開きます。このドキュメントは <table> 要素が抽出されるソースとなります。
  2. get_elements_by_tag_name(“table”) メソッドを呼び出して、HTMLドキュメントからすべての<table>要素を集める。
  3. テーブルがあるかどうかをチェックする。テーブルが存在する場合は、各テーブル要素を繰り返し処理するループを開始する。
    • 各テーブルに固有のファイル名を作成する。
    • table 要素の outer_html プロパティと保存用の出力パスを使用して、新しい HTMLDocument を作成する。
    • save() メソッドを使用して、単一テーブルを含む新しいHTMLドキュメントを保存します。 1.もし <table> 要素が見つからなければ、文書中にテーブルが見つからなかったことを示すメッセージを表示する。

Python を使用して Web や HTML ドキュメントからさまざまなタイプのデータをプログラムで抽出する方法については、ドキュメントの Data Extraction in Python の章を参照してください。この章では、Aspose.HTML for Python via .NET APIを使用して、HTMLから貴重なデータを自動的に検査、キャプチャ、抽出する方法について実践的なガイダンスを提供します。CSSセレクタやXPathを使用したHTMLドキュメントのナビゲーションや、画像、SVGグラフィック、その他のファイルのようなリモートリソースのダウンロードと保存のような重要なトピックをカバーしています。



Python API を使い始める

HTML ドキュメントを解析、操作、管理したい場合は、柔軟で高速な Aspose.HTML for Python via .NET API をインストールしてください。pip は、Python ライブラリをダウンロードしてインストールする最も簡単な方法です。これを行うには、次のコマンドを実行します:

pip install aspose-html-net

Python ライブラリのインストールとシステム要件の詳細については、 Aspose.HTML ドキュメント を参照してください。

その他のサポート機能

HTMLベースのドキュメントを解析および操作するには、Aspose.HTML for Python via .NETライブラリを使用します。明快、安全、シンプル!