Webページからテーブルを抽出する方法
WebページからHTMLテーブルを抽出することは、Webスクレイピング、データ分析、コンテンツ処理において一般的なタスクです。
Aspose.HTML for Python via .NET
を使用すると、開発者は任意のWebページから<table>
要素を検索、ダウンロード、保存するプロセスを簡単に自動化できます。プログラムでテーブルを抽出するこの強力なソリューションは、記事、レポート、その他のウェブページから構造化データを扱う必要がある人に最適です。
Pythonを使ってテーブルを抽出する
以下のPythonコードは、ウェブサイトからHTMLドキュメントをダウンロードし、その中のすべてのテーブル要素を識別し、後で使用するために各テーブルを個別の自己完結型HTMLファイルにエクスポートする方法を示しています:
ウェブページから表をダウンロードするPythonコード
import os
import aspose.html as ah
# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)
# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
# Get all <table> elements
tables = doc.get_elements_by_tag_name("table")
if tables.length > 0:
for i, table in enumerate(tables):
# Construct output file path
file_name = f"table{i}.htm"
file_path = os.path.join(output_dir, file_name)
# Create a new HTML document from the table's outer HTML
new_doc = ah.HTMLDocument(table.outer_html, file_path)
# Save the new document
new_doc.save(file_path)
else:
# Handle case where no tables are found
print("No tables found in the document.")
ウェブページからテーブルを抽出する手順
- HTMLDocument(url)
コンストラクタを使って、指定されたURLからHTMLドキュメントを開きます。このドキュメントは
<table>
要素が抽出されるソースとなります。 - get_elements_by_tag_name(“table”)
メソッドを呼び出して、HTMLドキュメントからすべての
<table>
要素を集める。 - テーブルがあるかどうかをチェックする。テーブルが存在する場合は、各テーブル要素を繰り返し処理するループを開始する。
- 各テーブルに固有のファイル名を作成する。
- table 要素の
outer_html
プロパティと保存用の出力パスを使用して、新しいHTMLDocument
を作成する。 - save()
メソッドを使用して、単一テーブルを含む新しいHTMLドキュメントを保存します。
1.もし
<table>
要素が見つからなければ、文書中にテーブルが見つからなかったことを示すメッセージを表示する。
Python を使用して Web や HTML ドキュメントからさまざまなタイプのデータをプログラムで抽出する方法については、ドキュメントの Data Extraction in Python の章を参照してください。この章では、Aspose.HTML for Python via .NET APIを使用して、HTMLから貴重なデータを自動的に検査、キャプチャ、抽出する方法について実践的なガイダンスを提供します。CSSセレクタやXPathを使用したHTMLドキュメントのナビゲーションや、画像、SVGグラフィック、その他のファイルのようなリモートリソースのダウンロードと保存のような重要なトピックをカバーしています。
Python API を使い始める
HTML ドキュメントを解析、操作、管理したい場合は、柔軟で高速な Aspose.HTML for Python via .NET API をインストールしてください。pip
は、Python ライブラリをダウンロードしてインストールする最も簡単な方法です。これを行うには、次のコマンドを実行します:
pip install aspose-html-net
Python ライブラリのインストールとシステム要件の詳細については、 Aspose.HTML ドキュメント を参照してください。
その他のサポート機能
HTMLベースのドキュメントを解析および操作するには、Aspose.HTML for Python via .NETライブラリを使用します。明快、安全、シンプル!