Aspose.HTML for Python via .NET ではどのような種類のデータを抽出できますか？

このライブラリを使用すると、埋め込み HTML ページ要素、URL 経由で直接アクセスできるファイル、動的に生成されるコンテンツなど、さまざまな種類の Web リソースを操作できます。データが Web ページから取得されたものでも、別のリンクから取得されたものでも、プログラムからアクセスして処理できます。

image を取得するには、Web ページ全体を読み込む必要がありますか？

必ずしもそうではありません。image が直接 URL 経由で利用できる場合は、すぐにダウンロードして保存できます。HTML ドキュメントの読み込みは、データがページ構造の一部である場合にのみ必要です。

データを抽出するには、外部ライブラリやブラウザーエンジンが必要ですか？

いいえ。Aspose.HTML for Python via .NET は完全に自己完結型です。解析、レンダリング、データ抽出はすべてライブラリ内で行われ、サードパーティ製のツールは必要ありません。

HTML JPG PDF XML MHTML

PythonでWebページから画像を抽出する

あらゆるウェブサイトからプログラムで画像を検索し、ダウンロードするための高速で強力なソリューションです。

Download

ウェブページから画像を抽出する方法

HTMLから画像を抽出する機能は、Webスクレイピングやコンテンツ分析など、さまざまなアプリケーションにとって非常に重要です。 Aspose.HTML for Python via .NET は、HTMLドキュメントをナビゲートし、シームレスに情報を収集する一連のツールを開発者に提供することで、このプロセスを簡素化する堅牢なライブラリです。この強力なソリューションは、分析、アーカイブ、コンテンツ作成のために画像を収集する必要がある人にとって理想的です。それでは、ウェブページから画像をダウンロードする方法をご紹介しましょう。

Pythonを使って画像を抽出する

Aspose.HTML for Python via .NET を使用すると、HTML ドキュメントから情報を解析および抽出するための強力なツールセットが API に用意されているため、独自のアプリケーションを簡単に作成できます。製品でHTMLデータの解析機能を使用したい場合、またはプログラムでHTMLからデータを抽出したい場合は、以下のコード例を参照してください。

ウェブページから画像をダウンロードするPythonコード

import os
import aspose.html as ah
import aspose.html.net as ahnet

# Prepare output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open HTML document from URL
with ah.HTMLDocument("https://docs.aspose.com/svg/net/drawing-basics/svg-color/") as doc:
    # Collect all <img> elements
    images = doc.get_elements_by_tag_name("img")

    # Get distinct relative image URLs
    urls = set(img.get_attribute("src") for img in images)

    # Create absolute image URLs
    abs_urls = [ah.Url(url, doc.base_uri) for url in urls]

    for url in abs_urls:
        # Create a network request
        request = ahnet.RequestMessage(url.href)

        # Send request
        response = doc.context.network.send(request)

        # Check if successful
        if response.is_success:
            # Extract file name
            file_name = os.path.basename(url.pathname)

            # Save image locally
            with open(os.path.join(output_dir, file_name), "wb") as f:
                f.write(response.content.read_as_byte_array())

ウェブページから画像を抽出する手順

HTMLDocumentクラスを使用して、対象となるHTMLドキュメント(Webページ)を開く。この文書が画像の抽出元となる。
HTMLDocumentオブジェクトの get_elements_by_tag_name(“img”) メソッドを呼び出して、HTMLドキュメント内のすべての<img>要素を収集する。
<img> 要素のコレクションを反復処理し、 get_attribute(“src”) メソッドを使用して各要素の src 属性にアクセスすることで、一意の画像 URL を抽出します。これらの URL は、重複がないようにセットで保存します。
相対 URL や不完全な URL をドキュメントの base_uri と一緒に Url コンストラクタに渡すことで、絶対画像 URL を作成します。これにより、各URLが完全であり、ネットワークアクセスに有効であることが保証される。
それぞれの絶対画像URLに対して、画像データを取得するために必要なHTTPリクエストを表す RequestMessage オブジェクトを作成します。
doc.context.network.send(request)メソッドを使ってリクエストを送信し、レスポンスを受け取る。レスポンスが成功したかどうかは is_success プロパティで確認する。
os.path.basename()を使用して絶対画像URLを解析してファイル名を抽出し、レスポンスのバイナリデータをファイルに書き出すことで画像の内容を出力ディレクトリに保存する。

Pythonを使ってウェブサイトから様々な種類の画像をプログラムで抽出する方法については、ドキュメント記事 Extract Images From Website in Python を参照してください。

**注意：**常に著作権法を尊重してください。抽出した画像を商業目的で使用する前に、適切な権利、許可、ライセンスがあることを確認してください。私たちは、著作権で保護されたコンテンツの無許可の使用を推奨またはサポートしません。

Python API を使い始める

HTML ドキュメントを解析、操作、管理したい場合は、柔軟で高速な Aspose.HTML for Python via .NET API をインストールしてください。pip は、Python ライブラリをダウンロードしてインストールする最も簡単な方法です。これを行うには、次のコマンドを実行します:

pip install aspose-html-net

Python ライブラリのインストールとシステム要件の詳細については、 Aspose.HTML ドキュメントを参照してください。

その他のサポート機能

Aspose.HTML for Python via .NET ライブラリを使用して、HTML ベースのドキュメントを解析および操作します。明快、安全、シンプル！

Extract images from web page

Extract SVG from website

Extract tables from website