我可以使用 Aspose.HTML for Python via .NET 提取哪些类型的数据？

该库允许您处理各种类型的 Web 资源：嵌入式 HTML 页面元素、可通过 URL 直接访问的文件以及动态生成的内容。无论数据来自网页还是单独的链接，都可以通过编程方式进行访问和处理。

我需要加载整个网页才能获取 image 吗？

并非总是如此。如果 image 可通过直接 URL 获取，您可以立即下载并保存。只有当数据是页面结构的一部分时，才需要加载 HTML 文档。

我需要外部库或浏览器引擎来提取数据吗？

不需要。Aspose.HTML for Python via .NET 完全独立。所有解析、渲染和数据提取都在库内部完成，无需第三方工具。

HTML JPG PDF XML MHTML

用 Python 从网页中提取图像

快速、强大的解决方案，可通过编程从任何网站搜索和下载图片。

Download

如何从网页中提取图像

从 HTML 中提取图像的能力对于各种应用(包括网络搜刮和内容分析)至关重要。 Aspose.HTML for Python via .NET 是一个功能强大的库，它通过为开发人员提供一系列工具来无缝导航和收集 HTML 文档中的信息，从而简化了这一过程。这个功能强大的解决方案非常适合需要收集图像以进行分析、归档或内容创建的人–消除了手工操作的需要。让我们来探讨一下如何从网页中下载图像。

使用 Python 提取图像

使用 Aspose.HTML for Python via .NET，您可以轻松创建自己的应用程序，因为我们的 API 提供了一套强大的工具来解析和提取 HTML 文档中的信息。如果您想在自己的产品中使用 HTML 数据解析功能，或以编程方式从 HTML 中提取数据，请参阅下面的代码示例。

从网页下载图像的 Python 代码

import os
import aspose.html as ah
import aspose.html.net as ahnet

# Prepare output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open HTML document from URL
with ah.HTMLDocument("https://docs.aspose.com/svg/net/drawing-basics/svg-color/") as doc:
    # Collect all <img> elements
    images = doc.get_elements_by_tag_name("img")

    # Get distinct relative image URLs
    urls = set(img.get_attribute("src") for img in images)

    # Create absolute image URLs
    abs_urls = [ah.Url(url, doc.base_uri) for url in urls]

    for url in abs_urls:
        # Create a network request
        request = ahnet.RequestMessage(url.href)

        # Send request
        response = doc.context.network.send(request)

        # Check if successful
        if response.is_success:
            # Extract file name
            file_name = os.path.basename(url.pathname)

            # Save image locally
            with open(os.path.join(output_dir, file_name), "wb") as f:
                f.write(response.content.read_as_byte_array())

从网页中提取图像的步骤

使用 HTMLDocument 类打开目标 HTML 文档(网页)。该文档是提取图像的源文件。
调用 HTMLDocument 对象的 get_elements_by_tag_name(“img”) 方法来收集 HTML 文档中的所有 <img> 元素。
通过遍历 <img> 元素集合并使用 get_attribute(“src”) 方法访问每个元素的 src 属性，提取唯一的图像 URL。将这些 URL 保存在一个集合中，以确保没有重复的 URL。
将每个相对或不完整的 URL 与文档的 base_uri 一起传递给 Url 构造函数，从而创建绝对图像 URL。这样可以确保每个 URL 都是完整的，并且对网络访问有效。
为每个绝对图像 URL 创建一个 RequestMessage 对象，以表示获取图像数据所需的 HTTP 请求。
使用 doc.context.network.send(request) 方法发送请求并接收响应。通过评估 is_success 属性检查响应是否成功。
使用 os.path.basename() 解析绝对图像 URL 以提取文件名，然后通过将响应中的二进制数据写入文件，将图像内容保存到输出目录。

要进一步了解如何使用 Python 以编程方式从网站提取各种类型的图像，请参阅文档文章用 Python 从网站提取图像。

注：始终尊重版权法。在将提取的图片用于商业用途之前，请确保您拥有相应的权利、权限或许可证。我们不赞成或支持未经授权使用受版权保护的内容。

开始使用 Python API

如果您想要解析、操作和管理 HTML 文档，请安装我们灵活、高速的 Aspose.HTML for Python via .NET API。pip 是下载和安装 Python 库的最简单方法。为此，请运行以下命令：

pip install aspose-html-net

有关 Python 库安装和系统要求的更多详细信息，请参阅 Aspose.HTML 文档。

其他支持的功能

使用 Aspose.HTML for Python via .NET 库来解析和操作基于 HTML 的文档。清晰、安全、简单！