我可以使用 Aspose.HTML for Python via .NET 提取哪些类型的数据？

该库允许您处理各种类型的 Web 资源：嵌入式 HTML 页面元素、可通过 URL 直接访问的文件以及动态生成的内容。无论数据来自网页还是单独的链接，都可以通过编程方式进行访问和处理。

我需要加载整个网页才能获取 file 吗？

并非总是如此。如果 file 可通过直接 URL 获取，您可以立即下载并保存。只有当数据是页面结构的一部分时，才需要加载 HTML 文档。

我需要外部库或浏览器引擎来提取数据吗？

不需要。Aspose.HTML for Python via .NET 完全独立。所有解析、渲染和数据提取都在库内部完成，无需第三方工具。

HTML JPG PDF XML MHTML

用 Python 从 URL 保存文件

使用 Aspose.HTML for Python via .NET 从在线资源自动下载文件。

Download

如何从 URL 下载文件

从 URL 下载文件的能力对于各种应用(如网络搜刮和内容分析)来说非常重要。 Aspose.HTML for Python via .NET 是一个强大的库，它通过为开发人员提供一系列工具来无缝导航和收集 HTML 文档中的信息，从而简化了这一过程。让我们来探讨如何使用 Python 从 URL 保存文件。

使用 Python 从 URL 保存文件

下面的 Python 代码演示了如何使用 Aspose.HTML for Python via .NET 从指定的 URL 下载文件(如图像、PDF 或任何其他资源)。代码创建了一个空的 HTML 文档，仅用于访问网络上下文，使用 URL 发出文件请求，并在响应成功时下载资源。然后使用原始文件名将检索到的内容保存到本地输出目录中：

从 URL 下载文件的 Python 代码

import os
import aspose.html as ah
import aspose.html.net as ahnet

# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Create a blank document
doc = ah.HTMLDocument()

# Create a URL with the path to the resource you want to save
url = ah.Url("https://docs.aspose.com/html/images/handlers/message-handlers.png")

# Create a file request message
request = ahnet.RequestMessage(url)

# Extract file from URL
response = doc.context.network.send(request)

# Check whether the response is successful
if response.is_success:
    # Save the file to a local file system
    file_path = os.path.join(output_dir, os.path.basename(url.pathname))
    with open(file_path, "wb") as file:
        file.write(response.content.read_as_byte_array())

从 URL 保存文件的步骤

1.使用 HTMLDocument() 构造函数创建一个 HTMLDocument 类的空实例。这一步是在文档上下文中启用网络访问所必需的。 2.创建一个 Url 类实例，其中包含要保存的资源的路径。 3.使用 Url 实例创建一个 RequestMessage 对象。该对象代表用于获取远程文件的 HTTP 请求。 4.从指定的 URL 发送请求并接收响应。检查响应的 is_success 属性，以确保成功检索到文件。 5.使用 os.path.basename(url.pathname) 从 URL 中提取文件名，并定义输出路径。 6.通过打开二进制文件流并使用 response.content.read_as_byte_array() 写入内容，将文件保存到本地文件系统。

从 URL 下载文件有助于在网络连接受限时进行离线访问，有助于协作和共享内容，有助于存档和备份以防止数据丢失，也有助于存储重要资源(如文档、图像、视频或音频文件)以备将来使用。它也是远程访问教育资料的有用方法，让您可以随时随地学习，甚至在通勤或旅行时。

要进一步了解如何使用 Python 以编程方式从 URL 下载文件，请参阅文档文章 Save File from URL in Python 。

注：在将保存的文件用于商业用途之前，必须尊重版权法并获得适当的许可或授权。未经他人同意，我们不支持提取和使用他人文件用于商业目的。