如何从网页中提取表格

从网页中提取 HTML 表格是网络搜刮、数据分析和内容处理中的一项常见任务。使用 Aspose.HTML for Python via .NET ,开发人员可以轻松地自动完成从任何网页中查找、下载和保存<table>元素的过程。对于需要从文章、报告或任何其他网页中处理结构化数据的人来说,这个强大的以编程方式提取表格的解决方案是理想之选。


使用 Python 提取表格

下面的 Python 代码演示了如何从网站下载 HTML 文档,识别其中的所有表格元素,并将每个表格导出到独立的 HTML 文件中,以供以后使用:


从网页下载表格的 Python 代码

import os
import aspose.html as ah

# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
    # Get all <table> elements
    tables = doc.get_elements_by_tag_name("table")

    if tables.length > 0:
        for i, table in enumerate(tables):
            # Construct output file path
            file_name = f"table{i}.htm"
            file_path = os.path.join(output_dir, file_name)

            # Create a new HTML document from the table's outer HTML
            new_doc = ah.HTMLDocument(table.outer_html, file_path)

            # Save the new document
            new_doc.save(file_path)
    else:
        # Handle case where no tables are found
        print("No tables found in the document.")


从网页中提取表格的步骤

  1. 使用 HTMLDocument(url) 构造函数从指定的 URL 打开 HTML 文档。该文档是提取 <table> 元素的源文件。
  2. 调用 get_elements_by_tag_name(“table”) 方法从 HTML 文档中收集所有 <table> 元素。
  3. 检查是否找到任何表格。如果存在表格,则开始循环遍历每个表格元素。
    • 为每个表创建唯一的文件名。
    • 使用表格元素的 outer_html 属性和输出路径创建一个新的 HTMLDocument 用于保存。
    • 使用 save() 方法保存包含单一表格的新 HTML 文档。 1.如果没有找到 <table> 元素,则打印一条信息,说明在文档中没有找到表格。

要进一步了解如何使用 Python 以编程方式从网络或任何 HTML 文档中提取不同类型的数据,请参阅文档中的 Data Extraction in Python 章节。本章就如何使用 Aspose.HTML for Python via .NET API 从 HTML 中自动检查、捕获和提取有价值的数据提供了实用指导。它涵盖了一些基本主题,如使用 CSS 选择器和 XPath 导航 HTML 文档,以及下载和保存远程资源(如图像、SVG 图形和其他文件)。



开始使用 Python API

如果您想要解析、操作和管理 HTML 文档,请安装我们灵活、高速的 Aspose.HTML for Python via .NET API。pip 是下载和安装 Python 库的最简单方法。为此,请运行以下命令:

pip install aspose-html-net

有关 Python 库安装和系统要求的更多详细信息,请参阅 Aspose.HTML 文档。

其他支持的功能

使用 Aspose.HTML for Python via .NET 库来解析和操作基于 HTML 的文档。清晰、安全、简单!