如何从网页中提取表格
从网页中提取 HTML 表格是网络搜刮、数据分析和内容处理中的一项常见任务。使用
Aspose.HTML for Python via .NET
,开发人员可以轻松地自动完成从任何网页中查找、下载和保存<table>
元素的过程。对于需要从文章、报告或任何其他网页中处理结构化数据的人来说,这个强大的以编程方式提取表格的解决方案是理想之选。
使用 Python 提取表格
下面的 Python 代码演示了如何从网站下载 HTML 文档,识别其中的所有表格元素,并将每个表格导出到独立的 HTML 文件中,以供以后使用:
从网页下载表格的 Python 代码
import os
import aspose.html as ah
# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)
# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
# Get all <table> elements
tables = doc.get_elements_by_tag_name("table")
if tables.length > 0:
for i, table in enumerate(tables):
# Construct output file path
file_name = f"table{i}.htm"
file_path = os.path.join(output_dir, file_name)
# Create a new HTML document from the table's outer HTML
new_doc = ah.HTMLDocument(table.outer_html, file_path)
# Save the new document
new_doc.save(file_path)
else:
# Handle case where no tables are found
print("No tables found in the document.")
从网页中提取表格的步骤
- 使用
HTMLDocument(url)
构造函数从指定的 URL 打开 HTML 文档。该文档是提取
<table>
元素的源文件。 - 调用
get_elements_by_tag_name(“table”)
方法从 HTML 文档中收集所有
<table>
元素。 - 检查是否找到任何表格。如果存在表格,则开始循环遍历每个表格元素。
- 为每个表创建唯一的文件名。
- 使用表格元素的
outer_html
属性和输出路径创建一个新的HTMLDocument
用于保存。 - 使用
save()
方法保存包含单一表格的新 HTML 文档。
1.如果没有找到
<table>
元素,则打印一条信息,说明在文档中没有找到表格。
要进一步了解如何使用 Python 以编程方式从网络或任何 HTML 文档中提取不同类型的数据,请参阅文档中的 Data Extraction in Python 章节。本章就如何使用 Aspose.HTML for Python via .NET API 从 HTML 中自动检查、捕获和提取有价值的数据提供了实用指导。它涵盖了一些基本主题,如使用 CSS 选择器和 XPath 导航 HTML 文档,以及下载和保存远程资源(如图像、SVG 图形和其他文件)。
开始使用 Python API
如果您想要解析、操作和管理 HTML 文档,请安装我们灵活、高速的 Aspose.HTML for Python via .NET API。pip
是下载和安装 Python 库的最简单方法。为此,请运行以下命令:
pip install aspose-html-net
有关 Python 库安装和系统要求的更多详细信息,请参阅 Aspose.HTML 文档。
其他支持的功能
使用 Aspose.HTML for Python via .NET 库来解析和操作基于 HTML 的文档。清晰、安全、简单!