如何从网站中提取表格

从 HTML 中提取表格的能力对于各种应用程序(例如网页抓取和内容分析)非常重要。 Aspose.HTML for .NET 是一个强大的库,它为开发人员提供了一套工具来无缝导航和收集 HTML 文档中的信息,从而简化了这一过程。让我们探讨如何从网站中提取表格。

首先,确保您的项目中安装了 Aspose.HTML for .NET。 这个库的安装过程非常简单。 打开 NuGet 包管理器,搜索 Aspose.HTML,然后安装。 您还可以从包管理器控制台使用以下命令:


安装 Aspose.HTML for .NET

Install-Package Aspose.HTML



使用 C# 从网站中提取表

您可以使用几行 C# 代码从网站中提取表格。以下示例演示如何查找 HTML 文档中的所有<table>元素,为每个表创建单独的 HTML 文件,并将它们保存在输出目录中。


从网站提取表格的 C# 代码

using Aspose.Html;
using System.IO;
using System.Linq;
using System.Collections.Generic;
...

    // Open a document you want to download tables from
    using var document = new HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/");
    { 
        // Check if there are any table elements in the document
        var tables = document.GetElementsByTagName("table");

        if (tables.Any())
        {
            var result = new List<Dictionary<string, string>>();
            var i = 0;
            foreach (var table in tables)
            {
                // Save table to new html document
                var newFileName = "table" + i + ".htm";
                var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
                newDoc.Save(Path.Combine(OutputDir, newFileName));
                i++;
            }
        }
        else
        {
            // Handle the case where no tables are found
            Console.WriteLine("No tables found in the document.");
        }
    }



从网站提取表格的步骤

此 C# 示例演示如何从网站提取表格并将每个表格保存为单独的 HTML 文件。它包括处理文档中存在和不存在表格的情况的步骤。

  1. 使用 HTMLDocument() 构造函数初始化 HTML 文档。该构造函数将您要下载表格的网站的 URL 作为参数。
  2. 使用 GetElementsByTagName("table") 方法从 HTML 文档中检索所有 <table> 元素。将表元素的集合存储在tables变量中。
  3. 检查文档中是否包含表格元素。使用 Any() 方法确定 tables 集合是否包含任何元素。如果找到表:
    • 为 HTML 表格文件创建一个新文件名。
    • 使用 HTMLDocument(content, baseUri) 构造函数使用表元素的 OuterHTML 属性和新文件名创建 HTML 文档的新实例。
    • 使用 Save() 方法将新创建的 HTML 文档保存到输出目录。
  4. 如果文档不包含表格,则向控制台打印一条消息,指示未找到表格。

要了解有关 Aspose.HTML API 的更多信息,请访问我们的 文档 指南。 Aspose.HTML for .NET 是一个高级 HTML 解析库,允许您创建、编辑和转换 HTML、XHTML、MD、EPUB 和 MHTML 文件。 Data Extraction 文档部分介绍了如何使用 Aspose.HTML for .NET 自动检查、收集和提取网页中的数据。在本部分的文章中,您将了解如何导航 HTML 文档并对其元素执行详细检查、从 URL 保存网站或文件、从网站提取不同类型的图像等等。



HTML 表格生成器 – 在线应用程序

Aspose.HTML 提供的 HTML 表生成器 是一个在线应用程序,用于创建具有可自定义选项的表。它是免费且易于使用的。只需填写所有必填选项即可获得结果! HTML 表格生成器自动创建 HTML 表格代码。该工具旨在让您获得所需的 HTML 表格并尽快将其放到网上。