Как извлечь данные из HTML таблицы

Таблицы HTML широко используются в Интернете для отображения информации. Извлечение данных из HTML-таблиц часто используется при веб-скрапинге, анализе данных и автоматизации. При создании парсеров часто необходимо извлечение данных из таблицы HTML и преобразование их в структурированный формат, например JSON, CSV или Excel. Давайте рассмотрим, как извлечь данные из HTML таблицы.

Сначала убедитесь, что в вашем проекте установлена Aspose.HTML for .NET. Процесс установки этой библиотеки довольно прост. Вы можете инсталлировать её через консоль диспетчера пакетов NuGet, используя следующую команду:


Установите Aspose.HTML для .NET.

Install-Package Aspose.HTML



Извлечение данных из HTML таблицы с помощью C#

Aspose.HTML for .NET – это надежная библиотека, предоставляющая мощный набор инструментов для анализа и сбора информации из HTML-документов. В следующем примере показано, как найти все элементы <table> в документе HTML, извлечь данные таблицы и вывести их в формате JSON. Допустим, HTML таблица содержит список тестов, где каждый тест имеет идентификатор, имя, комментарий к нему и гиперссылку на содержимое теста. Это информация, которую мы хотим извлечь из таблицы в следующем примере:


Код C# для извлечения данных из таблицы HTML

using Aspose.Html;
using System.IO;
using System.Linq;
using System.Text.Json;
using System.Collections.Generic;
...

    // Open the document from which you want to extract table data
    using var document = new HTMLDocument(Path.Combine(DataDir, "chapter-9.htm"));
    {
        // Check if there are any table elements in the document
        var tables = document.GetElementsByTagName("table");

        if (tables.Any())
        {
            var result = new List<Dictionary<string, string>>();
            //var i = 0;
            foreach (var table in tables)
            {
                // extract data from html table
                var tbodies = table.GetElementsByTagName("tbody");

                foreach (var tbody in tbodies)
                {
                    if (tbody.Children.Length > 1)
                    {
                        foreach (var row in tbody.Children)
                        {
                            if (row.HasAttribute("id"))
                            {
                                //test row
                                var data = new Dictionary<string, string>();

                                data["Id"] = row.GetAttribute("id");
                                if (row.Children.Length > 0)
                                {
                                    var td = row.Children[0];
                                    if (td.Children.Length > 0)
                                    {
                                        var element = td.Children[0].TagName == "STRONG"
                                            ? td.Children[0].Children[0]
                                            : td.Children[0];
                                        var href = ((HTMLAnchorElement)element).Href;
                                        data["Href"] = href;
                                        data["TestName"] = Path.GetFileNameWithoutExtension(href);
                                    }
                                }

                                data["TestComment"] = string.Join(" ",
                                    row.Children[3].TextContent
                                        .Split(new char[0], StringSplitOptions.RemoveEmptyEntries).ToList()
                                        .Select(x => x.Trim()));
                                result.Add(data);
                            }
                        }
                        var json = JsonSerializer.Serialize(result);
                        Console.WriteLine(json);
                    }
                }
            }
        }
        else
        {
            // Handle the case where no tables are found
            Console.WriteLine("No tables found in the document.");
        }
    }



Действия по извлечению данных из HTML таблицы

Выполнив эти шаги, вы можете извлечь данные из HTML таблицы, такие как гиперссылки и текстовое содержимое, для различных целей, включая анализ данных или составление отчетов.

  1. Используйте конструктор HTMLDocument() для инициализации HTML-документа. Передайте конструктору путь к исходному HTML-файлу в качестве параметра.
  2. Используйте метод GetElementsByTagName("table") для сбора всех элементов <table>. Метод возвращает список элементов <table> HTML-документа. Сохраните коллекцию элементов таблицы в переменной tables.
  3. Используйте метод LINQ Any(), чтобы проверить, есть ли в HTML-документе какие-либо элементы <table>. Это гарантирует наличие таблиц для извлечения данных.
  4. Переберите каждую таблицу, найденную в документе, используя цикл foreach:
    • Используйте метод GetElementsByTagName("tbody") для получения всех элементов <tbody> (тела таблицы).
    • Внутри цикла выполните итерацию по каждому элементу <tbody>, чтобы получить доступ к строкам данных, полученным с помощью другого цикла foreach.
    • Извлекайте соответствующие данные из каждой строки на основе определенных условий или атрибутов.
    • После извлечения данных из всех строк используйте метод JsonSerializer.Serialize() для сериализации списка словарей, содержащих извлеченные данные, в формат JSON.
  5. Используйте метод Console.WriteLine() для вывода сериализованного JSON для отображения в консоли.
  6. Если документ не содержит таблиц, выведите на консоль сообщение о том, что таблицы не найдены.

Генератор HTML-таблиц – онлайн-приложение

Aspose.HTML предлагает Генератор HTML-таблиц – онлайн-приложение для создания таблиц с настраиваемыми параметрами. Это бесплатно и понятно в использовании. Просто заполните все необходимые параметры и получите результат! Генератор таблиц HTML автоматически создает код таблицы HTML. Этот инструмент был разработан, чтобы вы могли получить необходимую HTML-таблицу и разместить ее в Интернете как можно быстрее.