Как извлечь таблицу из HTML

Возможность извлекать таблицы из HTML важна для различных приложений, таких как парсинг веб-страниц и анализ контента. Aspose.HTML for .NET – это надежная библиотека, которая упрощает этот процесс, предлагая разработчикам набор инструментов для беспрепятственной навигации и сбора информации из документов HTML. Давайте рассмотрим, как извлекать таблицы из HTML-документов.

Сначала убедитесь, что в вашем проекте установлена Aspose.HTML for .NET. Процесс установки этой библиотеки довольно прост. Вы можете инсталлировать её через консоль диспетчера пакетов NuGet, используя следующую команду:


Установите Aspose.HTML for .NET.

Install-Package Aspose.HTML



Извлечение HTML-таблиц с помощью C#

Aspose.HTML for .NET API предоставляет мощный набор инструментов для анализа и сбора информации из HTML-документов. Таблицы HTML можно извлечь с помощью нескольких строк кода C#. В следующем примере показано, как найти все элементы <table> в документе HTML, создать отдельные файлы HTML для каждой таблицы и сохранить их в выходном каталоге. Каждый выходной HTML-файл будет содержать только одну таблицу из исходного HTML-документа.


Код C# для извлечения таблиц из HTML

using Aspose.Html;
using System.IO;
using System.Collections.Generic;
...

    // Prepare a path to a source HTML file
    string documentPath = Path.Combine(DataDir, "tables.html");

    // Create an instance of an HTML document
    using (var document = new HTMLDocument(documentPath))
    {
        var tables = document.GetElementsByTagName("table");
        var result = new List<Dictionary<string, string>>();
        var i = 0;
        foreach (var table in tables)
        {
            // Save table to new html document
            var newFileName = "table" + i + ".htm";
            var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
            newDoc.Save(Path.Combine(OutputDir, newFileName));
            i++;
        }
    }



Шаги по извлечению таблиц из HTML

  1. Используйте конструктор HTMLDocument() для инициализации HTML-документа. Передайте конструктору путь к исходному HTML-файлу в качестве параметра.
  2. Используйте метод GetElementsByTagName("table") для сбора всех элементов <table>. Метод возвращает список элементов <table> HTML-документа.
  3. Запустите цикл для перебора каждого элемента таблицы:
    • Создайте новое имя файла для файла таблицы HTML.
    • Используйте конструктор HTMLDocument(content, baseUri) , чтобы создать новый экземпляр HTML-документа, используя свойство OuterHTML элемента таблицы и новое имя файла.
    • Сохраните вновь созданный HTML-документ в выходной каталог, используя метод Save() .

В разделе документации Data Extraction – Извлечение данных описывается, как автоматически проверять, собирать и извлекать данные с веб-страниц с помощью Aspose.HTML for .NET. В статьях этого раздела вы узнаете, как перемещаться по HTML-документу и выполнять детальную проверку его элементов, как сохранить веб-сайт или файл по URL-адресу, как извлекать различные типы изображений с веб-сайтов и т. д.



Генератор HTML-таблиц – онлайн-приложение

Aspose.HTML предлагает Генератор HTML-таблиц – онлайн-приложение для создания таблиц с настраиваемыми параметрами. Это бесплатно и понятно в использовании. Просто заполните все необходимые параметры и получите результат! Генератор таблиц HTML автоматически создает код таблицы HTML. Этот инструмент был разработан, чтобы вы могли получить необходимую HTML-таблицу и разместить ее в Интернете как можно быстрее.