Як витягти таблицю з HTML

Здатність видобувати таблиці з HTML важлива для різних програм, таких як веб-збирання та аналіз вмісту. Aspose.HTML for .NET – це надійна бібліотека, яка спрощує цей процес, пропонуючи розробникам набір інструментів для легкої навігації та збору інформації з документів HTML. Давайте дослідимо, як витягувати таблиці з документів HTML.

По-перше, переконайтеся, що у вашому проекті встановлено Aspose.HTML for .NET . Процес додавання цієї бібліотеки досить простий. Відкрийте менеджер пакетів NuGet, знайдіть Aspose.HTML і встановіть. Ви також можете використати таку команду з консолі диспетчера пакетів:


Встановіть Aspose.HTML for .NET

Install-Package Aspose.HTML



Видобути таблицю з HTML на C#

API Aspose.HTML for .NET надає потужний набір інструментів для аналізу та збору інформації з документів HTML. Ви можете витягти таблиці HTML за допомогою кількох рядків коду C#. У наступному прикладі показано, як знайти всі елементи <table> в документі HTML, створити окремі файли HTML для кожної таблиці та зберегти їх у вихідному каталозі. Кожен вихідний файл HTML містить лише одну таблицю з вихідного документа HTML.


Код C# для вилучення таблиць з HTML

using Aspose.Html;
using System.IO;
using System.Collections.Generic;
...

    // Prepare a path to a source HTML file
    string documentPath = Path.Combine(DataDir, "tables.html");

    // Create an instance of an HTML document
    using (var document = new HTMLDocument(documentPath))
    {
        var tables = document.GetElementsByTagName("table");
        var result = new List<Dictionary<string, string>>();
        var i = 0;
        foreach (var table in tables)
        {
            // Save table to new html document
            var newFileName = "table" + i + ".htm";
            var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
            newDoc.Save(Path.Combine(OutputDir, newFileName));
            i++;
        }
    }



Кроки для вилучення таблиць із HTML

  1. Використовуйте конструктор HTMLDocument() , щоб ініціалізувати документ HTML.
  2. Використовуйте метод GetElementsByTagName("table") , щоб зібрати всі елементи <table>. Метод повертає список елементів <table> документа HTML.
  3. Запустіть цикл для перебирання кожного елемента таблиці:
    • Створіть нове ім’я файлу для файлу таблиці HTML.
    • Використовуйте конструктор HTMLDocument(content, baseUri) , щоб створити новий екземпляр HTML-документа за допомогою властивості OuterHTML елемента таблиці та нового імені файлу.
    • Збережіть щойно створений HTML-документ у вихідний каталог за допомогою методу Save() .

Щоб дізнатися більше про API Aspose.HTML, відвідайте наш посібник із документації . Aspose.HTML for .NET – це вдосконалена бібліотека аналізу HTML, яка дозволяє створювати, редагувати та конвертувати файли HTML, XHTML, MD, EPUB і MHTML. У розділі документації Data Extraction даних описано, як автоматично перевіряти, збирати та витягувати дані з веб-сторінок за допомогою Aspose.HTML for .NET. У статтях цього розділу ви дізнаєтесь, як переміщатися по HTML-документу та виконувати детальну перевірку його елементів, як зберегти веб-сайт або файл із URL-адреси, як витягти різні типи зображень із веб-сайтів тощо.



Генератор таблиць HTML – онлайн-програма

Aspose.HTML пропонує Генератор таблиць HTML – онлайн-програму для створення таблиць із настроюваними параметрами. Це безкоштовно та зрозуміло у використанні. Просто заповніть усі необхідні параметри та отримайте результат! Генератор таблиць HTML автоматично створює код таблиці HTML. Цей інструмент був розроблений, щоб дозволити вам отримати необхідну таблицю HTML і якомога швидше розмістити її онлайн.

Інші підтримувані функції бібліотеки C#

Використовуйте бібліотеку Aspose.HTML for .NET для аналізу та обробки документів на основі HTML. Зрозуміло, безпечно і просто!