Як витягти таблицю з сайту

Здатність видобувати таблиці з HTML важлива для різних завдань, таких як веб-збирання та аналіз вмісту. Aspose.HTML для .NET – це надійна бібліотека, яка спрощує цей процес, пропонуючи розробникам набір інструментів для легкої навігації та збору інформації з документів HTML. Давайте розберемося, як отримати таблиці з сайту.

По-перше, переконайтеся, що у вашому проекті встановлено Aspose.HTML для .NET . Процес додавання цієї бібліотеки досить простий. Відкрийте менеджер пакетів NuGet, знайдіть Aspose.HTML і встановіть. Ви також можете використати таку команду з консолі диспетчера пакетів:


Встановіть Aspose.HTML для .NET

Install-Package Aspose.HTML



Видобути таблицю з веб-сайту за допомогою C#

Ви можете отримати таблиці з веб-сайту за допомогою кількох рядків коду C#. У наступному прикладі показано, як знайти всі елементи <table> в документі HTML, створити окремі файли HTML для кожної таблиці та зберегти їх у вихідному каталозі.


Код C# для вилучення таблиць із веб-сайту

using Aspose.Html;
using System.IO;
using System.Linq;
using System.Collections.Generic;
...

    // Open a document you want to download tables from
    using var document = new HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/");
    { 
        // Check if there are any table elements in the document
        var tables = document.GetElementsByTagName("table");

        if (tables.Any())
        {
            var result = new List<Dictionary<string, string>>();
            var i = 0;
            foreach (var table in tables)
            {
                // Save table to new html document
                var newFileName = "table" + i + ".htm";
                var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
                newDoc.Save(Path.Combine(OutputDir, newFileName));
                i++;
            }
        }
        else
        {
            // Handle the case where no tables are found
            Console.WriteLine("No tables found in the document.");
        }
    }



Кроки для вилучення таблиць із веб-сайту

У цьому прикладі C# показано, як видобувати таблиці з веб-сайту та зберігати кожну таблицю як окремий файл HTML. Приклад містить кроки для обробки сценаріїв, коли таблиці як присутні, так і відсутні в документі.

  1. Використовуйте конструктор HTMLDocument() , щоб ініціалізувати документ HTML. Конструктор приймає як параметр URL-адресу веб-сайту, з якого ви хочете завантажити таблиці.
  2. Використовуйте метод GetElementsByTagName("table") , щоб отримати всі елементи <table> з документа HTML. Зберігайте колекцію елементів таблиці в змінній tables.
  3. Перевірте, чи містить документ елементи таблиці. Використовуйте метод Any(), щоб визначити, чи колекція tables містить елементи. Якщо знайдено таблиці:
    • Створіть нове ім’я файлу для файлу таблиці HTML.
    • Використовуйте конструктор HTMLDocument(content, baseUri) , щоб створити новий екземпляр HTML-документа за допомогою властивості OuterHTML елемента таблиці та нового імені файлу.
    • Збережіть щойно створений HTML-документ у вихідний каталог за допомогою методу Save() .
  4. Якщо документ не містить таблиць, виведіть на консоль повідомлення про те, що таблиць не знайдено.

Aspose.HTML для .NET – це вдосконалена бібліотека аналізу HTML, яка дозволяє створювати, редагувати та конвертувати файли HTML, XHTML, MD, EPUB і MHTML. У розділі документації Data Extraction даних описано, як автоматично перевіряти, збирати та витягувати дані з веб-сторінок за допомогою Aspose.HTML для .NET. У статтях цього розділу ви дізнаєтесь, як переміщатися по HTML-документу та виконувати детальну перевірку його елементів, як зберегти веб-сайт або файл із URL-адреси, як витягти різні типи зображень із веб-сайтів тощо.



Генератор таблиць HTML – онлайн-застосунок

Aspose.HTML пропонує Генератор таблиць HTML – онлайн-програму для створення таблиць із настроюваними параметрами. Це безкоштовно та зрозуміло у використанні. Просто заповніть усі необхідні параметри та отримайте результат! Генератор таблиць HTML автоматично створює код таблиці HTML. Цей інструмент був розроблений, щоб дозволити вам отримати необхідну таблицю HTML і якомога швидше розмістити її онлайн.

Інші підтримувані функції бібліотеки C#

Використовуйте бібліотеку Aspose.HTML для .NET для аналізу та обробки документів на основі HTML. Зрозуміло, безпечно і просто!