Як витягти таблицю з сайту
Здатність видобувати таблиці з HTML важлива для різних завдань, таких як веб-збирання та аналіз вмісту. Aspose.HTML для .NET – це надійна бібліотека, яка спрощує цей процес, пропонуючи розробникам набір інструментів для легкої навігації та збору інформації з документів HTML. Давайте розберемося, як отримати таблиці з сайту.
По-перше, переконайтеся, що у вашому проекті встановлено Aspose.HTML для .NET . Процес додавання цієї бібліотеки досить простий. Відкрийте менеджер пакетів NuGet, знайдіть Aspose.HTML і встановіть. Ви також можете використати таку команду з консолі диспетчера пакетів:
Встановіть Aspose.HTML для .NET
Install-Package Aspose.HTML
Видобути таблицю з веб-сайту за допомогою C#
Ви можете отримати таблиці з веб-сайту за допомогою кількох рядків коду C#. У наступному прикладі показано, як знайти всі елементи <table>
в документі HTML, створити окремі файли HTML для кожної таблиці та зберегти їх у вихідному каталозі.
Код C# для вилучення таблиць із веб-сайту
using Aspose.Html;
using System.IO;
using System.Linq;
using System.Collections.Generic;
...
// Open a document you want to download tables from
using var document = new HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/");
{
// Check if there are any table elements in the document
var tables = document.GetElementsByTagName("table");
if (tables.Any())
{
var result = new List<Dictionary<string, string>>();
var i = 0;
foreach (var table in tables)
{
// Save table to new html document
var newFileName = "table" + i + ".htm";
var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
newDoc.Save(Path.Combine(OutputDir, newFileName));
i++;
}
}
else
{
// Handle the case where no tables are found
Console.WriteLine("No tables found in the document.");
}
}
Кроки для вилучення таблиць із веб-сайту
У цьому прикладі C# показано, як видобувати таблиці з веб-сайту та зберігати кожну таблицю як окремий файл HTML. Приклад містить кроки для обробки сценаріїв, коли таблиці як присутні, так і відсутні в документі.
- Використовуйте конструктор HTMLDocument() , щоб ініціалізувати документ HTML. Конструктор приймає як параметр URL-адресу веб-сайту, з якого ви хочете завантажити таблиці.
- Використовуйте метод
GetElementsByTagName(
"table"
) , щоб отримати всі елементи<table>
з документа HTML. Зберігайте колекцію елементів таблиці в зміннійtables
. - Перевірте, чи містить документ елементи таблиці. Використовуйте метод
Any()
, щоб визначити, чи колекціяtables
містить елементи. Якщо знайдено таблиці:- Створіть нове ім’я файлу для файлу таблиці HTML.
- Використовуйте конструктор
HTMLDocument(
content, baseUri
) , щоб створити новий екземпляр HTML-документа за допомогою властивостіOuterHTML
елемента таблиці та нового імені файлу. - Збережіть щойно створений HTML-документ у вихідний каталог за допомогою методу Save() .
- Якщо документ не містить таблиць, виведіть на консоль повідомлення про те, що таблиць не знайдено.
Aspose.HTML для .NET – це вдосконалена бібліотека аналізу HTML, яка дозволяє створювати, редагувати та конвертувати файли HTML, XHTML, MD, EPUB і MHTML. У розділі документації Data Extraction даних описано, як автоматично перевіряти, збирати та витягувати дані з веб-сторінок за допомогою Aspose.HTML для .NET. У статтях цього розділу ви дізнаєтесь, як переміщатися по HTML-документу та виконувати детальну перевірку його елементів, як зберегти веб-сайт або файл із URL-адреси, як витягти різні типи зображень із веб-сайтів тощо.
Генератор таблиць HTML – онлайн-застосунок
Aspose.HTML пропонує Генератор таблиць HTML – онлайн-програму для створення таблиць із настроюваними параметрами. Це безкоштовно та зрозуміло у використанні. Просто заповніть усі необхідні параметри та отримайте результат! Генератор таблиць HTML автоматично створює код таблиці HTML. Цей інструмент був розроблений, щоб дозволити вам отримати необхідну таблицю HTML і якомога швидше розмістити її онлайн.
Інші підтримувані функції бібліотеки C#
Використовуйте бібліотеку Aspose.HTML для .NET для аналізу та обробки документів на основі HTML. Зрозуміло, безпечно і просто!