Як витягти таблицю з HTML
Здатність видобувати таблиці з HTML важлива для різних програм, таких як веб-збирання та аналіз вмісту. Aspose.HTML for .NET – це надійна бібліотека, яка спрощує цей процес, пропонуючи розробникам набір інструментів для легкої навігації та збору інформації з документів HTML. Давайте дослідимо, як витягувати таблиці з документів HTML.
По-перше, переконайтеся, що у вашому проекті встановлено Aspose.HTML for .NET . Процес додавання цієї бібліотеки досить простий. Відкрийте менеджер пакетів NuGet, знайдіть Aspose.HTML і встановіть. Ви також можете використати таку команду з консолі диспетчера пакетів:
Встановіть Aspose.HTML for .NET
Install-Package Aspose.HTML
Видобути таблицю з HTML на C#
API Aspose.HTML for .NET надає потужний набір інструментів для аналізу та збору інформації з документів HTML. Ви можете витягти таблиці HTML за допомогою кількох рядків коду C#. У наступному прикладі показано, як знайти всі елементи <table>
в документі HTML, створити окремі файли HTML для кожної таблиці та зберегти їх у вихідному каталозі. Кожен вихідний файл HTML містить лише одну таблицю з вихідного документа HTML.
Код C# для вилучення таблиць з HTML
using Aspose.Html;
using System.IO;
using System.Collections.Generic;
...
// Prepare a path to a source HTML file
string documentPath = Path.Combine(DataDir, "tables.html");
// Create an instance of an HTML document
using (var document = new HTMLDocument(documentPath))
{
var tables = document.GetElementsByTagName("table");
var result = new List<Dictionary<string, string>>();
var i = 0;
foreach (var table in tables)
{
// Save table to new html document
var newFileName = "table" + i + ".htm";
var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
newDoc.Save(Path.Combine(OutputDir, newFileName));
i++;
}
}
Кроки для вилучення таблиць із HTML
- Використовуйте конструктор HTMLDocument() , щоб ініціалізувати документ HTML.
- Використовуйте метод
GetElementsByTagName(
"table"
) , щоб зібрати всі елементи<table>
. Метод повертає список елементів<table>
документа HTML. - Запустіть цикл для перебирання кожного елемента таблиці:
- Створіть нове ім’я файлу для файлу таблиці HTML.
- Використовуйте конструктор
HTMLDocument(
content, baseUri
) , щоб створити новий екземпляр HTML-документа за допомогою властивостіOuterHTML
елемента таблиці та нового імені файлу. - Збережіть щойно створений HTML-документ у вихідний каталог за допомогою методу Save() .
Щоб дізнатися більше про API Aspose.HTML, відвідайте наш посібник із документації . Aspose.HTML for .NET – це вдосконалена бібліотека аналізу HTML, яка дозволяє створювати, редагувати та конвертувати файли HTML, XHTML, MD, EPUB і MHTML. У розділі документації Data Extraction даних описано, як автоматично перевіряти, збирати та витягувати дані з веб-сторінок за допомогою Aspose.HTML for .NET. У статтях цього розділу ви дізнаєтесь, як переміщатися по HTML-документу та виконувати детальну перевірку його елементів, як зберегти веб-сайт або файл із URL-адреси, як витягти різні типи зображень із веб-сайтів тощо.
Генератор таблиць HTML – онлайн-програма
Aspose.HTML пропонує Генератор таблиць HTML – онлайн-програму для створення таблиць із настроюваними параметрами. Це безкоштовно та зрозуміло у використанні. Просто заповніть усі необхідні параметри та отримайте результат! Генератор таблиць HTML автоматично створює код таблиці HTML. Цей інструмент був розроблений, щоб дозволити вам отримати необхідну таблицю HTML і якомога швидше розмістити її онлайн.
Інші підтримувані функції бібліотеки C#
Використовуйте бібліотеку Aspose.HTML for .NET для аналізу та обробки документів на основі HTML. Зрозуміло, безпечно і просто!