Как извлечь данные из HTML таблицы
Таблицы HTML широко используются в Интернете для отображения информации. Извлечение данных из HTML-таблиц часто используется при веб-скрапинге, анализе данных и автоматизации. При создании парсеров часто необходимо извлечение данных из таблицы HTML и преобразование их в структурированный формат, например JSON, CSV или Excel. Давайте рассмотрим, как извлечь данные из HTML таблицы.
Сначала убедитесь, что в вашем проекте установлена Aspose.HTML for .NET. Процесс установки этой библиотеки довольно прост. Вы можете инсталлировать её через консоль диспетчера пакетов NuGet, используя следующую команду:
Установите Aspose.HTML for .NET.
Install-Package Aspose.HTML
Извлечение данных из HTML таблицы с помощью C#
Aspose.HTML for .NET
– это надежная библиотека, предоставляющая мощный набор инструментов для анализа и сбора информации из HTML-документов. В следующем примере показано, как найти все элементы <table>
в документе HTML, извлечь данные таблицы и вывести их в формате JSON. Допустим, HTML таблица содержит список тестов, где каждый тест имеет идентификатор, имя, комментарий к нему и гиперссылку на содержимое теста. Это информация, которую мы хотим извлечь из таблицы в следующем примере:
Код C# для извлечения данных из таблицы HTML
using Aspose.Html;
using System.IO;
using System.Linq;
using System.Text.Json;
using System.Collections.Generic;
...
// Open the document from which you want to extract table data
using var document = new HTMLDocument(Path.Combine(DataDir, "chapter-9.htm"));
{
// Check if there are any table elements in the document
var tables = document.GetElementsByTagName("table");
if (tables.Any())
{
var result = new List<Dictionary<string, string>>();
//var i = 0;
foreach (var table in tables)
{
// extract data from html table
var tbodies = table.GetElementsByTagName("tbody");
foreach (var tbody in tbodies)
{
if (tbody.Children.Length > 1)
{
foreach (var row in tbody.Children)
{
if (row.HasAttribute("id"))
{
//test row
var data = new Dictionary<string, string>();
data["Id"] = row.GetAttribute("id");
if (row.Children.Length > 0)
{
var td = row.Children[0];
if (td.Children.Length > 0)
{
var element = td.Children[0].TagName == "STRONG"
? td.Children[0].Children[0]
: td.Children[0];
var href = ((HTMLAnchorElement)element).Href;
data["Href"] = href;
data["TestName"] = Path.GetFileNameWithoutExtension(href);
}
}
data["TestComment"] = string.Join(" ",
row.Children[3].TextContent
.Split(new char[0], StringSplitOptions.RemoveEmptyEntries).ToList()
.Select(x => x.Trim()));
result.Add(data);
}
}
var json = JsonSerializer.Serialize(result);
Console.WriteLine(json);
}
}
}
}
else
{
// Handle the case where no tables are found
Console.WriteLine("No tables found in the document.");
}
}
Действия по извлечению данных из HTML таблицы
Выполнив эти шаги, вы можете извлечь данные из HTML таблицы, такие как гиперссылки и текстовое содержимое, для различных целей, включая анализ данных или составление отчетов.
- Используйте конструктор HTMLDocument() для инициализации HTML-документа. Передайте конструктору путь к исходному HTML-файлу в качестве параметра.
- Используйте метод
GetElementsByTagName(
"table"
) для сбора всех элементов<table>
. Метод возвращает список элементов<table>
HTML-документа. Сохраните коллекцию элементов таблицы в переменнойtables
. - Используйте метод LINQ
Any()
, чтобы проверить, есть ли в HTML-документе какие-либо элементы<table>
. Это гарантирует наличие таблиц для извлечения данных. - Переберите каждую таблицу, найденную в документе, используя цикл
foreach
:- Используйте метод
GetElementsByTagName("tbody")
для получения всех элементов<tbody>
(тела таблицы). - Внутри цикла выполните итерацию по каждому элементу
<tbody>
, чтобы получить доступ к строкам данных, полученным с помощью другого циклаforeach
. - Извлекайте соответствующие данные из каждой строки на основе определенных условий или атрибутов.
- После извлечения данных из всех строк используйте метод
JsonSerializer.Serialize()
для сериализации списка словарей, содержащих извлеченные данные, в формат JSON.
- Используйте метод
- Используйте метод
Console.WriteLine()
для вывода сериализованного JSON для отображения в консоли. - Если документ не содержит таблиц, выведите на консоль сообщение о том, что таблицы не найдены.
Генератор HTML-таблиц – онлайн-приложение
Aspose.HTML предлагает Генератор HTML-таблиц – онлайн-приложение для создания таблиц с настраиваемыми параметрами. Это бесплатно и понятно в использовании. Просто заполните все необходимые параметры и получите результат! Генератор таблиц HTML автоматически создает код таблицы HTML. Этот инструмент был разработан, чтобы вы могли получить необходимую HTML-таблицу и разместить ее в Интернете как можно быстрее.
Другие поддерживаемые функции библиотеки C#
Используйте библиотеку Aspose.HTML for .NET для анализа и управления документами на основе HTML. Понятно, безопасно и просто!