Como extrair tabela de HTML
A capacidade de extrair tabelas de HTML é importante para várias aplicações, como web scraping e análise de conteúdo. Aspose.HTML for .NET é uma biblioteca robusta que simplifica esse processo, oferecendo aos desenvolvedores um conjunto de ferramentas para navegar e coletar informações de documentos HTML de maneira integrada. Vamos explorar como extrair tabelas de documentos HTML.
Primeiro, certifique-se de ter Aspose.HTML for .NET instalado em seu projeto. O processo de instalação desta biblioteca é bastante simples. Abra o gerenciador de pacotes NuGet, procure Aspose.HTML e instale. Você também pode usar o seguinte comando do Console do Gerenciador de Pacotes:
Instale Aspose.HTML for .NET
Install-Package Aspose.HTML
Extraia tabelas HTML usando C#
Aspose.HTML for .NET API fornece um conjunto de ferramentas poderoso para analisar e coletar informações de documentos HTML. Você pode extrair tabelas HTML com algumas linhas de código C#. O exemplo a seguir mostra como encontrar todos os elementos <table>
em um documento HTML, criar arquivos HTML separados para cada tabela e salvá-los no diretório de saída. Cada arquivo HTML de saída contém apenas uma tabela do documento HTML de origem.
Código C# para extrair tabelas de HTML
using Aspose.Html;
using System.IO;
using System.Collections.Generic;
...
// Prepare a path to a source HTML file
string documentPath = Path.Combine(DataDir, "tables.html");
// Create an instance of an HTML document
using (var document = new HTMLDocument(documentPath))
{
var tables = document.GetElementsByTagName("table");
var result = new List<Dictionary<string, string>>();
var i = 0;
foreach (var table in tables)
{
// Save table to new html document
var newFileName = "table" + i + ".htm";
var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
newDoc.Save(Path.Combine(OutputDir, newFileName));
i++;
}
}
Etapas para extrair tabelas de HTML
- Use o construtor HTMLDocument() para inicializar um documento HTML. Passe o caminho do arquivo HTML de origem como parâmetro para o construtor.
- Use o método
GetElementsByTagName(
"table"
) para coletar todos os elementos<table>
. O método retorna uma lista dos elementos<table>
do documento HTML. - Inicie um loop para iterar cada elemento da tabela:
- Crie um novo nome de arquivo para o arquivo da tabela HTML.
- Use o construtor
HTMLDocument(
content, baseUri
) para criar uma nova instância de um documento HTML usando a propriedadeOuterHTML
do elemento da tabela e um novo nome de arquivo. - Salve o documento HTML recém-criado no diretório de saída usando o método Save() .
Para saber mais sobre a API Aspose.HTML, visite nosso guia documentação . Aspose.HTML for .NET é uma biblioteca avançada de análise de HTML que permite criar, editar e converter arquivos HTML, XHTML, MD, EPUB e MHTML. A seção de documentação Data Extraction descreve como inspecionar, coletar e extrair automaticamente dados de páginas da web usando Aspose.HTML for .NET. Nos artigos desta seção, você aprenderá como navegar em um documento HTML e realizar uma inspeção detalhada de seus elementos, salvar um site ou arquivo de uma URL, extrair diferentes tipos de imagens de sites e muito mais.
Gerador de Tabela HTML – Aplicativo Online
Aspose.HTML oferece o Gerador de tabelas HTML que é um aplicativo online para criação de tabelas com opções personalizáveis. É gratuito e fácil de usar. Basta preencher todas as opções obrigatórias e obter o resultado! O Gerador de Tabela HTML cria automaticamente o código da tabela HTML. Esta ferramenta foi projetada para permitir que você obtenha uma tabela HTML necessária e a coloque online o mais rápido possível.
Outros recursos da biblioteca C# com suporte
Use a biblioteca Aspose.HTML for .NET para analisar e manipular documentos baseados em HTML. Claro, seguro e simples!