Como extrair tabela do site
A capacidade de extrair tabelas de HTML é importante para várias aplicações, como web scraping e análise de conteúdo. Aspose.HTML for .NET é uma biblioteca robusta que simplifica esse processo, oferecendo aos desenvolvedores um conjunto de ferramentas para navegar e coletar informações de documentos HTML de maneira integrada. Vamos explorar como extrair tabelas do site.
Primeiro, certifique-se de ter Aspose.HTML for .NET instalado em seu projeto. O processo de instalação desta biblioteca é bastante simples. Abra o gerenciador de pacotes NuGet, procure Aspose.HTML e instale. Você também pode usar o seguinte comando do Console do Gerenciador de Pacotes:
Instale Aspose.HTML for .NET
Install-Package Aspose.HTML
Extrair tabela do site usando C#
Você pode extrair tabelas do site com algumas linhas de código C#. O exemplo a seguir mostra como encontrar todos os elementos <table>
em um documento HTML, criar arquivos HTML separados para cada tabela e salvá-los no diretório de saída.
Código C# para extrair tabelas do site
using Aspose.Html;
using System.IO;
using System.Linq;
using System.Collections.Generic;
...
// Open a document you want to download tables from
using var document = new HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/");
{
// Check if there are any table elements in the document
var tables = document.GetElementsByTagName("table");
if (tables.Any())
{
var result = new List<Dictionary<string, string>>();
var i = 0;
foreach (var table in tables)
{
// Save table to new html document
var newFileName = "table" + i + ".htm";
var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
newDoc.Save(Path.Combine(OutputDir, newFileName));
i++;
}
}
else
{
// Handle the case where no tables are found
Console.WriteLine("No tables found in the document.");
}
}
Etapas para extrair tabelas do site
Este exemplo C# mostra como extrair tabelas do site e salvar cada tabela como um arquivo HTML separado. Inclui etapas para lidar com cenários em que as tabelas estão presentes e ausentes no documento.
- Use o construtor HTMLDocument() para inicializar um documento HTML.
- Use o método
GetElementsByTagName(
"table"
) para recuperar todos os elementos<table>
do documento HTML. Armazene uma coleção de elementos de tabela na variáveltables
. - Verifique se o documento contém algum elemento de tabela. Use o método
Any()
para determinar se a coleçãotables
contém algum elemento. Se tabelas forem encontradas:- Crie um novo nome de arquivo para o arquivo da tabela HTML.
- Use o construtor
HTMLDocument(
content, baseUri
) para criar uma nova instância de um documento HTML usando a propriedadeOuterHTML
do elemento da tabela e um novo nome de arquivo. - Salve o documento HTML recém-criado no diretório de saída usando o método Save() .
- Se o documento não contiver tabelas, imprima uma mensagem no console indicando que nenhuma tabela foi encontrada.
Para saber mais sobre a API Aspose.HTML, visite nosso guia documentação . Aspose.HTML for .NET é uma biblioteca avançada de análise de HTML que permite criar, editar e converter arquivos HTML, XHTML, MD, EPUB e MHTML. A seção de documentação Data Extraction descreve como inspecionar, coletar e extrair automaticamente dados de páginas da web usando Aspose.HTML for .NET. Nos artigos desta seção, você aprenderá como navegar em um documento HTML e realizar uma inspeção detalhada de seus elementos, salvar um site ou arquivo de uma URL, extrair diferentes tipos de imagens de sites e muito mais.
Gerador de Tabela HTML – Aplicativo Online
Aspose.HTML oferece o Gerador de tabelas HTML que é um aplicativo online para criação de tabelas com opções personalizáveis. É gratuito e fácil de usar. Basta preencher todas as opções obrigatórias e obter o resultado! O Gerador de Tabela HTML cria automaticamente o código da tabela HTML. Esta ferramenta foi projetada para permitir que você obtenha uma tabela HTML necessária e a coloque online o mais rápido possível.
Outros recursos da biblioteca C# com suporte
Use a biblioteca Aspose.HTML for .NET para analisar e manipular documentos baseados em HTML. Claro, seguro e simples!