Como extrair tabela de HTML

A capacidade de extrair tabelas de HTML é importante para várias aplicações, como web scraping e análise de conteúdo. Aspose.HTML for .NET é uma biblioteca robusta que simplifica esse processo, oferecendo aos desenvolvedores um conjunto de ferramentas para navegar e coletar informações de documentos HTML de maneira integrada. Vamos explorar como extrair tabelas de documentos HTML.

Primeiro, certifique-se de ter Aspose.HTML for .NET instalado em seu projeto. O processo de instalação desta biblioteca é bastante simples. Abra o gerenciador de pacotes NuGet, procure Aspose.HTML e instale. Você também pode usar o seguinte comando do Console do Gerenciador de Pacotes:


Instale Aspose.HTML para .NET

Install-Package Aspose.HTML



Extraia tabelas HTML usando C#

Aspose.HTML for .NET API fornece um conjunto de ferramentas poderoso para analisar e coletar informações de documentos HTML. Você pode extrair tabelas HTML com algumas linhas de código C#. O exemplo a seguir mostra como encontrar todos os elementos <table> em um documento HTML, criar arquivos HTML separados para cada tabela e salvá-los no diretório de saída. Cada arquivo HTML de saída contém apenas uma tabela do documento HTML de origem.


Código C# para extrair tabelas de HTML

using Aspose.Html;
using System.IO;
using System.Collections.Generic;
...

    // Prepare a path to a source HTML file
    string documentPath = Path.Combine(DataDir, "tables.html");

    // Create an instance of an HTML document
    using (var document = new HTMLDocument(documentPath))
    {
        var tables = document.GetElementsByTagName("table");
        var result = new List<Dictionary<string, string>>();
        var i = 0;
        foreach (var table in tables)
        {
            // Save table to new html document
            var newFileName = "table" + i + ".htm";
            var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
            newDoc.Save(Path.Combine(OutputDir, newFileName));
            i++;
        }
    }



Etapas para extrair tabelas de HTML

  1. Use o construtor HTMLDocument() para inicializar um documento HTML. Passe o caminho do arquivo HTML de origem como parâmetro para o construtor.
  2. Use o método GetElementsByTagName("table") para coletar todos os elementos <table>. O método retorna uma lista dos elementos <table> do documento HTML.
  3. Inicie um loop para iterar cada elemento da tabela:
    • Crie um novo nome de arquivo para o arquivo da tabela HTML.
    • Use o construtor HTMLDocument(content, baseUri) para criar uma nova instância de um documento HTML usando a propriedade OuterHTML do elemento da tabela e um novo nome de arquivo.
    • Salve o documento HTML recém-criado no diretório de saída usando o método Save() .

Para saber mais sobre a API Aspose.HTML, visite nosso guia documentação . Aspose.HTML for .NET é uma biblioteca avançada de análise de HTML que permite criar, editar e converter arquivos HTML, XHTML, MD, EPUB e MHTML. A seção de documentação Data Extraction descreve como inspecionar, coletar e extrair automaticamente dados de páginas da web usando Aspose.HTML for .NET. Nos artigos desta seção, você aprenderá como navegar em um documento HTML e realizar uma inspeção detalhada de seus elementos, salvar um site ou arquivo de uma URL, extrair diferentes tipos de imagens de sites e muito mais.



Gerador de Tabela HTML – Aplicativo Online

Aspose.HTML oferece o Gerador de tabelas HTML que é um aplicativo online para criação de tabelas com opções personalizáveis. É gratuito e fácil de usar. Basta preencher todas as opções obrigatórias e obter o resultado! O Gerador de Tabela HTML cria automaticamente o código da tabela HTML. Esta ferramenta foi projetada para permitir que você obtenha uma tabela HTML necessária e a coloque online o mais rápido possível.

Outros recursos da biblioteca C# com suporte

Use a biblioteca Aspose.HTML for .NET para analisar e manipular documentos baseados em HTML. Claro, seguro e simples!