Como extrair tabela do site

A capacidade de extrair tabelas de HTML é importante para várias aplicações, como web scraping e análise de conteúdo. Aspose.HTML for .NET é uma biblioteca robusta que simplifica esse processo, oferecendo aos desenvolvedores um conjunto de ferramentas para navegar e coletar informações de documentos HTML de maneira integrada. Vamos explorar como extrair tabelas do site.

Primeiro, certifique-se de ter Aspose.HTML for .NET instalado em seu projeto. O processo de instalação desta biblioteca é bastante simples. Abra o gerenciador de pacotes NuGet, procure Aspose.HTML e instale. Você também pode usar o seguinte comando do Console do Gerenciador de Pacotes:


Instale Aspose.HTML para .NET

Install-Package Aspose.HTML



Extrair tabela do site usando C#

Você pode extrair tabelas do site com algumas linhas de código C#. O exemplo a seguir mostra como encontrar todos os elementos <table> em um documento HTML, criar arquivos HTML separados para cada tabela e salvá-los no diretório de saída.


Código C# para extrair tabelas do site

using Aspose.Html;
using System.IO;
using System.Linq;
using System.Collections.Generic;
...

    // Open a document you want to download tables from
    using var document = new HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/");
    { 
        // Check if there are any table elements in the document
        var tables = document.GetElementsByTagName("table");

        if (tables.Any())
        {
            var result = new List<Dictionary<string, string>>();
            var i = 0;
            foreach (var table in tables)
            {
                // Save table to new html document
                var newFileName = "table" + i + ".htm";
                var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
                newDoc.Save(Path.Combine(OutputDir, newFileName));
                i++;
            }
        }
        else
        {
            // Handle the case where no tables are found
            Console.WriteLine("No tables found in the document.");
        }
    }



Etapas para extrair tabelas do site

Este exemplo C# mostra como extrair tabelas do site e salvar cada tabela como um arquivo HTML separado. Inclui etapas para lidar com cenários em que as tabelas estão presentes e ausentes no documento.

  1. Use o construtor HTMLDocument() para inicializar um documento HTML.
  2. Use o método GetElementsByTagName("table") para recuperar todos os elementos <table> do documento HTML. Armazene uma coleção de elementos de tabela na variável tables.
  3. Verifique se o documento contém algum elemento de tabela. Use o método Any() para determinar se a coleção tables contém algum elemento. Se tabelas forem encontradas:
    • Crie um novo nome de arquivo para o arquivo da tabela HTML.
    • Use o construtor HTMLDocument(content, baseUri) para criar uma nova instância de um documento HTML usando a propriedade OuterHTML do elemento da tabela e um novo nome de arquivo.
    • Salve o documento HTML recém-criado no diretório de saída usando o método Save() .
  4. Se o documento não contiver tabelas, imprima uma mensagem no console indicando que nenhuma tabela foi encontrada.

Para saber mais sobre a API Aspose.HTML, visite nosso guia documentação . Aspose.HTML for .NET é uma biblioteca avançada de análise de HTML que permite criar, editar e converter arquivos HTML, XHTML, MD, EPUB e MHTML. A seção de documentação Data Extraction descreve como inspecionar, coletar e extrair automaticamente dados de páginas da web usando Aspose.HTML for .NET. Nos artigos desta seção, você aprenderá como navegar em um documento HTML e realizar uma inspeção detalhada de seus elementos, salvar um site ou arquivo de uma URL, extrair diferentes tipos de imagens de sites e muito mais.



Gerador de Tabela HTML – Aplicativo Online

Aspose.HTML oferece o Gerador de tabelas HTML que é um aplicativo online para criação de tabelas com opções personalizáveis. É gratuito e fácil de usar. Basta preencher todas as opções obrigatórias e obter o resultado! O Gerador de Tabela HTML cria automaticamente o código da tabela HTML. Esta ferramenta foi projetada para permitir que você obtenha uma tabela HTML necessária e a coloque online o mais rápido possível.

Outros recursos da biblioteca C# com suporte

Use a biblioteca Aspose.HTML for .NET para analisar e manipular documentos baseados em HTML. Claro, seguro e simples!