Como extrair tabelas de uma página da Web

Extrair tabelas HTML de páginas web é uma tarefa comum em web scraping, análise de dados e processamento de conteúdo. Usando Aspose.HTML for Python via .NET , os desenvolvedores podem facilmente automatizar o processo de encontrar, baixar e salvar elementos <table> de qualquer página da web. Esta poderosa solução para extrair tabelas programaticamente é ideal para quem precisa trabalhar com dados estruturados de artigos, relatórios ou qualquer outra página da web.


Extrair tabelas usando Python

O seguinte código Python demonstra como descarregar um documento HTML de um site, identificar todos os elementos da tabela e exportar cada tabela para ficheiros HTML separados e autónomos para utilização posterior:


Código Python para descarregar tabelas de uma página web

import os
import aspose.html as ah

# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
    # Get all <table> elements
    tables = doc.get_elements_by_tag_name("table")

    if tables.length > 0:
        for i, table in enumerate(tables):
            # Construct output file path
            file_name = f"table{i}.htm"
            file_path = os.path.join(output_dir, file_name)

            # Create a new HTML document from the table's outer HTML
            new_doc = ah.HTMLDocument(table.outer_html, file_path)

            # Save the new document
            new_doc.save(file_path)
    else:
        # Handle case where no tables are found
        print("No tables found in the document.")


Passos para extrair tabelas de uma página da Web

  1. Utilize o construtor HTMLDocument(url) para abrir o documento HTML a partir da URL especificada. Este documento é a fonte de onde os elementos <table> serão extraídos.
  2. Chame o método get_elements_by_tag_name(“table”) para coletar todos os elementos <table> do documento HTML.
  3. Verifica se foram encontradas tabelas. Se existirem tabelas, iniciar um ciclo para iterar sobre cada elemento da tabela.
    • Criar nomes de ficheiros únicos para cada tabela.
    • Criar um novo HTMLDocument utilizando a propriedade outer_html do elemento tabela e o caminho de saída para salvar.
    • Guarde o novo documento HTML que contém a tabela única utilizando o método save() .
  4. Se nenhum elemento <table> for encontrado, imprime uma mensagem com a informação de que não foram encontradas tabelas no documento.

Para saber mais sobre como extrair programaticamente diferentes tipos de dados da Web ou de qualquer documento HTML usando Python, consulte o capítulo Data Extraction in Python da documentação. Este capítulo oferece orientações práticas sobre como inspecionar, capturar e extrair automaticamente dados valiosos de HTML usando a Aspose.HTML for Python via .NET Ele abrange tópicos essenciais, como a navegação em documentos HTML com seletores CSS e XPath, bem como o download e o salvamento de recursos remotos, como imagens, gráficos SVG e outros arquivos.



Introdução à API Python

Se você quiser analisar, manipular e gerenciar documentos HTML, instale nossa API flexível e de alta velocidade Aspose.HTML for Python via .NET. pip é a maneira mais fácil de baixar e instalar a biblioteca Python. Para fazer isso, execute o seguinte comando:

pip install aspose-html-net

Para mais detalhes sobre a instalação da biblioteca Python e os requisitos do sistema, consulte Documentação Aspose.HTML.

Outras caraterísticas suportadas

Use a biblioteca Aspose.HTML for Python via .NET para analisar e manipular documentos baseados em HTML. Claro, seguro e simples!