Como extrair tabelas de uma página da Web
Extrair tabelas HTML de páginas web é uma tarefa comum em web scraping, análise de dados e processamento de conteúdo. Usando
Aspose.HTML for Python via .NET
, os desenvolvedores podem facilmente automatizar o processo de encontrar, baixar e salvar elementos <table>
de qualquer página da web. Esta poderosa solução para extrair tabelas programaticamente é ideal para quem precisa trabalhar com dados estruturados de artigos, relatórios ou qualquer outra página da web.
Extrair tabelas usando Python
O seguinte código Python demonstra como descarregar um documento HTML de um site, identificar todos os elementos da tabela e exportar cada tabela para ficheiros HTML separados e autónomos para utilização posterior:
Código Python para descarregar tabelas de uma página web
import os
import aspose.html as ah
# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)
# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
# Get all <table> elements
tables = doc.get_elements_by_tag_name("table")
if tables.length > 0:
for i, table in enumerate(tables):
# Construct output file path
file_name = f"table{i}.htm"
file_path = os.path.join(output_dir, file_name)
# Create a new HTML document from the table's outer HTML
new_doc = ah.HTMLDocument(table.outer_html, file_path)
# Save the new document
new_doc.save(file_path)
else:
# Handle case where no tables are found
print("No tables found in the document.")
Passos para extrair tabelas de uma página da Web
- Utilize o construtor
HTMLDocument(url)
para abrir o documento HTML a partir da URL especificada. Este documento é a fonte de onde os elementos
<table>
serão extraídos. - Chame o método
get_elements_by_tag_name(“table”)
para coletar todos os elementos
<table>
do documento HTML. - Verifica se foram encontradas tabelas. Se existirem tabelas, iniciar um ciclo para iterar sobre cada elemento da tabela.
- Criar nomes de ficheiros únicos para cada tabela.
- Criar um novo
HTMLDocument
utilizando a propriedadeouter_html
do elemento tabela e o caminho de saída para salvar. - Guarde o novo documento HTML que contém a tabela única utilizando o método save() .
- Se nenhum elemento
<table>
for encontrado, imprime uma mensagem com a informação de que não foram encontradas tabelas no documento.
Para saber mais sobre como extrair programaticamente diferentes tipos de dados da Web ou de qualquer documento HTML usando Python, consulte o capítulo Data Extraction in Python da documentação. Este capítulo oferece orientações práticas sobre como inspecionar, capturar e extrair automaticamente dados valiosos de HTML usando a Aspose.HTML for Python via .NET Ele abrange tópicos essenciais, como a navegação em documentos HTML com seletores CSS e XPath, bem como o download e o salvamento de recursos remotos, como imagens, gráficos SVG e outros arquivos.
Introdução à API Python
Se você quiser analisar, manipular e gerenciar documentos HTML, instale nossa API flexível e de alta velocidade Aspose.HTML for Python via .NET. pip
é a maneira mais fácil de baixar e instalar a biblioteca Python. Para fazer isso, execute o seguinte comando:
pip install aspose-html-net
Para mais detalhes sobre a instalação da biblioteca Python e os requisitos do sistema, consulte Documentação Aspose.HTML.
Outras caraterísticas suportadas
Use a biblioteca Aspose.HTML for Python via .NET para analisar e manipular documentos baseados em HTML. Claro, seguro e simples!