Que tipos de dados posso extrair com Aspose.HTML for Python via .NET?

A biblioteca permite trabalhar com vários tipos de recursos web: elementos HTML incorporados em páginas, ficheiros acessíveis diretamente por URLs e conteúdo gerado dinamicamente. Independentemente de os dados virem de uma página web ou de um link separado, podem ser acedidos e processados programaticamente.

Preciso de carregar a página web inteira para obter {{i18n. data}}?

Nem sempre. Se o {{i18n. data}} estiver disponível através de um URL direto, pode descarregá-lo e guardá-lo imediatamente. O carregamento do documento HTML só é necessário se os dados fizerem parte da estrutura da página.

Preciso de bibliotecas externas ou motores de browser para extrair dados?

Não. Aspose.HTML for Python via .NET é totalmente independente. Toda a análise, renderização e extração de dados ocorrem dentro da biblioteca, sem necessidade de ferramentas de terceiros.

HTML JPG PDF XML MHTML

Extrair tabelas de um sítio Web em Python

Uma solução rápida e poderosa para encontrar e extrair tabelas de um website de forma programática.

Download

Como extrair tabelas de uma página da Web

Extrair tabelas HTML de páginas web é uma tarefa comum em web scraping, análise de dados e processamento de conteúdo. Usando Aspose.HTML for Python via .NET , os desenvolvedores podem facilmente automatizar o processo de encontrar, baixar e salvar elementos <table> de qualquer página da web. Esta poderosa solução para extrair tabelas programaticamente é ideal para quem precisa trabalhar com dados estruturados de artigos, relatórios ou qualquer outra página da web.

Extrair tabelas usando Python

O seguinte código Python demonstra como descarregar um documento HTML de um site, identificar todos os elementos da tabela e exportar cada tabela para ficheiros HTML separados e autónomos para utilização posterior:

Código Python para descarregar tabelas de uma página web

import os
import aspose.html as ah

# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
    # Get all <table> elements
    tables = doc.get_elements_by_tag_name("table")

    if tables.length > 0:
        for i, table in enumerate(tables):
            # Construct output file path
            file_name = f"table{i}.htm"
            file_path = os.path.join(output_dir, file_name)

            # Create a new HTML document from the table's outer HTML
            new_doc = ah.HTMLDocument(table.outer_html, file_path)

            # Save the new document
            new_doc.save(file_path)
    else:
        # Handle case where no tables are found
        print("No tables found in the document.")

Passos para extrair tabelas de uma página da Web

Utilize o construtor HTMLDocument(url) para abrir o documento HTML a partir da URL especificada. Este documento é a fonte de onde os elementos <table> serão extraídos.
Chame o método get_elements_by_tag_name(“table”) para coletar todos os elementos <table> do documento HTML.
Verifica se foram encontradas tabelas. Se existirem tabelas, iniciar um ciclo para iterar sobre cada elemento da tabela.
- Criar nomes de ficheiros únicos para cada tabela.
- Criar um novo HTMLDocument utilizando a propriedade outer_html do elemento tabela e o caminho de saída para salvar.
- Guarde o novo documento HTML que contém a tabela única utilizando o método save() .
Se nenhum elemento <table> for encontrado, imprime uma mensagem com a informação de que não foram encontradas tabelas no documento.

Para saber mais sobre como extrair programaticamente diferentes tipos de dados da Web ou de qualquer documento HTML usando Python, consulte o capítulo Data Extraction in Python da documentação. Este capítulo oferece orientações práticas sobre como inspecionar, capturar e extrair automaticamente dados valiosos de HTML usando a Aspose.HTML for Python via .NET Ele abrange tópicos essenciais, como a navegação em documentos HTML com seletores CSS e XPath, bem como o download e o salvamento de recursos remotos, como imagens, gráficos SVG e outros arquivos.

Introdução à API Python

Se você quiser analisar, manipular e gerenciar documentos HTML, instale nossa API flexível e de alta velocidade Aspose.HTML for Python via .NET. pip é a maneira mais fácil de baixar e instalar a biblioteca Python. Para fazer isso, execute o seguinte comando:

pip install aspose-html-net

Para mais detalhes sobre a instalação da biblioteca Python e os requisitos do sistema, consulte Documentação Aspose.HTML.

Outras caraterísticas suportadas

Use a biblioteca Aspose.HTML for Python via .NET para analisar e manipular documentos baseados em HTML. Claro, seguro e simples!

Extract images from web page

Extract SVG from website

Extract tables from website