Que tipos de dados posso extrair com Aspose.HTML for Python via .NET?

A biblioteca permite trabalhar com vários tipos de recursos web: elementos HTML incorporados em páginas, ficheiros acessíveis diretamente por URLs e conteúdo gerado dinamicamente. Independentemente de os dados virem de uma página web ou de um link separado, podem ser acedidos e processados programaticamente.

Preciso de carregar a página web inteira para obter {{i18n. data}}?

Nem sempre. Se o {{i18n. data}} estiver disponível através de um URL direto, pode descarregá-lo e guardá-lo imediatamente. O carregamento do documento HTML só é necessário se os dados fizerem parte da estrutura da página.

Preciso de bibliotecas externas ou motores de browser para extrair dados?

Não. Aspose.HTML for Python via .NET é totalmente independente. Toda a análise, renderização e extração de dados ocorrem dentro da biblioteca, sem necessidade de ferramentas de terceiros.

HTML JPG PDF XML MHTML

Extrair imagens de uma página Web em Python

Uma solução rápida e poderosa para pesquisar e transferir imagens de qualquer sítio Web de forma programática.

Download

Como extrair uma imagem de uma página da Web

A capacidade de extrair imagens de HTML é crucial para vários aplicativos, incluindo raspagem da Web e análise de conteúdo. o Aspose.HTML for Python via .NET é uma biblioteca robusta que simplifica esse processo, oferecendo aos desenvolvedores um conjunto de ferramentas para navegar e coletar informações de documentos HTML sem problemas. Esta poderosa solução é ideal para quem precisa de recolher imagens para análise, arquivo ou criação de conteúdos, eliminando a necessidade de trabalho manual. Vamos explorar como descarregar imagens de páginas Web.

Extrair imagens utilizando Python

Usando Aspose.HTML for Python via .NET, você pode facilmente criar seu próprio aplicativo, pois nossa API fornece um conjunto robusto de ferramentas para analisar e extrair informações de documentos HTML. Se você deseja usar recursos de análise de dados HTML em seu produto ou extrair dados de HTML de forma programática, consulte o exemplo de código abaixo.

Código Python para descarregar imagens de uma página Web

import os
import aspose.html as ah
import aspose.html.net as ahnet

# Prepare output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open HTML document from URL
with ah.HTMLDocument("https://docs.aspose.com/svg/net/drawing-basics/svg-color/") as doc:
    # Collect all <img> elements
    images = doc.get_elements_by_tag_name("img")

    # Get distinct relative image URLs
    urls = set(img.get_attribute("src") for img in images)

    # Create absolute image URLs
    abs_urls = [ah.Url(url, doc.base_uri) for url in urls]

    for url in abs_urls:
        # Create a network request
        request = ahnet.RequestMessage(url.href)

        # Send request
        response = doc.context.network.send(request)

        # Check if successful
        if response.is_success:
            # Extract file name
            file_name = os.path.basename(url.pathname)

            # Save image locally
            with open(os.path.join(output_dir, file_name), "wb") as f:
                f.write(response.content.read_as_byte_array())

Passos para extrair imagens de uma página da Web

Abra o documento HTML de destino, uma página da Web, usando a classe HTMLDocument. Este documento é a fonte de onde as imagens serão extraídas.
Chame o método get_elements_by_tag_name(“img”) do objeto HTMLDocument para coletar todos os elementos <img> dentro do documento HTML.
Extraia URLs de imagens únicas, iterando sobre a coleção de elementos <img> e acessando o atributo src de cada elemento usando o método get_attribute(“src”) . Armazene esses URLs em um conjunto para garantir que não haja duplicatas.
Crie URLs de imagens absolutas passando cada URL relativa ou incompleta junto com a base_uri do documento para o construtor Url. Isso garante que cada URL esteja completa e válida para acesso à rede.
Para cada URL de imagem absoluta, crie um objeto RequestMessage para representar o pedido HTTP necessário para obter os dados da imagem.
Utilizar o método doc.context.network.send(request) para enviar o pedido e receber uma resposta. Verifique se a resposta foi bem sucedida avaliando a propriedade is_success.
Analisa o URL absoluto da imagem utilizando os.path.basename() para extrair o nome do ficheiro e, em seguida, guarda o conteúdo da imagem no diretório de saída, escrevendo os dados binários da resposta para um ficheiro.

Para saber mais sobre como extrair programaticamente vários tipos de imagens de um sítio Web utilizando Python, consulte o artigo da documentação Extract Images From Website in Python .

Nota: Respeite sempre as leis de direitos de autor. Certifique-se de que possui os direitos, autorizações ou licenças adequados antes de utilizar as imagens extraídas para fins comerciais. Não aprovamos nem apoiamos a utilização não autorizada de conteúdos protegidos por direitos de autor.

Introdução à API Python

Se você quiser analisar, manipular e gerenciar documentos HTML, instale nossa API flexível e de alta velocidade Aspose.HTML for Python via .NET. pip é a maneira mais fácil de baixar e instalar a biblioteca Python. Para fazer isso, execute o seguinte comando:

pip install aspose-html-net

Para mais detalhes sobre a instalação da biblioteca Python e os requisitos do sistema, consulte Documentação Aspose.HTML.

Outras caraterísticas suportadas

Use a biblioteca Aspose.HTML for Python via .NET para analisar e manipular documentos baseados em HTML. Claro, seguro e simples!

Extract images from web page

Extract SVG from website

Extract tables from website