¿Qué tipos de datos puedo extraer con Aspose.HTML for Python via .NET?

La biblioteca permite trabajar con diversos tipos de recursos web: elementos HTML incrustados, archivos accesibles directamente mediante URL y contenido generado dinámicamente. Tanto si los datos provienen de una página web como de un enlace externo, se puede acceder a ellos y procesarlos mediante programación.

¿Necesito cargar la página web completa para obtener table?

No siempre. Si table está disponible mediante una URL directa, puede descargarlo y guardarlo inmediatamente. Solo es necesario cargar el documento HTML si los datos forman parte de la estructura de la página.

¿Necesito bibliotecas externas o motores de navegador para extraer datos?

No. Aspose.HTML for Python via .NET es completamente autónomo. Todo el análisis, la representación y la extracción de datos se realizan dentro de la biblioteca, sin necesidad de herramientas de terceros.

HTML JPG PDF XML MHTML

Extraer tablas de un sitio web en Python

Una solución rápida y potente para encontrar y extraer tablas de sitios web mediante programación.

Download

Cómo extraer tablas de una página web

La extracción de tablas HTML de páginas web es una tarea común en el web scraping, el análisis de datos y el procesamiento de contenidos. Con Aspose.HTML for Python via .NET , los desarrolladores pueden automatizar fácilmente el proceso de encontrar, descargar y guardar elementos <table> de cualquier página web. Esta potente solución para extraer tablas mediante programación es ideal para cualquiera que necesite trabajar con datos estructurados de artículos, informes o cualquier otra página web.

Extraer tablas con Python

El siguiente código de Python muestra cómo descargar un documento HTML de un sitio web, identificar todos los elementos de tabla que contiene y exportar cada tabla a archivos HTML independientes y autónomos para su uso posterior:

Código Python para descargar tablas de una página web

import os
import aspose.html as ah

# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
    # Get all <table> elements
    tables = doc.get_elements_by_tag_name("table")

    if tables.length > 0:
        for i, table in enumerate(tables):
            # Construct output file path
            file_name = f"table{i}.htm"
            file_path = os.path.join(output_dir, file_name)

            # Create a new HTML document from the table's outer HTML
            new_doc = ah.HTMLDocument(table.outer_html, file_path)

            # Save the new document
            new_doc.save(file_path)
    else:
        # Handle case where no tables are found
        print("No tables found in the document.")

Pasos para extraer tablas de una página web

Utilice el constructor HTMLDocument(url) para abrir el documento HTML de la URL especificada. Este documento es la fuente de la que se extraerán los elementos <table>.
Llama al método get_elements_by_tag_name(“table”) para recoger todos los elementos <table> del documento HTML.
Comprueba si se encuentra alguna tabla. Si hay tablas, inicia un bucle para iterar sobre cada elemento de la tabla.
- Cree nombres de archivo únicos para cada tabla.
- Cree un nuevo documento HTML utilizando la propiedad outer_html del elemento de tabla y la ruta de salida para guardarlo.
- Guarde el nuevo documento HTML que contiene la tabla individual utilizando el método save() .
Si no se encuentran elementos <table>, imprime un mensaje con la información de que no se han encontrado tablas en el documento.

Para obtener más información sobre cómo extraer mediante programación distintos tipos de datos de la web o de cualquier documento HTML utilizando Python, consulte el capítulo Extracción de datos en Python de la documentación. Este capítulo ofrece una guía práctica sobre cómo inspeccionar, capturar y extraer automáticamente datos valiosos de HTML utilizando la API de Aspose.HTML for Python via .NET. Abarca temas esenciales como la navegación por documentos HTML con selectores CSS y XPath, así como la descarga y el almacenamiento de recursos remotos como imágenes, gráficos SVG y otros archivos.

Comience con la API de Python

Si desea analizar, manipular y administrar documentos HTML, instale nuestra API flexible y de alta velocidad Aspose.HTML for Python via .NET. pip es la forma más sencilla de descargar e instalar la biblioteca de Python. Para ello, ejecute el siguiente comando:

pip install aspose-html-net

Para obtener más detalles sobre la instalación de la biblioteca de Python y los requisitos del sistema, consulte la Documentación de Aspose.HTML

Otras funciones compatibles

Utilice la biblioteca Aspose.HTML for Python via .NET para analizar y manipular documentos basados en HTML. ¡Claro, seguro y sencillo!

Extract images from web page

Extract SVG from website

Extract tables from website