Cómo extraer tablas de una página web

La extracción de tablas HTML de páginas web es una tarea común en el web scraping, el análisis de datos y el procesamiento de contenidos. Con Aspose.HTML for Python via .NET , los desarrolladores pueden automatizar fácilmente el proceso de encontrar, descargar y guardar elementos <table> de cualquier página web. Esta potente solución para extraer tablas mediante programación es ideal para cualquiera que necesite trabajar con datos estructurados de artículos, informes o cualquier otra página web.


Extraer tablas con Python

El siguiente código de Python muestra cómo descargar un documento HTML de un sitio web, identificar todos los elementos de tabla que contiene y exportar cada tabla a archivos HTML independientes y autónomos para su uso posterior:


Código Python para descargar tablas de una página web

import os
import aspose.html as ah

# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
    # Get all <table> elements
    tables = doc.get_elements_by_tag_name("table")

    if tables.length > 0:
        for i, table in enumerate(tables):
            # Construct output file path
            file_name = f"table{i}.htm"
            file_path = os.path.join(output_dir, file_name)

            # Create a new HTML document from the table's outer HTML
            new_doc = ah.HTMLDocument(table.outer_html, file_path)

            # Save the new document
            new_doc.save(file_path)
    else:
        # Handle case where no tables are found
        print("No tables found in the document.")


Pasos para extraer tablas de una página web

  1. Utilice el constructor HTMLDocument(url) para abrir el documento HTML de la URL especificada. Este documento es la fuente de la que se extraerán los elementos <table>.
  2. Llama al método get_elements_by_tag_name(“table”) para recoger todos los elementos <table> del documento HTML.
  3. Comprueba si se encuentra alguna tabla. Si hay tablas, inicia un bucle para iterar sobre cada elemento de la tabla.
    • Cree nombres de archivo únicos para cada tabla.
    • Cree un nuevo documento HTML utilizando la propiedad outer_html del elemento de tabla y la ruta de salida para guardarlo.
    • Guarde el nuevo documento HTML que contiene la tabla individual utilizando el método save() .
  4. Si no se encuentran elementos <table>, imprime un mensaje con la información de que no se han encontrado tablas en el documento.

Para obtener más información sobre cómo extraer mediante programación distintos tipos de datos de la web o de cualquier documento HTML utilizando Python, consulte el capítulo Extracción de datos en Python de la documentación. Este capítulo ofrece una guía práctica sobre cómo inspeccionar, capturar y extraer automáticamente datos valiosos de HTML utilizando la API de Aspose.HTML for Python via .NET. Abarca temas esenciales como la navegación por documentos HTML con selectores CSS y XPath, así como la descarga y el almacenamiento de recursos remotos como imágenes, gráficos SVG y otros archivos.



Comience con la API de Python

Si desea analizar, manipular y administrar documentos HTML, instale nuestra API flexible y de alta velocidad Aspose.HTML for Python via .NET. pip es la forma más sencilla de descargar e instalar la biblioteca de Python. Para ello, ejecute el siguiente comando:

pip install aspose-html-net

Para obtener más detalles sobre la instalación de la biblioteca de Python y los requisitos del sistema, consulte la Documentación de Aspose.HTML

Otras funciones compatibles

Utilice la biblioteca Aspose.HTML for Python via .NET para analizar y manipular documentos basados en HTML. ¡Claro, seguro y sencillo!