Comment extraire des tableaux d'une page Web

L’extraction de tableaux HTML à partir de pages web est une tâche courante dans les domaines du web scraping, de l’analyse de données et du traitement de contenu. En utilisant Aspose.HTML for Python via .NET , les développeurs peuvent facilement automatiser le processus de recherche, de téléchargement et d’enregistrement des éléments <table> à partir de n’importe quelle page Web. Cette solution puissante d’extraction programmatique de tableaux est idéale pour tous ceux qui ont besoin de travailler avec des données structurées provenant d’articles, de rapports ou d’autres pages Web.


Extraire des tableaux à l'aide de Python

Le code Python suivant montre comment télécharger un document HTML à partir d’un site web, identifier tous les éléments de tableau qu’il contient et exporter chaque tableau dans des fichiers HTML distincts et autonomes en vue d’une utilisation ultérieure:


Code Python pour télécharger des tableaux à partir d'une page web

import os
import aspose.html as ah

# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
    # Get all <table> elements
    tables = doc.get_elements_by_tag_name("table")

    if tables.length > 0:
        for i, table in enumerate(tables):
            # Construct output file path
            file_name = f"table{i}.htm"
            file_path = os.path.join(output_dir, file_name)

            # Create a new HTML document from the table's outer HTML
            new_doc = ah.HTMLDocument(table.outer_html, file_path)

            # Save the new document
            new_doc.save(file_path)
    else:
        # Handle case where no tables are found
        print("No tables found in the document.")


Étapes pour extraire des tableaux d'une page Web

  1. Utilisez le constructeur HTMLDocument(url) pour ouvrir le document HTML à partir de l’URL spécifiée. Ce document est la source à partir de laquelle les éléments <table> seront extraits.
  2. Appelez la méthode get_elements_by_tag_name(“table”) pour collecter tous les éléments <table> du document HTML.
  3. Vérifier si des tableaux ont été trouvés. Si des tableaux sont présents, lancer une boucle pour itérer sur chaque élément du tableau.
    • Créer des noms de fichiers uniques pour chaque table.
    • Créez un nouveau document HTML en utilisant la propriété outer_html de l’élément table et le chemin de sortie pour l’enregistrement.
    • Enregistrez le nouveau document HTML contenant le tableau unique à l’aide de la méthode save() .
  4. Si aucun élément <table> n’est trouvé, un message indiquant qu’aucun tableau n’a été trouvé dans le document est affiché.

Pour en savoir plus sur l’extraction programmatique de différents types de données à partir du Web ou de documents HTML à l’aide de Python, reportez-vous au chapitre Data Extraction in Python de la documentation. Ce chapitre fournit des conseils pratiques sur la manière d’inspecter, de capturer et d’extraire automatiquement des données précieuses du code HTML à l’aide de l’API Aspose.HTML for Python via .NET. Il couvre des sujets essentiels tels que la navigation dans les documents HTML avec les sélecteurs CSS et XPath, ainsi que le téléchargement et l’enregistrement de ressources distantes telles que des images, des graphiques SVG et d’autres fichiers.



Get Started with Python API

If you want to parse, manipulate, and manage HTML documents, install our flexible, high-speed Aspose.HTML for Python via .NET API. pip is the easiest way to download and install Aspose.HTML for Python via .NET. To do this, run the following command:

pip install aspose-html-net

For more details about Python library installation and system requirements, please refer to Aspose.HTML Documentation.

Autres caractéristiques prises en charge

Utilisez la bibliothèque Aspose.HTML for Python via .NET pour analyser et manipuler des documents HTML. Clair, sûr et simple !