Quels types de données puis-je extraire avec Aspose.HTML for Python via .NET?

Cette bibliothèque permet de travailler avec différents types de ressources web : éléments HTML intégrés, fichiers accessibles directement via une URL et contenu généré dynamiquement. Que les données proviennent d'une page web ou d'un lien externe, elles sont accessibles et peuvent être traitées par programmation.

Dois-je charger la page web entière pour obtenir table ?

Pas toujours. Si table est disponible via une URL directe, vous pouvez le télécharger et l'enregistrer immédiatement. Le chargement du document HTML n'est nécessaire que si les données font partie de la structure de la page.

Ai-je besoin de bibliothèques externes ou de moteurs de navigateur pour extraire des données ?

Non. [Aspose.HTML pour Python via .NET] est entièrement autonome. L'analyse syntaxique, le rendu et l'extraction des données sont entièrement gérés par la bibliothèque, sans aucun outil tiers.

HTML JPG PDF XML MHTML

Extraire des tables d’un site web en Python

Une solution rapide et puissante pour trouver et extraire des tableaux d’un site web de manière programmatique.

Download

Comment extraire des tableaux d'une page Web

L’extraction de tableaux HTML à partir de pages web est une tâche courante dans les domaines du web scraping, de l’analyse de données et du traitement de contenu. En utilisant Aspose.HTML for Python via .NET , les développeurs peuvent facilement automatiser le processus de recherche, de téléchargement et d’enregistrement des éléments <table> à partir de n’importe quelle page Web. Cette solution puissante d’extraction programmatique de tableaux est idéale pour tous ceux qui ont besoin de travailler avec des données structurées provenant d’articles, de rapports ou d’autres pages Web.

Extraire des tableaux à l'aide de Python

Le code Python suivant montre comment télécharger un document HTML à partir d’un site web, identifier tous les éléments de tableau qu’il contient et exporter chaque tableau dans des fichiers HTML distincts et autonomes en vue d’une utilisation ultérieure:

Code Python pour télécharger des tableaux à partir d'une page web

import os
import aspose.html as ah

# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
    # Get all <table> elements
    tables = doc.get_elements_by_tag_name("table")

    if tables.length > 0:
        for i, table in enumerate(tables):
            # Construct output file path
            file_name = f"table{i}.htm"
            file_path = os.path.join(output_dir, file_name)

            # Create a new HTML document from the table's outer HTML
            new_doc = ah.HTMLDocument(table.outer_html, file_path)

            # Save the new document
            new_doc.save(file_path)
    else:
        # Handle case where no tables are found
        print("No tables found in the document.")

Étapes pour extraire des tableaux d'une page Web

Utilisez le constructeur HTMLDocument(url) pour ouvrir le document HTML à partir de l’URL spécifiée. Ce document est la source à partir de laquelle les éléments <table> seront extraits.
Appelez la méthode get_elements_by_tag_name(“table”) pour collecter tous les éléments <table> du document HTML.
Vérifier si des tableaux ont été trouvés. Si des tableaux sont présents, lancer une boucle pour itérer sur chaque élément du tableau.
- Créer des noms de fichiers uniques pour chaque table.
- Créez un nouveau document HTML en utilisant la propriété outer_html de l’élément table et le chemin de sortie pour l’enregistrement.
- Enregistrez le nouveau document HTML contenant le tableau unique à l’aide de la méthode save() .
Si aucun élément <table> n’est trouvé, un message indiquant qu’aucun tableau n’a été trouvé dans le document est affiché.

Pour en savoir plus sur l’extraction programmatique de différents types de données à partir du Web ou de documents HTML à l’aide de Python, reportez-vous au chapitre Data Extraction in Python de la documentation. Ce chapitre fournit des conseils pratiques sur la manière d’inspecter, de capturer et d’extraire automatiquement des données précieuses du code HTML à l’aide de l’API Aspose.HTML for Python via .NET. Il couvre des sujets essentiels tels que la navigation dans les documents HTML avec les sélecteurs CSS et XPath, ainsi que le téléchargement et l’enregistrement de ressources distantes telles que des images, des graphiques SVG et d’autres fichiers.

Get Started with Python API

If you want to parse, manipulate, and manage HTML documents, install our flexible, high-speed Aspose.HTML for Python via .NET API. pip is the easiest way to download and install Aspose.HTML for Python via .NET. To do this, run the following command:

pip install aspose-html-net

For more details about Python library installation and system requirements, please refer to Aspose.HTML Documentation.

Autres caractéristiques prises en charge

Utilisez la bibliothèque Aspose.HTML for Python via .NET pour analyser et manipuler des documents HTML. Clair, sûr et simple !

Extract images from web page

Extract SVG from website

Extract tables from website