Comment extraire des tableaux d'une page Web
L’extraction de tableaux HTML à partir de pages web est une tâche courante dans les domaines du web scraping, de l’analyse de données et du traitement de contenu. En utilisant
Aspose.HTML for Python via .NET
, les développeurs peuvent facilement automatiser le processus de recherche, de téléchargement et d’enregistrement des éléments <table>
à partir de n’importe quelle page Web. Cette solution puissante d’extraction programmatique de tableaux est idéale pour tous ceux qui ont besoin de travailler avec des données structurées provenant d’articles, de rapports ou d’autres pages Web.
Extraire des tableaux à l'aide de Python
Le code Python suivant montre comment télécharger un document HTML à partir d’un site web, identifier tous les éléments de tableau qu’il contient et exporter chaque tableau dans des fichiers HTML distincts et autonomes en vue d’une utilisation ultérieure:
Code Python pour télécharger des tableaux à partir d'une page web
import os
import aspose.html as ah
# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)
# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
# Get all <table> elements
tables = doc.get_elements_by_tag_name("table")
if tables.length > 0:
for i, table in enumerate(tables):
# Construct output file path
file_name = f"table{i}.htm"
file_path = os.path.join(output_dir, file_name)
# Create a new HTML document from the table's outer HTML
new_doc = ah.HTMLDocument(table.outer_html, file_path)
# Save the new document
new_doc.save(file_path)
else:
# Handle case where no tables are found
print("No tables found in the document.")
Étapes pour extraire des tableaux d'une page Web
- Utilisez le constructeur
HTMLDocument(url)
pour ouvrir le document HTML à partir de l’URL spécifiée. Ce document est la source à partir de laquelle les éléments
<table>
seront extraits. - Appelez la méthode
get_elements_by_tag_name(“table”)
pour collecter tous les éléments
<table>
du document HTML. - Vérifier si des tableaux ont été trouvés. Si des tableaux sont présents, lancer une boucle pour itérer sur chaque élément du tableau.
- Créer des noms de fichiers uniques pour chaque table.
- Créez un nouveau document HTML en utilisant la propriété
outer_html
de l’élément table et le chemin de sortie pour l’enregistrement. - Enregistrez le nouveau document HTML contenant le tableau unique à l’aide de la méthode save() .
- Si aucun élément
<table>
n’est trouvé, un message indiquant qu’aucun tableau n’a été trouvé dans le document est affiché.
Pour en savoir plus sur l’extraction programmatique de différents types de données à partir du Web ou de documents HTML à l’aide de Python, reportez-vous au chapitre Data Extraction in Python de la documentation. Ce chapitre fournit des conseils pratiques sur la manière d’inspecter, de capturer et d’extraire automatiquement des données précieuses du code HTML à l’aide de l’API Aspose.HTML for Python via .NET. Il couvre des sujets essentiels tels que la navigation dans les documents HTML avec les sélecteurs CSS et XPath, ainsi que le téléchargement et l’enregistrement de ressources distantes telles que des images, des graphiques SVG et d’autres fichiers.
Get Started with Python API
If you want to parse, manipulate, and manage HTML documents, install our flexible, high-speed Aspose.HTML for Python via .NET API. pip
is the easiest way to download and install Aspose.HTML for Python via .NET. To do this, run the following command:
pip install aspose-html-net
For more details about Python library installation and system requirements, please refer to Aspose.HTML Documentation.
Autres caractéristiques prises en charge
Utilisez la bibliothèque Aspose.HTML for Python via .NET pour analyser et manipuler des documents HTML. Clair, sûr et simple !