Wie man Tabellen aus einer Webseite extrahiert
Das Extrahieren von HTML-Tabellen aus Webseiten ist eine häufige Aufgabe beim Web-Scraping, der Datenanalyse und der Verarbeitung von Inhalten. Mit
Aspose.HTML for Python via .NET
können Entwickler den Prozess des Auffindens, Herunterladens und Speicherns von <table>
-Elementen aus beliebigen Webseiten leicht automatisieren. Diese leistungsstarke Lösung zur programmatischen Extraktion von Tabellen ist ideal für alle, die mit strukturierten Daten aus Artikeln, Berichten oder anderen Webseiten arbeiten müssen.
Tabellen mit Python extrahieren
Der folgende Python-Code zeigt, wie man ein HTML-Dokument von einer Website herunterlädt, alle darin enthaltenen Tabellenelemente identifiziert und jede Tabelle zur späteren Verwendung in separate, in sich geschlossene HTML-Dateien exportiert:
Python-Code zum Herunterladen von Tabellen von einer Webseite
import os
import aspose.html as ah
# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)
# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
# Get all <table> elements
tables = doc.get_elements_by_tag_name("table")
if tables.length > 0:
for i, table in enumerate(tables):
# Construct output file path
file_name = f"table{i}.htm"
file_path = os.path.join(output_dir, file_name)
# Create a new HTML document from the table's outer HTML
new_doc = ah.HTMLDocument(table.outer_html, file_path)
# Save the new document
new_doc.save(file_path)
else:
# Handle case where no tables are found
print("No tables found in the document.")
Schritte zum Extrahieren von Tabellen aus einer Webseite
- Verwenden Sie den Konstruktor
HTMLDocument(url)
, um das HTML-Dokument von der angegebenen URL zu öffnen. Dieses Dokument ist die Quelle, aus der
<table>
Elemente extrahiert werden. - Rufen Sie die Methode
get_elements_by_tag_name(“table”)
auf, um alle
<table>
-Elemente aus dem HTML-Dokument zu sammeln. - Prüfen Sie, ob Tabellen gefunden werden. Wenn Tabellen vorhanden sind, starten Sie eine Schleife, um über jedes Tabellenelement zu iterieren.
- Erstellen Sie für jede Tabelle eindeutige Dateinamen.
- Erstellen Sie ein neues HTMLDocument mit der
outer_html
-Eigenschaft des Tabellenelements und dem Ausgabepfad zum Speichern. - Speichern Sie das neue HTML-Dokument mit der einzelnen Tabelle mit der Methode save() .
- Wenn keine
<table>
-Elemente gefunden werden, wird eine Meldung mit der Information ausgegeben, dass keine Tabellen im Dokument gefunden wurden.
Wenn Sie mehr darüber erfahren möchten, wie Sie mit Python verschiedene Datentypen aus dem Web oder aus HTML-Dokumenten programmatisch extrahieren können, lesen Sie das Kapitel Data Extraction in Python in der Dokumentation. Dieses Kapitel bietet eine praktische Anleitung zur automatischen Inspektion, Erfassung und Extraktion wertvoller Daten aus HTML mit Hilfe der Aspose.HTML for Python via .NET API. Es behandelt grundlegende Themen wie das Navigieren in HTML-Dokumenten mit CSS-Selektoren und XPath sowie das Herunterladen und Speichern von Remote-Ressourcen wie Bildern, SVG-Grafiken und anderen Dateien.
Erste Schritte mit der Python-API
Wenn Sie HTML-Dokumente analysieren, bearbeiten und verwalten möchten, installieren Sie unser flexibles, schnelles Aspose.HTML for Python via .NET-API. „pip“ ist der einfachste Weg, Aspose.HTML for Python via .NET herunterzuladen und zu installieren. Führen Sie dazu den folgenden Befehl aus:
pip install aspose-html-net
Weitere Einzelheiten zur Installation der Python-Bibliothek und zu den Systemanforderungen finden Sie in der Apose.HTML-Dokumentation.
Andere unterstützte Funktionen
Verwenden Sie die Aspose.HTML for Python via .NET-Bibliothek, um HTML-basierte Dokumente zu parsen und zu bearbeiten. Klar, sicher und einfach!