Welche Datentypen kann ich mit Aspose.HTML for Python via .NET extrahieren?

Die Bibliothek ermöglicht die Arbeit mit verschiedenen Arten von Webressourcen: eingebettete HTML-Seitenelemente, direkt über URLs zugängliche Dateien und dynamisch generierte Inhalte. Unabhängig davon, ob die Daten von einer Webseite oder einem separaten Link stammen, können sie programmatisch abgerufen und verarbeitet werden.

Muss ich die gesamte Webseite laden, um table zu erhalten?

Nicht immer. Wenn table über eine direkte URL verfügbar ist, können Sie es sofort herunterladen und speichern. Das Laden des HTML-Dokuments ist nur erforderlich, wenn die Daten Teil der Seitenstruktur sind.

Benötige ich externe Bibliotheken oder Browser-Engines zum Extrahieren von Daten?

Nein. Aspose.HTML for Python via .NET ist vollständig in sich abgeschlossen. Das gesamte Parsen, Rendern und Extrahieren der Daten erfolgt innerhalb der Bibliothek, ohne dass Tools von Drittanbietern benötigt werden.

HTML JPG PDF XML MHTML

Tabellen aus einer Website in Python extrahieren

Eine schnelle, leistungsstarke Lösung zum programmgesteuerten Suchen und Extrahieren von Tabellen aus Websites.

Download

Wie man Tabellen aus einer Webseite extrahiert

Das Extrahieren von HTML-Tabellen aus Webseiten ist eine häufige Aufgabe beim Web-Scraping, der Datenanalyse und der Verarbeitung von Inhalten. Mit Aspose.HTML for Python via .NET können Entwickler den Prozess des Auffindens, Herunterladens und Speicherns von <table>-Elementen aus beliebigen Webseiten leicht automatisieren. Diese leistungsstarke Lösung zur programmatischen Extraktion von Tabellen ist ideal für alle, die mit strukturierten Daten aus Artikeln, Berichten oder anderen Webseiten arbeiten müssen.

Tabellen mit Python extrahieren

Der folgende Python-Code zeigt, wie man ein HTML-Dokument von einer Website herunterlädt, alle darin enthaltenen Tabellenelemente identifiziert und jede Tabelle zur späteren Verwendung in separate, in sich geschlossene HTML-Dateien exportiert:

Python-Code zum Herunterladen von Tabellen von einer Webseite

import os
import aspose.html as ah

# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
    # Get all <table> elements
    tables = doc.get_elements_by_tag_name("table")

    if tables.length > 0:
        for i, table in enumerate(tables):
            # Construct output file path
            file_name = f"table{i}.htm"
            file_path = os.path.join(output_dir, file_name)

            # Create a new HTML document from the table's outer HTML
            new_doc = ah.HTMLDocument(table.outer_html, file_path)

            # Save the new document
            new_doc.save(file_path)
    else:
        # Handle case where no tables are found
        print("No tables found in the document.")

Schritte zum Extrahieren von Tabellen aus einer Webseite

Verwenden Sie den Konstruktor HTMLDocument(url) , um das HTML-Dokument von der angegebenen URL zu öffnen. Dieses Dokument ist die Quelle, aus der <table> Elemente extrahiert werden.
Rufen Sie die Methode get_elements_by_tag_name(“table”) auf, um alle <table>-Elemente aus dem HTML-Dokument zu sammeln.
Prüfen Sie, ob Tabellen gefunden werden. Wenn Tabellen vorhanden sind, starten Sie eine Schleife, um über jedes Tabellenelement zu iterieren.
- Erstellen Sie für jede Tabelle eindeutige Dateinamen.
- Erstellen Sie ein neues HTMLDocument mit der outer_html-Eigenschaft des Tabellenelements und dem Ausgabepfad zum Speichern.
- Speichern Sie das neue HTML-Dokument mit der einzelnen Tabelle mit der Methode save() .
Wenn keine <table>-Elemente gefunden werden, wird eine Meldung mit der Information ausgegeben, dass keine Tabellen im Dokument gefunden wurden.

Wenn Sie mehr darüber erfahren möchten, wie Sie mit Python verschiedene Datentypen aus dem Web oder aus HTML-Dokumenten programmatisch extrahieren können, lesen Sie das Kapitel Data Extraction in Python in der Dokumentation. Dieses Kapitel bietet eine praktische Anleitung zur automatischen Inspektion, Erfassung und Extraktion wertvoller Daten aus HTML mit Hilfe der Aspose.HTML for Python via .NET API. Es behandelt grundlegende Themen wie das Navigieren in HTML-Dokumenten mit CSS-Selektoren und XPath sowie das Herunterladen und Speichern von Remote-Ressourcen wie Bildern, SVG-Grafiken und anderen Dateien.

Erste Schritte mit der Python-API

Wenn Sie HTML-Dokumente analysieren, bearbeiten und verwalten möchten, installieren Sie unser flexibles, schnelles Aspose.HTML for Python via .NET-API. „pip“ ist der einfachste Weg, Aspose.HTML for Python via .NET herunterzuladen und zu installieren. Führen Sie dazu den folgenden Befehl aus:

pip install aspose-html-net

Weitere Einzelheiten zur Installation der Python-Bibliothek und zu den Systemanforderungen finden Sie in der Apose.HTML-Dokumentation.

Andere unterstützte Funktionen

Verwenden Sie die Aspose.HTML for Python via .NET-Bibliothek, um HTML-basierte Dokumente zu parsen und zu bearbeiten. Klar, sicher und einfach!

Datei von URL speichern

Bilder von der Webseite extrahieren

SVG von der Website extrahieren

Tabelle von der Website extrahieren