So extrahieren Sie eine Tabelle aus HTML

Die Möglichkeit, Tabellen aus HTML zu extrahieren, ist für verschiedene Anwendungen wie Web Scraping und Inhaltsanalyse wichtig. Aspose.HTML für .NET ist eine robuste Bibliothek, die diesen Prozess vereinfacht, indem sie Entwicklern eine Reihe von Tools zum nahtlosen Navigieren und Sammeln von Informationen aus HTML-Dokumenten bietet. Sehen wir uns an, wie man Tabellen aus HTML-Dokumenten extrahiert.

Stellen Sie zunächst sicher, dass Aspose.HTML für .NET in Ihrem Projekt installiert ist. Der Installationsprozess dieser Bibliothek ist relativ einfach. Sie können es über die NuGet Package Manager-Konsole mit dem folgenden Befehl installieren:


Installieren Sie Aspose.HTML für .NET

Install-Package Aspose.HTML



Extrahieren Sie HTML-Tabellen mit C#

Aspose.HTML für .NET API bietet ein leistungsstarkes Toolset zum Analysieren und Sammeln von Informationen aus HTML-Dokumenten. Sie können HTML-Tabellen mit ein paar Zeilen C#-Code extrahieren. Das folgende Beispiel zeigt, wie Sie alle <table>-Elemente in einem HTML-Dokument finden, separate HTML-Dateien für jede Tabelle erstellen und diese im Ausgabeverzeichnis speichern. Jede Ausgabe-HTML-Datei enthält nur eine Tabelle aus dem Quell-HTML-Dokument.


C#-Code zum Extrahieren von Tabellen aus HTML

using Aspose.Html;
using System.IO;
using System.Collections.Generic;
...

    // Prepare a path to a source HTML file
    string documentPath = Path.Combine(DataDir, "tables.html");

    // Create an instance of an HTML document
    using (var document = new HTMLDocument(documentPath))
    {
        var tables = document.GetElementsByTagName("table");
        var result = new List<Dictionary<string, string>>();
        var i = 0;
        foreach (var table in tables)
        {
            // Save table to new html document
            var newFileName = "table" + i + ".htm";
            var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
            newDoc.Save(Path.Combine(OutputDir, newFileName));
            i++;
        }
    }



Schritte zum Extrahieren von Tabellen aus HTML

  1. Verwenden Sie den Konstruktor HTMLDocument() , um ein HTML-Dokument zu initialisieren. Übergeben Sie den Pfad der HTML-Quelldatei als Parameter an den Konstruktor.
  2. Verwenden Sie die Methode GetElementsByTagName("table") , um alle <table>-Elemente zu sammeln. Die Methode gibt eine Liste der <table>-Elemente des HTML-Dokuments zurück.
  3. Starten Sie eine Schleife, um jedes Tabellenelement zu durchlaufen:
    • Erstellen Sie einen neuen Dateinamen für die HTML-Tabellendatei.
    • Verwenden Sie den Konstruktor HTMLDocument(content, baseUri) , um eine neue Instanz eines HTML-Dokuments zu erstellen, indem Sie die Eigenschaft OuterHTML des Tabellenelements und einen neuen Dateinamen verwenden.
    • Speichern Sie das neu erstellte HTML-Dokument mit der Methode Save() im Ausgabeverzeichnis.

Um mehr über die Aspose.HTML-API zu erfahren, besuchen Sie bitte unseren Dokumentation -Leitfaden. Aspose.HTML für .NET ist eine erweiterte HTML-Parsing-Bibliothek, mit der Sie HTML-, XHTML-, MD-, EPUB- und MHTML-Dateien erstellen, bearbeiten und konvertieren können. Im Dokumentationsabschnitt Data Extraction wird beschrieben, wie Sie mit Aspose.HTML für .NET automatisch Daten von Webseiten prüfen, sammeln und extrahieren. In den Artikeln in diesem Abschnitt erfahren Sie, wie Sie durch ein HTML-Dokument navigieren und eine detaillierte Prüfung seiner Elemente durchführen, eine Website oder Datei von einer URL speichern, verschiedene Arten von Bildern aus Websites extrahieren und vieles mehr.



HTML-Tabellengenerator – Online-App

Aspose.HTML bietet den HTML Tabellen-Generator an, eine Online-Anwendung zum Erstellen von Tabellen mit anpassbaren Optionen. Es ist kostenlos und klar zu bedienen. Füllen Sie einfach alle erforderlichen Optionen aus und erhalten Sie ein Ergebnis! Der HTML-Tabellengenerator erstellt automatisch den HTML-Tabellencode. Dieses Tool wurde entwickelt, damit Sie eine erforderliche HTML-Tabelle erhalten und so schnell wie möglich online stellen können.