So extrahieren Sie eine Tabelle von einer Website

Die Möglichkeit, Tabellen aus HTML zu extrahieren, ist für verschiedene Anwendungen wie Web Scraping und Inhaltsanalyse wichtig. Aspose.HTML für .NET ist eine robuste Bibliothek, die diesen Prozess vereinfacht, indem sie Entwicklern eine Reihe von Tools zum nahtlosen Navigieren und Sammeln von Informationen aus HTML-Dokumenten bietet. Sehen wir uns an, wie man Tabellen aus einer Website extrahiert.

Stellen Sie zunächst sicher, dass Aspose.HTML für .NET in Ihrem Projekt installiert ist. Der Installationsprozess dieser Bibliothek ist relativ einfach. Sie können es über die NuGet Package Manager-Konsole mit dem folgenden Befehl installieren:


Installieren Sie Aspose.HTML für .NET

Install-Package Aspose.HTML



Extrahieren Sie eine Tabelle aus einer Website mit C#

Mit ein paar Zeilen C#-Code können Sie Tabellen von einer Website extrahieren. Das folgende Beispiel zeigt, wie Sie alle <table>-Elemente in einem HTML-Dokument finden, separate HTML-Dateien für jede Tabelle erstellen und diese im Ausgabeverzeichnis speichern.


C#-Code zum Extrahieren von Tabellen von der Website

using Aspose.Html;
using System.IO;
using System.Linq;
using System.Collections.Generic;
...

    // Open a document you want to download tables from
    using var document = new HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/");
    { 
        // Check if there are any table elements in the document
        var tables = document.GetElementsByTagName("table");

        if (tables.Any())
        {
            var result = new List<Dictionary<string, string>>();
            var i = 0;
            foreach (var table in tables)
            {
                // Save table to new html document
                var newFileName = "table" + i + ".htm";
                var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
                newDoc.Save(Path.Combine(OutputDir, newFileName));
                i++;
            }
        }
        else
        {
            // Handle the case where no tables are found
            Console.WriteLine("No tables found in the document.");
        }
    }



Schritte zum Extrahieren von Tabellen aus der Website

Dieses C#-Beispiel zeigt, wie man Tabellen aus einer Website extrahiert und jede Tabelle als separate HTML-Datei speichert. Es enthält Schritte zum Behandeln von Szenarios, in denen Tabellen im Dokument vorhanden und nicht vorhanden sind.

  1. Verwenden Sie den Konstruktor HTMLDocument() , um ein HTML-Dokument zu initialisieren. Der Konstruktor verwendet als Parameter die URL der Website, von der Sie Tabellen herunterladen möchten.
  2. Verwenden Sie die Methode GetElementsByTagName("table") , um alle <table>-Elemente aus dem HTML-Dokument abzurufen. Speichern Sie eine Sammlung von Tabellenelementen in der Variablen tables.
  3. Überprüfen Sie, ob das Dokument Tabellenelemente enthält. Verwenden Sie die Methode Any(), um festzustellen, ob die Sammlung tables Elemente enthält. Wenn Tabellen gefunden werden:
    • Erstellen Sie einen neuen Dateinamen für die HTML-Tabellendatei.
    • Verwenden Sie den Konstruktor HTMLDocument(content, baseUri) , um eine neue Instanz eines HTML-Dokuments zu erstellen, indem Sie die Eigenschaft OuterHTML des Tabellenelements und einen neuen Dateinamen verwenden.
    • Speichern Sie das neu erstellte HTML-Dokument mit der Methode Save() im Ausgabeverzeichnis.
  4. Wenn das Dokument keine Tabellen enthält, geben Sie eine Meldung an die Konsole aus, dass keine Tabellen gefunden wurden.

Um mehr über die Aspose.HTML-API zu erfahren, besuchen Sie bitte unseren Dokumentation -Leitfaden. Aspose.HTML für .NET ist eine erweiterte HTML-Parsing-Bibliothek, mit der Sie HTML-, XHTML-, MD-, EPUB- und MHTML-Dateien erstellen, bearbeiten und konvertieren können. Im Dokumentationsabschnitt Data Extraction wird beschrieben, wie Sie mit Aspose.HTML für .NET automatisch Daten von Webseiten prüfen, sammeln und extrahieren. In den Artikeln in diesem Abschnitt erfahren Sie, wie Sie durch ein HTML-Dokument navigieren und eine detaillierte Prüfung seiner Elemente durchführen, eine Website oder Datei von einer URL speichern, verschiedene Arten von Bildern aus Websites extrahieren und vieles mehr.



HTML-Tabellengenerator – Online-App

Aspose.HTML bietet den HTML Tabellen-Generator an, eine Online-Anwendung zum Erstellen von Tabellen mit anpassbaren Optionen. Es ist kostenlos und klar zu bedienen. Füllen Sie einfach alle erforderlichen Optionen aus und erhalten Sie ein Ergebnis! Der HTML-Tabellengenerator erstellt automatisch den HTML-Tabellencode. Dieses Tool wurde entwickelt, damit Sie eine erforderliche HTML-Tabelle erhalten und so schnell wie möglich online stellen können.