Comment extraire un tableau du HTML

La possibilité d’extraire des tableaux à partir de HTML est importante pour diverses applications telles que le web scraping et l’analyse de contenu. Aspose.HTML for .NET est une bibliothèque robuste qui simplifie ce processus en offrant aux développeurs un ensemble d’outils pour naviguer et collecter des informations à partir de documents HTML de manière transparente. Voyons comment extraire des tableaux de documents HTML.

Tout d’abord, assurez-vous que Aspose.HTML for .NET est installé dans votre projet. Le processus d’installation de cette bibliothèque est assez simple. Ouvrez le gestionnaire de packages NuGet, recherchez Aspose.HTML et installez. Vous pouvez également utiliser la commande suivante depuis la console Package Manager:


Installer Aspose.HTML for .NET

Install-Package Aspose.HTML



Extraire des tableaux HTML en utilisant C#

L’API Aspose.HTML for .NET fournit un ensemble d’outils puissants pour analyser et collecter des informations à partir de documents HTML. Vous pouvez extraire des tableaux HTML avec quelques lignes de code C#. L’exemple suivant montre comment rechercher tous les éléments <table> dans un document HTML, créer des fichiers HTML distincts pour chaque table et les enregistrer dans le répertoire de sortie. Chaque fichier HTML de sortie contient un seul tableau du document HTML source.


Code C# pour extraire des tableaux du HTML

using Aspose.Html;
using System.IO;
using System.Collections.Generic;
...

    // Prepare a path to a source HTML file
    string documentPath = Path.Combine(DataDir, "tables.html");

    // Create an instance of an HTML document
    using (var document = new HTMLDocument(documentPath))
    {
        var tables = document.GetElementsByTagName("table");
        var result = new List<Dictionary<string, string>>();
        var i = 0;
        foreach (var table in tables)
        {
            // Save table to new html document
            var newFileName = "table" + i + ".htm";
            var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
            newDoc.Save(Path.Combine(OutputDir, newFileName));
            i++;
        }
    }



Étapes pour extraire des tableaux du HTML

  1. Utilisez le constructeur HTMLDocument() pour initialiser un document HTML. Passez le chemin du fichier HTML source en paramètre au constructeur.
  2. Utilisez la méthode GetElementsByTagName("table") pour collecter tous les éléments <table>. La méthode renvoie une liste des éléments <table> du document HTML.
  3. Démarrez une boucle pour parcourir chaque élément du tableau :
    • Créez un nouveau nom de fichier pour le fichier de table HTML.
    • Utilisez le constructeur HTMLDocument(content, baseUri) pour créer une nouvelle instance d’un document HTML en utilisant la propriété OuterHTML de l’élément table et un nouveau nom de fichier.
    • Enregistrez le document HTML nouvellement créé dans le répertoire de sortie à l’aide de la méthode Save() .

Pour en savoir plus sur l’API Aspose.HTML, veuillez consulter notre guide documentation . Aspose.HTML for .NET est une bibliothèque d’analyse HTML avancée qui vous permet de créer, modifier et convertir des fichiers HTML, XHTML, MD, EPUB et MHTML. La section de documentation Data Extraction décrit comment inspecter, collecter et extraire automatiquement des données de pages Web à l’aide d’Aspose.HTML for .NET. Dans les articles de cette section, vous apprendrez à naviguer dans un document HTML et à effectuer une inspection détaillée de ses éléments, à enregistrer un site Web ou un fichier à partir d’une URL, à extraire différents types d’images de sites Web, et bien plus encore.



Générateur de tableaux HTML – Application en ligne

Aspose.HTML propose le Générateur de tableaux HTML , une application en ligne permettant de créer des tableaux avec des options personnalisables. Son utilisation est gratuite et claire. Remplissez simplement toutes les options requises et obtenez un résultat! Le générateur de tableau HTML crée automatiquement le code du tableau HTML. Cet outil a été conçu pour vous permettre d’obtenir un tableau HTML requis et de le mettre en ligne le plus rapidement possible.

Autres fonctionnalités de la bibliothèque C# prises en charge

Utilisez la bibliothèque Aspose.HTML for .NET pour analyser et manipuler des documents HTML. Clair, sûr et simple!