Comment extraire une table d'un site Web

La possibilité d’extraire des tableaux à partir de HTML est importante pour diverses applications telles que le web scraping et l’analyse de contenu. Aspose.HTML for .NET est une bibliothèque robuste qui simplifie ce processus en offrant aux développeurs un ensemble d’outils pour naviguer et collecter des informations à partir de documents HTML de manière transparente. Explorons comment extraire des tables d’un site Web.

Tout d’abord, assurez-vous que Aspose.HTML pour .NET est installé dans votre projet. Le processus d’installation de cette bibliothèque est assez simple. Ouvrez le gestionnaire de packages NuGet, recherchez Aspose.HTML et installez. Vous pouvez également utiliser la commande suivante depuis la console Package Manager :


Installer Aspose.HTML pour .NET

Install-Package Aspose.HTML



Extraire la table du site Web en utilisant C#

Vous pouvez extraire des tables du site Web avec quelques lignes de code C#. L’exemple suivant montre comment rechercher tous les éléments <table> dans un document HTML, créer des fichiers HTML distincts pour chaque table et les enregistrer dans le répertoire de sortie.


Code C# pour extraire des tables du site Web

using Aspose.Html;
using System.IO;
using System.Linq;
using System.Collections.Generic;
...

    // Open a document you want to download tables from
    using var document = new HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/");
    { 
        // Check if there are any table elements in the document
        var tables = document.GetElementsByTagName("table");

        if (tables.Any())
        {
            var result = new List<Dictionary<string, string>>();
            var i = 0;
            foreach (var table in tables)
            {
                // Save table to new html document
                var newFileName = "table" + i + ".htm";
                var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
                newDoc.Save(Path.Combine(OutputDir, newFileName));
                i++;
            }
        }
        else
        {
            // Handle the case where no tables are found
            Console.WriteLine("No tables found in the document.");
        }
    }



Étapes pour extraire des tableaux du site Web

Cet exemple C# montre comment extraire des tables d’un site Web et enregistrer chaque table dans un fichier HTML distinct. Il comprend des étapes pour gérer les scénarios dans lesquels des tableaux sont à la fois présents et absents dans le document.

  1. Utilisez le constructeur HTMLDocument() pour initialiser un document HTML. Le constructeur prend en paramètre l’URL du site internet à partir duquel vous souhaitez télécharger les tables.
  2. Utilisez la méthode GetElementsByTagName("table") pour récupérer tous les éléments <table> du document HTML. Stockez une collection d’éléments de table dans la variable tables.
  3. Vérifiez si le document contient des éléments de tableau. Utilisez la méthode Any() pour déterminer si la collection tables contient des éléments. Si des tableaux sont trouvés :
    • Créez un nouveau nom de fichier pour le fichier de table HTML.
    • Utilisez le constructeur HTMLDocument(content, baseUri) pour créer une nouvelle instance d’un document HTML en utilisant la propriété OuterHTML de l’élément table et un nouveau nom de fichier.
    • Enregistrez le document HTML nouvellement créé dans le répertoire de sortie à l’aide de la méthode Save() .
  4. Si le document ne contient pas de tableaux, imprimez un message sur la console indiquant qu’aucun tableau n’a été trouvé.

Pour en savoir plus sur l’API Aspose.HTML, veuillez consulter notre guide documentation . Aspose.HTML pour .NET est une bibliothèque d’analyse HTML avancée qui vous permet de créer, modifier et convertir des fichiers HTML, XHTML, MD, EPUB et MHTML. La section de documentation Data Extraction décrit comment inspecter, collecter et extraire automatiquement des données de pages Web à l’aide d’Aspose.HTML pour .NET. Dans les articles de cette section, vous apprendrez à naviguer dans un document HTML et à effectuer une inspection détaillée de ses éléments, à enregistrer un site Web ou un fichier à partir d’une URL, à extraire différents types d’images de sites Web, et bien plus encore.



Générateur de tableaux HTML – Application en ligne

Aspose.HTML propose le Générateur de tableaux HTML , une application en ligne permettant de créer des tableaux avec des options personnalisables. Son utilisation est gratuite et claire. Remplissez simplement toutes les options requises et obtenez un résultat! Le générateur de tableau HTML crée automatiquement le code du tableau HTML. Cet outil a été conçu pour vous permettre d’obtenir un tableau HTML requis et de le mettre en ligne le plus rapidement possible.

Autres fonctionnalités de la bibliothèque C# prises en charge

Utilisez la bibliothèque Aspose.HTML pour .NET pour analyser et manipuler des documents HTML. Clair, sûr et simple!