Extraire des tableaux d’un PDF via C#

Extraire le tableau d’un document PDF. Utilisez Aspose.PDF pour .NET pour modifier les fichiers PDF par programmation

Comment extraire des tableaux d'un document PDF à l'aide de la bibliothèque .NET

Afin d’extraire le tableau, nous utiliserons l’API Aspose.PDF for .NET qui est une API de manipulation de documents riche en fonctionnalités, puissante et facile à utiliser pour la plate-forme net. Ouvrez le gestionnaire de packages NuGet, recherchez Aspose.pdf et installez. Vous pouvez également utiliser la commande suivante depuis la console du gestionnaire de packages.

Package Manager Console

PM > Install-Package Aspose.PDF

Extraire des tableaux d’un PDF via C#


Vous devez Aspose.PDF for .NET essayer le code dans votre environnement.

  1. Importer les bibliothèques nécessaires
  2. Charger le document PDF
  3. Initialiser le TableAbsorber et parcourir les pages
  4. Extraire le contenu du tableau
  5. Enregistrer les données extraites (facultatif)

Extraire les tableaux du PDF - C#

var pdfDocument = new Aspose.Pdf.Document("sample.pdf");
foreach (var page in pdfDocument.Pages)
{
    var absorber = new Aspose.Pdf.Text.TableAbsorber();
    absorber.Visit(page);
    foreach (var table in absorber.TableList)
    {
        foreach (var row in table.RowList)
        {
            foreach (var cell in row.CellList)
            {
                var textfragment = new Aspose.Pdf.Text.TextFragment();
                var textFragmentCollection = cell.TextFragments;
                foreach (var fragment in textFragmentCollection)
                {
                    string txt = "";
                    foreach (var seg in fragment.Segments)
                    {
                        txt += seg.Text;
                    }
                    Console.WriteLine(txt);
                }
            }
        }
    }
}