Estrai tabelle da PDF tramite C#

Estrai la tabella dal documento PDF. Usa Aspose.PDF per .NET per modificare i file PDF a livello di codice

Come estrarre tabelle dal documento PDF utilizzando la libreria .NET

Per estrarre la tabella, useremo l’API Aspose.PDF for .NET che è un’API di manipolazione dei documenti ricca di funzionalità, potente e facile da usare per la piattaforma net. Apri il gestore pacchetti NuGet, cerca Aspose.pdf e installa. È inoltre possibile utilizzare il seguente comando dalla console di Gestione pacchetti.

Package Manager Console

PM > Install-Package Aspose.PDF

Estrai tabelle da PDF tramite C#


È necessario Aspose.PDF for .NET per provare il codice nel proprio ambiente.

  1. Importa le librerie necessarie
  2. Carica il documento PDF
  3. Inizializza il TableAbsorber e ripeti l’iterazione sulle pagine
  4. Estrai il contenuto della tabella
  5. Salva i dati estratti (opzionale)

Estrai tabelle dal PDF - C#

var pdfDocument = new Aspose.Pdf.Document("sample.pdf");
foreach (var page in pdfDocument.Pages)
{
    var absorber = new Aspose.Pdf.Text.TableAbsorber();
    absorber.Visit(page);
    foreach (var table in absorber.TableList)
    {
        foreach (var row in table.RowList)
        {
            foreach (var cell in row.CellList)
            {
                var textfragment = new Aspose.Pdf.Text.TextFragment();
                var textFragmentCollection = cell.TextFragments;
                foreach (var fragment in textFragmentCollection)
                {
                    string txt = "";
                    foreach (var seg in fragment.Segments)
                    {
                        txt += seg.Text;
                    }
                    Console.WriteLine(txt);
                }
            }
        }
    }
}