Extrahieren Sie Tabellen aus PDF über C#

Extrahieren Sie die Tabelle aus dem PDF-Dokument. Verwenden Sie Aspose.PDF for .NET, um PDF-Dateien programmgesteuert zu ändern

So extrahieren Sie mithilfe der .NET Bibliothek Tabellen aus einem PDF-Dokument

Um die Tabelle zu extrahieren, verwenden wir die API Aspose.PDF for .NET, eine funktionsreiche, leistungsstarke und einfach zu verwendende API zur Dokumentenbearbeitung für die net Plattform. Öffnen Sie den NuGet -Paketmanager, suchen Sie nach Aspose.pdf und installieren Sie es. Sie können auch den folgenden Befehl von der Package Manager Console aus verwenden.

Package Manager Console

PM > Install-Package Aspose.PDF

Extrahiere Tabellen aus PDF via C#


Sie benötigen Aspose.PDF for .NET, um den Code in Ihrer Umgebung auszuprobieren.

  1. Importieren Sie die erforderlichen Bibliotheken
  2. Laden Sie das PDF-Dokument
  3. Initialisiere den TableAbsorber und iteriere über Seiten
  4. Extrahieren Sie den Tabelleninhalt
  5. Extrahierte Daten speichern (optional)

Extrahiere Tabellen aus PDF - C#

var pdfDocument = new Aspose.Pdf.Document("sample.pdf");
foreach (var page in pdfDocument.Pages)
{
    var absorber = new Aspose.Pdf.Text.TableAbsorber();
    absorber.Visit(page);
    foreach (var table in absorber.TableList)
    {
        foreach (var row in table.RowList)
        {
            foreach (var cell in row.CellList)
            {
                var textfragment = new Aspose.Pdf.Text.TextFragment();
                var textFragmentCollection = cell.TextFragments;
                foreach (var fragment in textFragmentCollection)
                {
                    string txt = "";
                    foreach (var seg in fragment.Segments)
                    {
                        txt += seg.Text;
                    }
                    Console.WriteLine(txt);
                }
            }
        }
    }
}