Wyodrębnij tabele z pliku PDF przez C#

Wyodrębnij tabelę z dokumentu PDF. Użyj pliku Aspose.PDF dla .NET, aby programowo modyfikować pliki PDF

Jak wyodrębnić tabele z dokumentu PDF przy użyciu biblioteki .NET

Aby wyodrębnić tabelę, użyjemy interfejsu API Aspose.PDF for .NET, który jest bogatym w funkcje, wydajnym i łatwym w użyciu interfejsem API do manipulacji dokumentami dla platformy net. Otwórz menedżera pakietów NuGet, wyszukaj Aspose.pdf i zainstaluj. Można również użyć następującego polecenia z konsoli Menedżera pakietów.

Package Manager Console

PM > Install-Package Aspose.PDF

Wyodrębnij tabele z pliku PDF za pośrednictwem C#


Potrzebujesz Aspose.PDF for .NET, aby wypróbować kod w swoim środowisku.

  1. Importuj niezbędne biblioteki
  2. Załaduj dokument PDF
  3. Zainicjuj TableAbsorber i iteruj na stronach
  4. Wyodrębnij zawartość tabeli
  5. Zapisz wyodrębnione dane (opcjonalnie)

Wyodrębnij tabele z PDF - C#

var pdfDocument = new Aspose.Pdf.Document("sample.pdf");
foreach (var page in pdfDocument.Pages)
{
    var absorber = new Aspose.Pdf.Text.TableAbsorber();
    absorber.Visit(page);
    foreach (var table in absorber.TableList)
    {
        foreach (var row in table.RowList)
        {
            foreach (var cell in row.CellList)
            {
                var textfragment = new Aspose.Pdf.Text.TextFragment();
                var textFragmentCollection = cell.TextFragments;
                foreach (var fragment in textFragmentCollection)
                {
                    string txt = "";
                    foreach (var seg in fragment.Segments)
                    {
                        txt += seg.Text;
                    }
                    Console.WriteLine(txt);
                }
            }
        }
    }
}