Wyodrębnij tabele z dokumentu PDF za pośrednictwem C#

Jak wyodrębnić tabelę z pliku PDF za pomocą biblioteki C#

Jak wyodrębnić tabele z dokumentu PDF przy użyciu biblioteki .NET

Aby wyodrębnić tabelę, użyjemy interfejsu API Aspose.PDF for .NET, który jest bogatym w funkcje, wydajnym i łatwym w użyciu interfejsem API do manipulacji dokumentami dla platformy net. Otwórz menedżera pakietów NuGet, wyszukaj Aspose.pdf i zainstaluj. Można również użyć następującego polecenia z konsoli Menedżera pakietów.

Package Manager Console

PM > Install-Package Aspose.PDF

Wyodrębnij tabele z pliku PDF za pośrednictwem C#


Potrzebujesz Aspose.PDF for .NET, aby wypróbować kod w swoim środowisku.

  1. Załaduj plik PDF z wystąpieniem dokumentu.
  2. Tworzenie obiektu TableAbsorber znaleźć tabele.
  3. Odwiedź pierwszą stronę z absorberem.
  4. Zdobądź pierwszą tabelę na stronie.
  5. Usuń tabelę. Zapisz plik.

Wyodrębnij tabele z PDF - C#


Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(@"c:\tmp\the_worlds_cities_in_2018_data_booklet 7.pdf");           
    foreach (var page in pdfDocument.Pages)
    {
        Aspose.Pdf.Text.TableAbsorber absorber = new Aspose.Pdf.Text.TableAbsorber();
        absorber.Visit(page);
        foreach (AbsorbedTable table in absorber.TableList)
        {
            foreach (AbsorbedRow row in table.RowList)
            {
                foreach (AbsorbedCell cell in row.CellList)
                {
                    TextFragment textfragment = new TextFragment();
                    TextFragmentCollection textFragmentCollection = cell.TextFragments;
                    foreach (TextFragment fragment in textFragmentCollection)
                    {
                        string txt = "";
                        foreach (TextSegment seg in fragment.Segments)
                        {
                            txt += seg.Text;
                        }
                        Console.WriteLine(txt);
                    }
                }
            }
        }
    }