Ekstrak Tabel dari dokumen PDF melalui C#

Cara mengekstrak Tabel dari PDF menggunakan C# Library

Cara mengekstrak Tabel dari dokumen PDF Menggunakan .NET Library

Untuk mengekstrak tabel, kita akan menggunakan API Aspose.PDF for .NET yang merupakan API manipulasi dokumen yang kaya fitur, kuat dan mudah digunakan untuk platform net. Buka manajer paket nuget, cari Aspose.pdf dan instal. Anda juga dapat menggunakan perintah berikut dari Konsol Manajer Paket.

Package Manager Console

PM > Install-Package Aspose.PDF

Ekstrak Tabel dari PDF melalui C#


Anda perlu Aspose.PDF for .NET untuk mencoba kode di lingkungan Anda.

  1. Muat PDF dengan instance Document.
  2. Buat objek TableAbsorber untuk menemukan tabel.
  3. Kunjungi halaman pertama dengan absorber.
  4. Dapatkan tabel pertama pada halaman.
  5. Lepaskan tabel. Simpan file.

Ekstrak Tabel dari PDF - C#


Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(@"c:\tmp\the_worlds_cities_in_2018_data_booklet 7.pdf");           
    foreach (var page in pdfDocument.Pages)
    {
        Aspose.Pdf.Text.TableAbsorber absorber = new Aspose.Pdf.Text.TableAbsorber();
        absorber.Visit(page);
        foreach (AbsorbedTable table in absorber.TableList)
        {
            foreach (AbsorbedRow row in table.RowList)
            {
                foreach (AbsorbedCell cell in row.CellList)
                {
                    TextFragment textfragment = new TextFragment();
                    TextFragmentCollection textFragmentCollection = cell.TextFragments;
                    foreach (TextFragment fragment in textFragmentCollection)
                    {
                        string txt = "";
                        foreach (TextSegment seg in fragment.Segments)
                        {
                            txt += seg.Text;
                        }
                        Console.WriteLine(txt);
                    }
                }
            }
        }
    }