Ekstrak Tabel dari dokumen PDF melalui Python

Cara mengekstrak Tabel dari PDF menggunakan Python Library

Cara mengekstrak Tabel dari dokumen PDF Menggunakan Python for .NET Library

Untuk mengekstrak tabel, kita akan menggunakan API Aspose.PDF for .NET yang merupakan API manipulasi dokumen yang kaya fitur, kuat dan mudah digunakan untuk platform python-net. Buka manajer paket nuget, cari Aspose.pdf dan instal. Anda juga dapat menggunakan perintah berikut dari Konsol Manajer Paket.

Python Package Manager Console

pip install aspose-pdf

Ekstrak Tabel dari PDF melalui Python


Anda perlu Aspose.PDF for .NET untuk mencoba kode di lingkungan Anda.

  1. Muat PDF dengan instance Document.
  2. Buat objek TableAbsorber untuk menemukan tabel.
  3. Kunjungi halaman pertama dengan absorber.
  4. Dapatkan tabel pertama pada halaman.
  5. Lepaskan tabel. Simpan file.

Ekstrak Tabel dari PDF - Python

    import aspose.pdf as ap

    input_file = DIR_INPUT_TABLE + "Table_input.pdf"
    # Load source PDF document
    pdf_document = ap.Document(input_file)
    for page in pdf_document.pages:
        absorber = ap.text.TableAbsorber()
        absorber.visit(page)
        for table in absorber.table_list:
            for row in table.row_list:
                for cell in row.cell_list:
                    text_fragment_collection = cell.text_fragments
                    for fragment in text_fragment_collection:
                        txt = ""
                        for seg in fragment.segments:
                            txt += seg.text
                        print(txt)