Ekstrak Tabel dari PDF melalui Python

Ekstrak tabel dari dokumen PDF. Gunakan Aspose.PDF untuk Python for .NET untuk memodifikasi file PDF secara terprogram

Cara mengekstrak Tabel dari dokumen PDF Menggunakan Python for .NET Library

Untuk mengekstrak tabel, kita akan menggunakan API Aspose.PDF for .NET yang merupakan API manipulasi dokumen yang kaya fitur, kuat dan mudah digunakan untuk platform python-net. Buka manajer paket nuget, cari Aspose.pdf dan instal. Anda juga dapat menggunakan perintah berikut dari Konsol Manajer Paket.

Python Package Manager Console

pip install aspose-pdf

Ekstrak Tabel dari PDF melalui Python


Anda perlu Aspose.PDF for .NET untuk mencoba kode di lingkungan Anda.

  1. Muat PDF dengan instance Document.
  2. Buat objek TableAbsorber untuk menemukan tabel.
  3. Kunjungi halaman pertama dengan absorber.
  4. Dapatkan tabel pertama pada halaman.
  5. Lepaskan tabel. Simpan file.

Ekstrak Tabel dari PDF - Python

import aspose.pdf as ap

input_file = DIR_INPUT_TABLE + "Table_input.pdf"
# Load source PDF document
pdf_document = ap.Document(input_file)
for page in pdf_document.pages:
    absorber = ap.text.TableAbsorber()
    absorber.visit(page)
    for table in absorber.table_list:
        for row in table.row_list:
            for cell in row.cell_list:
                text_fragment_collection = cell.text_fragments
                for fragment in text_fragment_collection:
                    txt = ""
                    for seg in fragment.segments:
                        txt += seg.text
                    print(txt)