Ekstrak Tabel dari PDF melalui Python

Ekstrak tabel dari dokumen PDF. Gunakan Aspose.PDF untuk Python for .NET untuk memodifikasi file PDF secara terprogram

Cara mengekstrak Tabel dari dokumen PDF Menggunakan Python for .NET Library

Untuk mengekstrak tabel, gunakan Aspose.PDF for Python via .NET, API yang canggih dan mudah digunakan. Buka PyPI, cari aspose-pdf, dan instal. Atau, jalankan perintah:

Console

pip install aspose-pdf

Ekstrak Tabel dari PDF melalui Python


Anda perlu Aspose.PDF for .NET untuk mencoba kode di lingkungan Anda.

  1. Impor Perpustakaan yang Diperlukan
  2. Muat Dokumen PDF
  3. Inisialisasi TableAbsorber dan ulangi halaman
  4. Ekstrak konten tabel
  5. Simpan data yang diekstraksi (opsional)

Ekstrak Tabel dari PDF - Python

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)

# Load source PDF document
pdf_document = apdf.Document(path_infile)
for page in pdf_document.pages:
    absorber = apdf.text.TableAbsorber()
    absorber.visit(page)
    for table in absorber.table_list:
        for row in table.row_list:
            for cell in row.cell_list:
                text_fragment_collection = cell.text_fragments
                for fragment in text_fragment_collection:
                    txt = ""
                    for seg in fragment.segments:
                        txt += seg.text
                    print(txt)