Python aracılığıyla PDF’den Tabloları Çıkarın

PDF belgesinden tabloyu ayıklayın. PDF dosyalarını programlı olarak değiştirmek için Python for .NET için Aspose.PDF dosyasını kullanın

PDF belgesinden Tablolar nasıl çıkarılır Python for .NET Kitaplığı Kullanarak

Tabloyu çıkarmak için, güçlü ve kullanımı kolay bir API olan Aspose.PDF for Python via .NET kullanın. PyPI‘yi açın, aspose-pdf‘i arayın ve yükleyin. Alternatif olarak, şu komutu çalıştırın:

Console

pip install aspose-pdf

Tabloları PDF’den Python aracılığıyla çıkarın


Ortamınızdaki kodu denemek için Aspose.PDF for .NET gerekir.

  1. Gerekli Kütüphaneleri İçe Aktar
  2. PDF Belgesini Yükle
  3. TableAbsorber öğesini başlatın ve sayfalar üzerinde yineleyin
  4. Tablo içeriğini ayıklayın
  5. Çıkarılan verileri kaydet (isteğe bağlı)

PDF'den Tabloları Çıkarın - Python

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)

# Load source PDF document
pdf_document = apdf.Document(path_infile)
for page in pdf_document.pages:
    absorber = apdf.text.TableAbsorber()
    absorber.visit(page)
    for table in absorber.table_list:
        for row in table.row_list:
            for cell in row.cell_list:
                text_fragment_collection = cell.text_fragments
                for fragment in text_fragment_collection:
                    txt = ""
                    for seg in fragment.segments:
                        txt += seg.text
                    print(txt)