Python aracılığıyla PDF’den Tabloları Çıkarın

PDF belgesinden tabloyu ayıklayın. PDF dosyalarını programlı olarak değiştirmek için Python for .NET için Aspose.PDF dosyasını kullanın

PDF belgesinden Tablolar nasıl çıkarılır Python for .NET Kitaplığı Kullanarak

Tabloyu çıkarmak için python-net platformu için zengin özelliklere sahip, güçlü ve kullanımı kolay bir belge işleme API’si olan .NET için Aspose.PDF API’sini kullanacağız. NuGet paket yöneticisini açın, Aspose.PDF öğesini arayın ve yükleyin. Paket Yöneticisi Konsolu’ndan aşağıdaki komutu da kullanabilirsiniz.

Python Package Manager Console

pip install aspose-pdf

Tabloları PDF’den Python aracılığıyla çıkarın


Ortamınızdaki kodu denemek için Aspose.PDF for .NET gerekir.

  1. PDF’yi bir Belge örneğiyle yükleyin.
  2. Tabloları bulmak için TableAbsorber nesnesi oluşturun.
  3. Emici ile ilk sayfayı ziyaret edin.
  4. Sayfadaki ilk tabloyu alın.
  5. Tabloyu çıkarın. Dosyayı kaydedin.

PDF'den Tabloları Çıkarın - Python

import aspose.pdf as ap

input_file = DIR_INPUT_TABLE + "Table_input.pdf"
# Load source PDF document
pdf_document = ap.Document(input_file)
for page in pdf_document.pages:
    absorber = ap.text.TableAbsorber()
    absorber.visit(page)
    for table in absorber.table_list:
        for row in table.row_list:
            for cell in row.cell_list:
                text_fragment_collection = cell.text_fragments
                for fragment in text_fragment_collection:
                    txt = ""
                    for seg in fragment.segments:
                        txt += seg.text
                    print(txt)