Estrai tabelle da PDF tramite Python

Estrai la tabella dal documento PDF. Usa Aspose.PDF per Python for .NET per modificare i file PDF a livello di codice

Come estrarre tabelle dal documento PDF utilizzando la libreria Python for .NET

Per estrarre la tabella, useremo l’API Aspose.PDF for .NET che è un’API di manipolazione dei documenti ricca di funzionalità, potente e facile da usare per la piattaforma python-net. Apri il gestore pacchetti NuGet, cerca Aspose.pdf e installa. È inoltre possibile utilizzare il seguente comando dalla console di Gestione pacchetti.

Python Package Manager Console

pip install aspose-pdf

Estrai tabelle da PDF tramite Python


È necessario Aspose.PDF for .NET per provare il codice nel proprio ambiente.

  1. Carica il PDF con un’istanza di Document.
  2. Creare l’oggetto TableAbsorber per trovare le tabelle.
  3. Visita la prima pagina con assorbitore.
  4. Ottieni la prima tabella sulla pagina.
  5. Rimuovi la tabella. Salvate il file.

Estrai tabelle dal PDF - Python

import aspose.pdf as ap

input_file = DIR_INPUT_TABLE + "Table_input.pdf"
# Load source PDF document
pdf_document = ap.Document(input_file)
for page in pdf_document.pages:
    absorber = ap.text.TableAbsorber()
    absorber.visit(page)
    for table in absorber.table_list:
        for row in table.row_list:
            for cell in row.cell_list:
                text_fragment_collection = cell.text_fragments
                for fragment in text_fragment_collection:
                    txt = ""
                    for seg in fragment.segments:
                        txt += seg.text
                    print(txt)