Estrai tabelle dal documento PDF tramite Python

Come estrarre la tabella dal PDF usando la libreria Python

Come estrarre tabelle dal documento PDF utilizzando la libreria Python for .NET

Per estrarre la tabella, useremo l’API Aspose.PDF for .NET che è un’API di manipolazione dei documenti ricca di funzionalità, potente e facile da usare per la piattaforma python-net. Apri il gestore pacchetti NuGet, cerca Aspose.pdf e installa. È inoltre possibile utilizzare il seguente comando dalla console di Gestione pacchetti.

Python Package Manager Console

pip install aspose-pdf

Estrai tabelle da PDF tramite Python


È necessario Aspose.PDF for .NET per provare il codice nel proprio ambiente.

  1. Carica il PDF con un’istanza di Document.
  2. Creare l’oggetto TableAbsorber per trovare le tabelle.
  3. Visita la prima pagina con assorbitore.
  4. Ottieni la prima tabella sulla pagina.
  5. Rimuovi la tabella. Salvate il file.

Estrai tabelle dal PDF - Python

    import aspose.pdf as ap

    input_file = DIR_INPUT_TABLE + "Table_input.pdf"
    # Load source PDF document
    pdf_document = ap.Document(input_file)
    for page in pdf_document.pages:
        absorber = ap.text.TableAbsorber()
        absorber.visit(page)
        for table in absorber.table_list:
            for row in table.row_list:
                for cell in row.cell_list:
                    text_fragment_collection = cell.text_fragments
                    for fragment in text_fragment_collection:
                        txt = ""
                        for seg in fragment.segments:
                            txt += seg.text
                        print(txt)