Extraer tablas de un PDF a través de Python

Extraer la tabla del documento PDF. Utilice Aspose.PDF para que Python for .NET modifique los archivos PDF mediante programación

Cómo extraer tablas de un documento PDF con la biblioteca Python for .NET

Para extraer la tabla, usaremos la API Aspose.PDF for .NET, que es una API de manipulación de documentos rica en funciones, potente y fácil de usar para la plataforma python-net. Abra el administrador de paquetes NuGet, busque Aspose.pdf e instálelo. También puede usar el siguiente comando desde la consola de Package Manager.

Python Package Manager Console

pip install aspose-pdf

Extraer tablas del PDF mediante Python


Necesita Aspose.PDF for .NET para probar el código en su entorno.

  1. Cargue el PDF con una instancia de Document.
  2. Crea el objeto TableAbsorber para buscar tablas.
  3. Visita la primera página con absorbedor.
  4. Consigue la primera mesa de la página.
  5. Quita la mesa. Guarde el archivo.

Extraer tablas del PDF: Python

import aspose.pdf as ap

input_file = DIR_INPUT_TABLE + "Table_input.pdf"
# Load source PDF document
pdf_document = ap.Document(input_file)
for page in pdf_document.pages:
    absorber = ap.text.TableAbsorber()
    absorber.visit(page)
    for table in absorber.table_list:
        for row in table.row_list:
            for cell in row.cell_list:
                text_fragment_collection = cell.text_fragments
                for fragment in text_fragment_collection:
                    txt = ""
                    for seg in fragment.segments:
                        txt += seg.text
                    print(txt)