Extraer tablas de un PDF a través de Python

Extraer la tabla del documento PDF. Utilice Aspose.PDF for que Python for .NET modifique los archivos PDF mediante programación

Cómo extraer tablas de un documento PDF con la biblioteca Python for .NET

Para extraer la tabla, use Aspose.PDF for Python via .NET, una API potente y fácil de usar. Abra PyPI, busque aspose-pdf e instálelo. También puede ejecutar el comando:

Console

pip install aspose-pdf

Extraer tablas del PDF mediante Python


Necesita Aspose.PDF for .NET para probar el código en su entorno.

  1. Importe las bibliotecas necesarias
  2. Cargue el documento PDF
  3. Inicializa el TableAbsorber e itera sobre las páginas
  4. Extraer el contenido de la tabla
  5. Guarde los datos extraídos (opcional)

Extraer tablas del PDF: Python

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)

# Load source PDF document
pdf_document = apdf.Document(path_infile)
for page in pdf_document.pages:
    absorber = apdf.text.TableAbsorber()
    absorber.visit(page)
    for table in absorber.table_list:
        for row in table.row_list:
            for cell in row.cell_list:
                text_fragment_collection = cell.text_fragments
                for fragment in text_fragment_collection:
                    txt = ""
                    for seg in fragment.segments:
                        txt += seg.text
                    print(txt)