Extraiga datos de formularios PDF a través de Python

Extraiga los campos de datos de usuario de un documento PDF rellenable. Utilice Aspose.PDF para Python for .NET para modificar archivos PDF mediante programación

Cómo extraer datos de formularios PDF con la biblioteca Python

Para extraer formularios PDF (Acroforms) en un archivo PDF, utilizaremos la API Aspose.PDF para Python a través de.NET, que es una API de manipulación de documentos para la aplicación Python rica en funciones, potente y fácil de usar. Puedes descargar su última versión directamente desde el administrador de paquetes PyPI, buscar aspose-pdf e instalarla. También puede usar el siguiente comando desde la consola o el terminal.

Cómo extraer AcroForm en PDF usando Python


Necesita Aspose.PDF para .NET para probar el código en su entorno.

  1. Cargue el PDF en una instancia de la clase Document.
  2. Obtenga valores de todos los campos usando la clase Document.Form.
  3. Analice los nombres y valores si es necesario.
  4. Cargar PDF en una instancia de la clase Document
  5. Obtenga valores de todos los campos usando la clase Document.Form

Extraer datos de formularios PDF - Python

Este código de ejemplo muestra cómo extraer datos de formularios PDF en PDF usando Python

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)
form = apdf.facades.Form(path_infile)

form_values = {}

for formField in form.field_names:
    form_values[formField] = form.get_field(formField)

print(form_values)