Extraire des données de formulaires PDF via Python

Extrayez les champs de données utilisateur d’un document PDF à remplir. Utilisez Aspose.PDF pour Python for .NET pour modifier les fichiers PDF par programmation

Comment extraire des données de formulaires PDF à l'aide de la bibliothèque Python

Afin d’extraire des formulaires PDF (Acroforms) dans un fichier PDF, nous utiliserons l’API Aspose.PDF pour Python via .NET, qui est une API de manipulation de documents riche en fonctionnalités, puissante et facile à utiliser pour l’application Python. Vous pouvez télécharger sa dernière version directement depuis le gestionnaire de paquets PyPI, rechercher aspose-pdf et l’installer. Vous pouvez également utiliser la commande suivante depuis la console ou le terminal.

Comment extraire AcroForm en PDF à l’aide de Python


Vous avez besoin de Aspose.PDF pour .NET pour essayer le code dans votre environnement.

  1. Chargez le PDF dans une instance de la classe Document.
  2. Obtenez les valeurs de tous les champs à l’aide de la classe Document.Form.
  3. Analysez les noms et les valeurs si nécessaire.
  4. Charger un PDF dans une instance de la classe Document
  5. Obtenez les valeurs de tous les champs à l’aide de la classe Document.Form

Extraire des données à partir de formulaires PDF - Python

Cet exemple de code montre comment extraire des données de formulaires PDF au format PDF à l'aide de Python

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)
form = apdf.facades.Form(path_infile)

form_values = {}

for formField in form.field_names:
    form_values[formField] = form.get_field(formField)

print(form_values)