Извлекайте данные из PDF-форм с помощью Python

Извлеките поля пользовательских данных из заполняемого PDF-документа. Используйте Aspose.PDF для Python for .NET для программного изменения PDF-файлов

Как извлечь данные из PDF-форм с помощью библиотеки Python for .NET

Чтобы извлечь данные из PDF-форм (Acroforms) в PDF-файл, мы будем использовать API Aspose.PDF для .NET, который представляет собой многофункциональный, мощный и простой в использовании API для работы с документами для платформы python-net. Последнюю версию можно загрузить непосредственно из диспетчера пакетов NuGet, найти ASpose.pdf и установить. Можно также использовать следующую команду из консоли диспетчера пакетов.

Как извлечь AcroForm в PDF с помощью Python


Вам нужно Aspose.PDF for .NET попробовать код в своей среде.

  1. Загрузите PDF в экземпляр класса Document.
  2. Получение значений из всех полей с помощью класса Document.Form.
  3. При необходимости проанализируйте имена и значения.
  4. Загрузить PDF в экземпляр класса Document
  5. Получение значений из всех полей с помощью класса Document.Form

Извлечение данных из PDF-форм - Python

В этом примере кода показано, как извлекать данные из PDF-форм в PDF с помощью Python

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)
form = apdf.facades.Form(path_infile)

form_values = {}

for formField in form.field_names:
    form_values[formField] = form.get_field(formField)

print(form_values)