Extraia anexos do PDF via Python

Como extrair anexos de um PDF programaticamente com Python

Como extrair anexos usando a biblioteca Python for .NET

Para extrair anexos em arquivo PDF, usaremos a API Aspose.PDF for .NET, que é uma API de manipulação de documentos rica em recursos, poderosa e fácil de usar para a plataforma python-net. Abra o gerenciador de pacotes NuGet, procure por Aspose.pdf e instale. Você também pode usar o seguinte comando no Console do Gerenciador de Pacotes.

Python Package Manager Console

pip install aspose-pdf

Extrair anexos do PDF Python


Você precisa do Aspose.PDF para .NET para testar o código em seu ambiente.

  1. Obtenha a coleção de arquivos incorporados.
  2. Obtenha a contagem dos arquivos incorporados.
  3. Percorra a coleção para obter todos os anexos.
  4. Verifique se o objeto de parâmetro contém os parâmetros.
  5. Obtenha o Anexo e grave em arquivo ou stream.

Extrair anexo de um documento PDF

import aspose.pdf as apdf
from os import path

path_infile = path.join(self.dataDir, infile)

# Open document
document = apdf.Document(path_infile)

# Get count of the embedded files
print(f"Total files : {len(document.embedded_files)}")

# Loop through the collection to get all the attachments
for file_specification in document.embedded_files:
    print(f"Name: {file_specification.name}")
    print(f"Description: {file_specification.description}")
    print(f"Mime Type: {file_specification.mime_type}")

    # Check if parameter object contains the parameters
    if file_specification.params is not None:
        print(f"CheckSum: {file_specification.params.check_sum}")
        print(f"Creation Date: {file_specification.params.creation_date}")
        print(f"Modification Date: {file_specification.params.mod_date}")
        print(f"Size: {file_specification.params.size}")

    # Get the attachment and write to file
    with open(
        path.join(self.dataDir, "export_" + file_specification.name), "wb"
    ) as f:
        f.write(file_specification.contents.readall())