Extraia metadados de PDF via Python

Como editar metadados de PDF usando a biblioteca Python for .NET

Como extrair metadados de PDF usando a biblioteca Python for .NET

Para extrair metadados de arquivos PDF, usaremos a API Aspose.PDF for .NET, que é uma API de manipulação de documentos rica em recursos, poderosa e fácil de usar para .NET. Abra o gerenciador de pacotes NuGet, procure por Aspose.pdf e instale. Você também pode usar o seguinte comando no Console do Gerenciador de Pacotes.

Python Package Manager Console

pip install aspose-pdf

Extraia metadados de PDF via Python


Para testar o código em seu ambiente, você precisa Aspose.PDF for .NET.

  1. Carregue o PDF com uma instância de Document.
  2. Obtenha DocumentInfo usando a propriedade Document.Info.
  3. Acesse e exiba propriedades diferentes do Document.Info.

<% metadata.code-block.text %>

Extraia metadados de PDF - Python

<% metadata.code-block.subtitle %>

Input file:

File not added

Output format:

Output file:

    import aspose.pdf as ap 

    # Open document
    pdf_document = ap.Document(DIR_INPUT_METADATA + "GetFileInfo.pdf")
    # Get document information
    doc_info = pdf_document.info
    # Show document information
    print("Author :", doc_info.author)
    print("Creation Date :", doc_info.creation_date)
    print("Keywords :", doc_info.keywords)
    print("Modify Date :", doc_info.mod_date)
    print("Subject :", doc_info.subject)
    print("Title :", doc_info.title)