Extraer metadatos de PDF a través de Python

Cómo editar metadatos de PDF con la biblioteca de Python for .NET

Cómo extraer metadatos de PDF mediante la biblioteca de Python for .NET

Para extraer metadatos de archivos PDF, utilizaremos la API Aspose.PDF for .NET, que es una API de manipulación de documentos para .NET con muchas funciones, potente y fácil de usar. Abra el administrador de paquetes NuGet, busque Aspose.pdf e instálelo. También puede usar el siguiente comando desde la consola de Package Manager.

Python Package Manager Console

pip install aspose-pdf

Extraer metadatos de PDF a través de Python


Para probar el código en su entorno, necesita Aspose.PDF for .NET.

  1. Cargue el PDF con una instancia de Document.
  2. Obtenga DocumentInfo mediante la propiedad Document.Info.
  3. Acceda y muestre diferentes propiedades de Document.Info.

<% metadata.code-block.text %>

Extraer metadatos de PDF: Python

<% metadata.code-block.subtitle %>

Input file:

File not added

Output format:

Output file:

    import aspose.pdf as ap 

    # Open document
    pdf_document = ap.Document(DIR_INPUT_METADATA + "GetFileInfo.pdf")
    # Get document information
    doc_info = pdf_document.info
    # Show document information
    print("Author :", doc_info.author)
    print("Creation Date :", doc_info.creation_date)
    print("Keywords :", doc_info.keywords)
    print("Modify Date :", doc_info.mod_date)
    print("Subject :", doc_info.subject)
    print("Title :", doc_info.title)