Extraire les métadonnées PDF via Python

Comment modifier les métadonnées d’un PDF à l’aide de la bibliothèque Python for .NET

Comment extraire les métadonnées PDF à l'aide de la bibliothèque Python for .NET

Afin d’extraire des métadonnées à partir de fichiers PDF, nous utiliserons l’API Aspose.PDF for .NET, qui est une API de manipulation de documents riche en fonctionnalités, puissante et facile à utiliser pour .NET. Ouvrez le gestionnaire de packages NuGet, recherchez Aspose.pdf et installez. Vous pouvez également utiliser la commande suivante depuis la console du gestionnaire de packages.

Python Package Manager Console

pip install aspose-pdf

Extraire les métadonnées PDF via Python


Pour essayer le code dans votre environnement, il vous faut Aspose.PDF for .NET.

  1. Chargez le PDF avec une instance de Document.
  2. Obtenir DocumentInfo à l’aide de la propriété Document.Info.
  3. Accédez aux différentes propriétés de Document.Info et affichez-la.

<% metadata.code-block.text %>

Extraire les métadonnées du PDF - Python

<% metadata.code-block.subtitle %>

Input file:

File not added

Output format:

Output file:

    import aspose.pdf as ap 

    # Open document
    pdf_document = ap.Document(DIR_INPUT_METADATA + "GetFileInfo.pdf")
    # Get document information
    doc_info = pdf_document.info
    # Show document information
    print("Author :", doc_info.author)
    print("Creation Date :", doc_info.creation_date)
    print("Keywords :", doc_info.keywords)
    print("Modify Date :", doc_info.mod_date)
    print("Subject :", doc_info.subject)
    print("Title :", doc_info.title)