Extraire les métadonnées PDF via Python

Extrayez les métadonnées d’un document PDF. Utilisez Aspose.PDF pour Python for .NET pour modifier les fichiers PDF par programmation

Comment extraire les métadonnées PDF à l'aide de la bibliothèque Python

Extrayez les métadonnées du PDF à l’aide de Aspose.PDF for Python. L’accès aux métadonnées d’un document signifie obtenir des informations sur ce fichier, telles que son titre, son auteur, sa date de création et des mots clés spécifiques. Extrayez les métadonnées, permet d’organiser plus efficacement une grande collection de PDF. Les données extraites des métadonnées améliorent la façon dont vous pouvez rechercher des fichiers. Les utilisateurs peuvent localiser rapidement des documents spécifiques à l’aide de mots clés ou de détails trouvés dans les métadonnées extraites. L’extraction de métadonnées fournit des informations précieuses sur le contenu d’un fichier. Il peut fournir un bref résumé des principaux détails du fichier, ce qui permet de comprendre plus facilement le sujet du document sans avoir à l’ouvrir. L’extraction des métadonnées permet de garantir l’authenticité d’un document. Vous pouvez vérifier des détails tels que le nom de l’auteur lors de sa création ou l’historique de ses modifications. Cette vérification est cruciale pour confirmer la fiabilité d’un PDF. En fournissant des informations concises sur le contenu d’un PDF, les métadonnées extraites améliorent considérablement l’expérience utilisateur. Il aide les utilisateurs à identifier et à utiliser facilement les documents. Dans l’ensemble, l’extraction des métadonnées des PDF présente de nombreux avantages, tels qu’une gestion plus efficace des documents, de meilleures options de recherche, la conformité aux normes et une expérience utilisateur globale améliorée. Extrayez les métadonnées du PDF via Aspose et résolvez toutes les tâches nécessaires au travail avec les données. Afin d’extraire les métadonnées des fichiers PDF, nous utiliserons l’API Aspose.PDF pour .NET, qui est une API de manipulation de documents pour .NET riche en fonctionnalités, puissante et facile à utiliser. Ouvrez le gestionnaire de packages NuGet, recherchez Aspose.PDF et installez-le. Vous pouvez également utiliser la commande suivante depuis la console Package Manager.

Console

pip install aspose-pdf

Extraire les métadonnées PDF via Python

Pour essayer le code dans votre environnement, il vous faut Aspose.PDF for .NET.

Chargez le PDF avec une instance de Document.
Obtenir DocumentInfo à l’aide de la propriété Document.Info.
Accédez aux différentes propriétés de Document.Info et affichez-la.

L’extrait de code Python fourni montre comment extraire les métadonnées de la bibliothèque PDF by Aspose.PDF. Il ouvre un fichier PDF nommé « GetFileInfo.pdf » situé dans le répertoire spécifié par la variable « DIR_INPUT_METADATA ». Le code extrait divers détails du document à l’aide de la fonction « info ». Il affiche des informations de métadonnées spécifiques du PDF, telles que le nom de l’auteur, la date de création, les mots clés, la date de modification, le sujet et le titre. Le code utilise la fonction « print » pour afficher ces informations. Cet extrait de code est un exemple simplifié de la manière dont vous pouvez utiliser une bibliothèque ou un framework Aspose.PDF pour extraire les métadonnées d’un fichier PDF.

Extraire les métadonnées du PDF - Python

Cet exemple de code montre comment extraire les informations de métadonnées du fichier PDF

Input file:

Upload a file

File not added

Output format:

Output file:

import aspose.pdf as apdf

from os import path

input_file = path.join(self.data_dir, infile)
# Open document
document = apdf.Document(input_file)

# Get document information
doc_info = document.info
# Show document information
print("Author :", doc_info.author)
print("Creation Date :", doc_info.creation_date)
print("Keywords :", doc_info.keywords)
print("Modify Date :", doc_info.mod_date)
print("Subject :", doc_info.subject)
print("Title :", doc_info.title)