Estrai i metadati PDF tramite Python

Estrai i metadati dal documento PDF. Usa Aspose.PDF per Python for .NET per modificare i file PDF a livello di codice

Come estrarre i metadati PDF utilizzando la libreria Python

Estrai i metadati dal PDF usando Aspose.PDF per Python. Accedere ai metadati di un documento significa ottenere informazioni su quel file, come titolo, autore, data di creazione e parole chiave specifiche. Estrarre i metadati aiuta a organizzare una vasta raccolta di PDF in modo più efficace. I dati estratti dai metadati migliorano il modo in cui è possibile cercare i file. Gli utenti possono individuare rapidamente documenti specifici utilizzando parole chiave o dettagli presenti nei metadati estratti. L’estrazione dei metadati fornisce informazioni preziose sul contenuto di un file. Potrebbe offrire un breve riepilogo dei dettagli chiave del file, facilitando la comprensione di cosa tratta il documento senza doverlo aprire. L’estrazione dei metadati aiuta a garantire l’autenticità del documento. Puoi controllare dettagli come il nome dell’autore al momento della creazione o la cronologia delle modifiche. Questa verifica è fondamentale per confermare l’affidabilità di un PDF. Offrendo dettagli concisi sul contenuto di un PDF, i metadati estratti migliorano notevolmente l’esperienza dell’utente. Aiuta gli utenti a identificare e utilizzare facilmente i documenti. Nel complesso, l’estrazione dei metadati PDF offre molti vantaggi, come una gestione più efficiente dei documenti, migliori opzioni di ricerca, conformità agli standard e un’esperienza utente complessivamente migliorata. Estrai i metadati dal PDF tramite Aspose e risolvi tutte le attività necessarie nel lavoro con i dati. Per estrarre i metadati dai file PDF, utilizzeremo l’API Aspose.PDF for .NET, un’API di manipolazione dei documenti per .NET ricca di funzionalità, potente e facile da usare. Apri il gestore di pacchetti NuGet, cerca ASPOSE.pdf e installa. Puoi anche usare il seguente comando dalla console di Package Manager.

Console

pip install aspose-pdf

Estrai i metadati PDF tramite Python

Per provare il codice nel tuo ambiente, devi Aspose.PDF for .NET.

Carica il PDF con un’istanza di Document.
Ottenere DocumentInfo utilizzando la proprietà Document.
Accedere e visualizzare diverse proprietà Document.Info.

Lo snippet di codice Python fornito mostra come estrarre i metadati dal PDF tramite la libreria Aspose.PDF. Apre un file PDF denominato ‘GetFileInfo.pdf’ situato nella directory specificata dalla variabile ‘DIR_INPUT_METADATA’. Il codice recupera vari dettagli dal documento utilizzando la funzione «info». Visualizza informazioni specifiche sui metadati del PDF, come il nome dell’autore, la data di creazione, le parole chiave, la data di modifica, l’oggetto e il titolo. Il codice utilizza la funzione «stampa» per mostrare queste informazioni. Questo frammento di codice è un esempio semplificato di come è possibile utilizzare una libreria o un framework Aspose.PDF per estrarre i metadati da un file PDF.

Estrai i metadati del PDF - Python

Questo codice di esempio mostra come estrarre le informazioni sui metadati del file PDF

Input file:

Upload a file

File not added

Output format:

Output file:

import aspose.pdf as apdf

from os import path

input_file = path.join(self.data_dir, infile)
# Open document
document = apdf.Document(input_file)

# Get document information
doc_info = document.info
# Show document information
print("Author :", doc_info.author)
print("Creation Date :", doc_info.creation_date)
print("Keywords :", doc_info.keywords)
print("Modify Date :", doc_info.mod_date)
print("Subject :", doc_info.subject)
print("Title :", doc_info.title)