Extrahieren Sie PDF-Metadaten über Python

Extrahieren Sie Metadaten aus einem PDF-Dokument. Verwenden Sie Aspose.PDF for Python for .NET, um PDF-Dateien programmgesteuert zu ändern

C# Java C++ Python

Aspose.PDF
for Python for .NET

Herunterladen

Lernen

Kaufen

So extrahieren Sie PDF-Metadaten mithilfe der Python Bibliothek

Extrahieren Sie Metadaten aus PDF mit Aspose.PDF for Python. Wenn Sie auf die Metadaten eines Dokuments zugreifen, erhalten Sie Informationen über diese Datei, z. B. den Titel, den Autor, den Zeitpunkt ihrer Erstellung und bestimmte Schlüsselwörter. Das Extrahieren von Metadaten hilft dabei, eine große Sammlung von PDFs effektiver zu organisieren. Die aus Metadaten extrahierten Daten verbessern die Suche nach Dateien. Benutzer können bestimmte Dokumente schnell finden, indem sie Schlüsselwörter oder Details verwenden, die in den extrahierten Metadaten enthalten sind. Das Extrahieren von Metadaten gibt wertvolle Einblicke in den Inhalt einer Datei. Es bietet möglicherweise eine kurze Zusammenfassung der wichtigsten Details zur Datei, sodass Sie leichter verstehen, worum es in dem Dokument geht, ohne es öffnen zu müssen. Durch das Extrahieren von Metadaten wird sichergestellt, dass ein Dokument authentisch ist. Sie können Details wie den Namen des Autors bei der Erstellung oder den Änderungsverlauf überprüfen. Diese Überprüfung ist entscheidend für die Bestätigung der Zuverlässigkeit einer PDF-Datei. Durch die Bereitstellung präziser Details zum Inhalt einer PDF-Datei verbessern die extrahierten Metadaten das Benutzererlebnis erheblich. Es hilft Benutzern, Dokumente einfach zu identifizieren und mit ihnen zu arbeiten. Insgesamt bietet das Extrahieren von PDF-Metadaten viele Vorteile, wie z. B. eine effizientere Dokumentenverwaltung, verbesserte Suchoptionen, die Einhaltung von Standards und eine insgesamt verbesserte Benutzererfahrung. Extrahieren Sie Metadaten aus PDF über Aspose und lösen Sie alle notwendigen Aufgaben bei der Arbeit mit Daten. Um Metadaten aus PDF-Dateien zu extrahieren, verwenden wir die API Aspose.PDF for .NET, eine funktionsreiche, leistungsstarke und einfach zu bedienende API zur Dokumentenbearbeitung für.NET. Öffnen Sie den Paketmanager NuGet, suchen Sie nach Aspose.PDF und installieren Sie es. Sie können auch den folgenden Befehl von der Package Manager Console aus verwenden.

Console

pip install aspose-pdf

Extrahieren Sie PDF-Metadaten über Python

Um den Code in Ihrer Umgebung auszuprobieren, benötigen Sie Aspose.PDF for .NET.

Laden Sie das PDF mit einer Instanz von Document.
Rufen Sie DocumentInfo mithilfe der Eigenschaft Document.Info
Zugriff auf und Anzeige verschiedener Document.Info-Eigenschaften.

Der bereitgestellte Python -Codeausschnitt zeigt, wie Metadaten aus PDF mit der Bibliothek Aspose.PDF extrahiert werden. Es öffnet eine PDF-Datei mit dem Namen ‘GetFileInfo.pdf’, die sich in dem durch die Variable ‘DIR_INPUT_METADATA’ angegebenen Verzeichnis befindet. Der Code ruft mithilfe der Funktion ‘info’ verschiedene Details aus dem Dokument ab. Es zeigt spezifische Metadateninformationen aus der PDF-Datei an, z. B. den Namen des Autors, das Erstellungsdatum, die Schlüsselwörter, das Änderungsdatum, den Betreff und den Titel. Der Code verwendet die Funktion „Drucken“, um diese Informationen anzuzeigen. Dieser Codeausschnitt ist ein vereinfachtes Beispiel dafür, wie Sie eine Bibliothek oder ein Framework von Aspose.PDF verwenden können, um Metadaten aus einer PDF-Datei zu extrahieren.

Extrahieren Sie Metadaten aus PDF - Python

Dieser Beispielcode zeigt, wie Metadateninformationen aus der PDF-Datei extrahiert werden

Input file:

Upload a file

File not added

Output format:

Output file:

import aspose.pdf as apdf

from os import path

input_file = path.join(self.data_dir, infile)
# Open document
document = apdf.Document(input_file)

# Get document information
doc_info = document.info
# Show document information
print("Author :", doc_info.author)
print("Creation Date :", doc_info.creation_date)
print("Keywords :", doc_info.keywords)
print("Modify Date :", doc_info.mod_date)
print("Subject :", doc_info.subject)
print("Title :", doc_info.title)