Wyodrębnij metadane PDF przez Python

Wyodrębnij metadane z dokumentu PDF. Użyj pliku Aspose.PDF dla Python for .NET, aby programowo modyfikować pliki PDF

Jak wyodrębnić metadane PDF za pomocą biblioteki Python

Wyodrębnij metadane z pliku PDF za pomocą Aspose.PDF dla Pythona. Dostęp do metadanych dokumentu oznacza uzyskanie informacji o tym pliku, takich jak jego tytuł, autor, czas jego utworzenia i określone słowa kluczowe. Wyodrębnij metadane, pomaga efektywniej organizować dużą kolekcję plików PDF. Dane wyodrębnione z metadanych poprawiają sposób wyszukiwania plików. Użytkownicy mogą szybko zlokalizować określone dokumenty, używając słów kluczowych lub szczegółów znajdujących się w wyodrębnionych metadanych. Wyodrębnianie metadanych daje cenny wgląd w to, co zawiera plik. Może zawierać krótkie podsumowanie kluczowych szczegółów dotyczących pliku, ułatwiając zrozumienie, o czym jest dokument bez konieczności jego otwierania. Wyodrębnianie metadanych pomaga zapewnić autentyczność dokumentu. Możesz sprawdzić szczegóły, takie jak imię i nazwisko autora, kiedy został utworzony, lub historię jego modyfikacji. Ta weryfikacja ma kluczowe znaczenie dla potwierdzenia niezawodności pliku PDF. Oferując zwięzłe szczegóły dotyczące zawartości pliku PDF, wyodrębnione metadane znacznie poprawiają wrażenia użytkownika. Pomaga użytkownikom łatwo identyfikować i pracować z dokumentami. Ogólnie rzecz biorąc, wyodrębnianie metadanych PDF daje wiele korzyści, takich jak wydajniejsze zarządzanie dokumentami, ulepszone opcje wyszukiwania, zgodność ze standardami i ogólnie ulepszone wrażenia użytkownika. Wyodrębnij metadane z pliku PDF za pomocą Aspose i rozwiąż wszystkie niezbędne zadania w pracy z danymi. Aby wyodrębnić metadane z plików PDF, użyjemy interfejsu API Aspose.PDF for .NET, który jest bogatym w funkcje, potężnym i łatwym w użyciu interfejsem API do manipulacji dokumentami dla .NET. Otwórz menedżera pakietów NuGet, wyszukaj Aspose.PDF i zainstaluj. Można również użyć następującego polecenia z konsoli Menedżera pakietów.

Console

pip install aspose-pdf

Wyodrębnij metadane PDF przez Python

Aby wypróbować kod w swoim środowisku, potrzebujesz Aspose.PDF for .NET.

Załaduj plik PDF z wystąpieniem dokumentu.
Pobierz DocumentInfo za pomocą właściwości Document.info.
Dostęp i wyświetlanie różnych właściwości Document.info.

Dostarczony fragment kodu Python pokazuje, jak wyodrębnić metadane z pliku PDF przez bibliotekę Aspose.PDF. Otwiera plik PDF o nazwie „GetFileInfo.pdf” znajdujący się w katalogu określonym przez zmienną „DIR_INPUT_METADATA”. Kod pobiera różne szczegóły z dokumentu za pomocą funkcji „info”. Wyświetla określone informacje o metadanych z pliku PDF, takie jak imię i nazwisko autora, data utworzenia, słowa kluczowe, data modyfikacji, temat i tytuł. Kod używa funkcji „print”, aby wyświetlić te informacje. Ten fragment kodu jest uproszczonym przykładem użycia biblioteki lub frameworka Aspose.PDF do wyodrębniania metadanych z pliku PDF.

Wyodrębnij metadane PDF - Python

Ten przykładowy kod pokazuje, jak wyodrębnić informacje o metadanych pliku PDF

Input file:

Upload a file

File not added

Output format:

Output file:

import aspose.pdf as apdf

from os import path

input_file = path.join(self.data_dir, infile)
# Open document
document = apdf.Document(input_file)

# Get document information
doc_info = document.info
# Show document information
print("Author :", doc_info.author)
print("Creation Date :", doc_info.creation_date)
print("Keywords :", doc_info.keywords)
print("Modify Date :", doc_info.mod_date)
print("Subject :", doc_info.subject)
print("Title :", doc_info.title)