通过 Python 提取 PDF 元数据

从 PDF 文档中提取元数据。使用 Aspose.PDF for Python for .NET 以编程方式修改 PDF 文件

如何使用 Python 库提取 PDF 元数据

使用适用于 Python 的 Aspose.PDF 从 PDF 中提取元数据。访问文档的元数据意味着获取有关该文件的信息，例如其标题、作者、创建时间和特定关键字。提取元数据，有助于更有效地组织大量 PDF 集合。从元数据中提取的数据改进了搜索文件的方式。用户可以使用提取的元数据中的关键字或详细信息来快速找到特定的文档。提取元数据可以为文件包含的内容提供宝贵的见解。它可能会提供有关该文件的关键细节的简要摘要，从而无需打开文档即可更轻松地理解文档的内容。提取元数据有助于确保文档的真实性。您可以查看详细信息，例如创建时的作者姓名或其修改历史记录。这种验证对于确认 PDF 的可靠性至关重要。通过提供有关 PDF 内容的简明细节，提取的元数据使用户体验要好得多。它可以帮助用户轻松识别和处理文档。总体而言，提取 PDF 元数据具有许多优点，例如更高效的文档管理、改进的搜索选项、符合标准以及整体增强的用户体验。通过 Aspose 从 PDF 中提取元数据，并解决数据处理中的所有必要任务。为了从 PDF 文件中提取元数据，我们将使用 Aspose.PDF for .NET API，这是一款功能丰富、强大且易于使用的.NET 文档操作 API。打开 NuGet 软件包管理器，搜索 Aspose.PDF 并安装。您也可以使用包管理器控制台中的以下命令。

Console

pip install aspose-pdf

通过 Python 提取 PDF 元数据

要在你的环境中试用这些代码，你需要 Aspose.PDF for .NET。

加载带有文档实例的 PDF。
使用 Document.Info 属性获取 DocumentInfo
访问和显示不同的 Document.Info 属性。

提供的 Python 代码片段展示了如何通过 Aspose.PDF 库从 PDF 中提取元数据。它会打开一个名为 “GetFileInfo.pdf” 的 PDF 文件，该文件位于变量 “DIR_INPUT_METADATA” 指定的目录中。该代码使用 “info” 函数从文档中检索各种详细信息。它显示 PDF 中的特定元数据信息，例如作者姓名、创建日期、关键字、修改日期、主题和标题。该代码使用 “打印” 功能来显示此信息。此代码片段是如何使用 Aspose.PDF 库或框架从 PDF 文件中提取元数据的简化示例。

提取 PDF 的元数据-Python

此示例代码显示如何提取 PDF 文件的元数据信息

Input file:

Upload a file

File not added

Output format:

Output file:

import aspose.pdf as apdf

from os import path

input_file = path.join(self.data_dir, infile)
# Open document
document = apdf.Document(input_file)

# Get document information
doc_info = document.info
# Show document information
print("Author :", doc_info.author)
print("Creation Date :", doc_info.creation_date)
print("Keywords :", doc_info.keywords)
print("Modify Date :", doc_info.mod_date)
print("Subject :", doc_info.subject)
print("Title :", doc_info.title)