通过 Java 提取 PDF 元数据

从 PDF 文档中提取元数据。使用 Aspose.PDF for Java 以编程方式修改 PDF 文件

如何使用 Java 库提取 PDF 元数据

使用适用于 Java 的 Aspose.PDF 从 PDF 中提取元数据。访问文档的元数据意味着获取有关该文件的信息，例如其标题、作者、创建时间和特定关键字。提取元数据，有助于更有效地组织大量 PDF 集合。从元数据中提取的数据改进了搜索文件的方式。用户可以使用提取的元数据中的关键字或详细信息来快速找到特定的文档。提取元数据可以为文件包含的内容提供宝贵的见解。它可能会提供有关该文件的关键细节的简要摘要，从而无需打开文档即可更轻松地理解文档的内容。提取元数据有助于确保文档的真实性。您可以查看详细信息，例如创建时的作者姓名或其修改历史记录。这种验证对于确认 PDF 的可靠性至关重要。通过提供有关 PDF 内容的简明细节，提取的元数据使用户体验要好得多。它可以帮助用户轻松识别和处理文档。总体而言，提取 PDF 元数据具有许多优点，例如更高效的文档管理、改进的搜索选项、符合标准以及整体增强的用户体验。通过 Aspose 从 PDF 中提取元数据，并解决数据处理中的所有必要任务。要从 PDF 文件中提取元数据，我们将使用 Aspose.PDF for Java API，这是一款适用于 Java 平台的功能丰富、强大且易于使用的转换 API。你可以直接从 Maven 下载其最新版本，然后通过向pom.xml添加以下配置将其安装在基于 Maven 的项目中。

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

通过 Java 提取 PDF 元数据

你需要 Aspose.PDF for Java 才能在你的环境中试用代码。

加载带有文档实例的 PDF。
使用 Document.Info 属性获取 DocumentInfo
访问和显示不同的 Document.Info 属性。

提供的 Java 代码片段展示了如何通过 Aspose.PDF 库从 PDF 中提取元数据。它会打开一个名为 “GetFileInfo.pdf” 的 PDF 文件，该文件位于变量 “DIR_INPUT_METADATA” 指定的目录中。该代码使用 “info” 函数从文档中检索各种详细信息。它显示 PDF 中的特定元数据信息，例如作者姓名、创建日期、关键字、修改日期、主题和标题。该代码使用 “打印” 功能来显示此信息。此代码片段是如何使用 Aspose.PDF 库或框架从 PDF 文件中提取元数据的简化示例。

提取 PDF 的元数据-Java

此示例代码显示如何提取 PDF 文件的元数据信息

Input file:

Upload a file

File not added

Output format:

Output file:

Document pdfDocument = new Document(DATA_DIR.resolve("sample.pdf").toString());
// Get document information
DocumentInfo docInfo = pdfDocument.getInfo();
// Show document information
System.out.println("Author: " + docInfo.getAuthor());
System.out.println("Creation Date: " + docInfo.getCreationDate());
System.out.println("Keywords: " + docInfo.getKeywords());
System.out.println("Modify Date: " + docInfo.getModDate());
System.out.println("Subject: " + docInfo.getSubject());
System.out.println("Title: " + docInfo.getTitle());
pdfDocument.close();