通过 Java 提取 PDF

如何使用 Java 库从 PDF 中提取文本和图像

C# Java C++ Python

使用解析器最受欢迎的动作

提取文本

提取图像

提取字体

如何使用 Java 库解析 PDF

你需要提取 PDF 吗？以编程方式修改 PDF 文档是现代数字工作流程的重要组成部分。使用像 Aspose.PDF 这样的 Java 库，开发人员可以从 PDF 中提取文本或从 PDF 中提取图像。这些库是独立的解决方案，不依赖其他软件，可以用于商业用途。它们涵盖了专业 Java 开发人员的所有可能需求。

提取 PDF 数据：文本、图像、表单、字段等
从 PDF 中提取文本
从 PDF 中提取图片
从 PDF 中提取字体
从表单中提取数据
从邮票中提取文本
从表中提取数据

为了提取 PDF 文件，我们将使用 Aspose.PDF for Java API，这是一款适用于 Java 平台的功能丰富、功能强大且易于使用的转换 API。你可以直接从 Maven 下载其最新版本，然后在pom.xml 中添加以下配置，将其安装在基于 Maven 的项目中。

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

通过 Java 解析 PDF

你需要 Aspose.PDF for Java 才能在你的环境中试用代码。

使用 Document 实例加载 PDF。
创建 TextabSorber 对象来提取文本。
接受所有页面的吸收剂。
获取提取的文本
创建写入器并打开文件，向文件写入一行文本

提取 PDF 文件-Java

此示例代码显示如何提取 PDF 文档

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

document
com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document("sample.pdf");

e TextAbsorber object to extract text
com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();

t the absorber for all the pages
pdfDocument.getPages().accept(textAbsorber);

he extracted text
String extractedText = textAbsorber.getText();
try {
    java.io.FileWriter writer = new java.io.FileWriter("extracted-text.txt", true);
    // Write a line of text to the file
    writer.write(extractedText);
    // Close the stream
    writer.close();
} catch (java.io.IOException e) {
    System.out.println(e.getMessage());
}

关于 Aspose.PDF for Java API

Aspose.PDF for Java API 是一个库，它使开发人员能够向其应用程序添加 PDF 处理功能。它可用于构建任何类型的 32 位和 64 位应用程序，无需使用 Adobe Acrobat 即可生成或读取、转换和操作 PDF 文件。Aspose.PDF for Java 允许开发人员在 PDF 文档中插入表格、图形、图像、超链接、自定义字体等。此外，还可以压缩 PDF。Aspose.PDF for Java 为开发安全的 PDF 文件提供了出色的安全功能。

你可以在文档和示例上找到有关如何使用 API 的 Aspose.PDF 的更多信息。Aspose.PDF for Java API 的一些关键功能包括支持各种文件格式，包括 HTML、XFA、TXT、PCL、XML、XML、XPS 和图像文件格式，支持不同的 PDF 版本以及广泛的超链接功能。