以 Java 从 PDF 中提取文本

如何使用 Java 库从 PDF 中提取文本

如何使用 Java 库从 PDF 中提取文本

你需要从 PDF 中提取文本吗?以编程方式修改 PDF 文档是现代数字工作流程的重要组成部分。使用像 Aspose.PDF 这样的 Java 库,开发者可以从 PDF 中提取文本。这些库是独立的解决方案,不依赖其他软件,可以用于商业用途。它们涵盖了专业 Java 开发人员的所有可能需求。

  • 从 PDF 中提取文本
  • 从 PDF 中提取图片
  • 从 PDF 中提取字体
  • 从表单中提取数据
  • 从邮票中提取文本
  • 从表中提取数据

为了从 PDF 文件中提取文本,我们将使用 Aspose.PDF for Java API,这是一款适用于 Java 平台的功能丰富、功能强大且易于使用的转换 API。你可以直接从 Maven 下载其最新版本,然后在pom.xml 中添加以下配置,将其安装在基于 Maven 的项目中。

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

以 Java 从 PDF 中提取文本


你需要 Aspose.PDF for Java 才能在你的环境中试用代码。

1.在 PDF 中加载 “文档” 实例。 1.创建 textabSorber 对象来提取文本。 1.接受所有页面的吸收器。 1.获取提取的文本 1.创建一个写入器并打开文件,在文件中写一行文本

从 PDF 中提取文本-Java

此示例代码显示如何从 PDF 文档中提取文本

Input file:

File not added

Output format:

PDF

Output file:

    // Open document
    com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document(filePath);

    // Create TextAbsorber object to extract text
    com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
    
    // Accept the absorber for all the pages
    pdfDocument.getPages().accept(textAbsorber);
    
    // Get the extracted text
    String extractedText = textAbsorber.getText();                
    try {
        java.io.FileWriter writer = new java.io.FileWriter(_dataDir + "extracted-text.txt", true);
        // Write a line of text to the file
        writer.write(extractedText);            
        // Close the stream
        writer.close();
    } catch (java.io.IOException e) {
        e.printStackTrace();
    }

關於 Java API 的 aspose.PDF

Aspose.PDF for Java API 是一个库,它使开发人员能够向其应用程序添加 PDF 处理功能。它可用于构建任何类型的 32 位和 64 位应用程序,无需使用 Adobe Acrobat 即可生成或读取、转换和操作 PDF 文件。Aspose.PDF for Java 允许开发人员在 PDF 文档中插入表格、图形、图像、超链接、自定义字体等。此外,还可以压缩 PDF。Aspose.PDF for Java 为开发安全的 PDF 文件提供了出色的安全功能。

你可以在 文档示例 上找到有关如何使用 API 的 Aspose.PDF 的更多信息。Aspose.PDF for Java API 的一些关键功能包括支持各种文件格式,包括 HTML、XFA、TXT、PCL、XML、XML、XPS 和图像文件格式,支持不同的 PDF 版本以及广泛的超链接功能。