Extraia texto do PDF em Java

Como extrair texto de um PDF usando Java

C# Java C++ Python

Como extrair texto de um PDF usando o Aspose.PDF para Java

Você precisa extrair texto do PDF? A modificação programática de documentos PDF é uma parte essencial dos fluxos de trabalho digitais modernos. Com bibliotecas Java como a Aspose.PDF, os desenvolvedores podem extrair texto do PDF. Essas bibliotecas são soluções autônomas que não dependem de outros softwares e estão prontas para uso comercial. Eles cobrem todas as necessidades possíveis dos desenvolvedores profissionais de Java.

Extraia texto do PDF
Extraia imagens de PDF
Extrair fontes do PDF
Extrair dados do formulário
Extrair texto de carimbos
Extrair dados da tabela

Para extrair texto de um arquivo PDF, usaremos a API Aspose.PDF for Java, que é uma API de conversão rica em recursos, poderosa e fácil de usar para a plataforma Java. Você pode baixar sua versão mais recente diretamente do Maven e instalá-la em seu projeto baseado em Maven adicionando as seguintes configurações ao pom.xml.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Extraia texto do PDF em Java

Você precisa do Aspose.PDF for Java para testar o código em seu ambiente.

Carregue o PDF com uma instância do Document.
Crie o objeto TextAbsorber para extrair texto.
Aceite o absorvedor para todas as páginas.
Obtenha o texto extraído
Crie um escritor e abra o arquivo, escreva uma linha de texto no arquivo

Extraia texto do PDF com Java

Este código de exemplo mostra como extrair texto de documentos PDF

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

// Open document
com.aspose.pdf.Document pdfDocument = new Document(DATA_DIR.resolve("sample.pdf").toString());
// Create TextAbsorber object to extract text
com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
// Accept the absorber for all the pages
pdfDocument.getPages().accept(textAbsorber);
// Get the extracted text
String extractedText = textAbsorber.getText();
try {
    java.io.FileWriter writer = new java.io.FileWriter(DATA_DIR.resolve("extracted-text.txt").toString(), true);
    // Write a line of text to the file
    writer.write(extractedText);
    // Close the stream
    writer.close();
} catch (java.io.IOException e) {
    System.out.println(e.getMessage());
}

Sobre o Aspose.PDF for a API Java

A API Aspose.PDF for Java é uma biblioteca que permite aos desenvolvedores adicionar recursos de processamento de PDF aos seus aplicativos. Ele pode ser usado para criar qualquer tipo de aplicativo de 32 bits e 64 bits para gerar ou ler, converter e manipular arquivos PDF sem o uso do Adobe Acrobat. O Aspose.PDF for Java permite que os desenvolvedores insiram tabelas, gráficos, imagens, hiperlinks, fontes personalizadas e muito mais em documentos PDF. Além disso, também é possível compactar PDFs. O Aspose.PDF for Java fornece excelentes recursos de segurança para desenvolver arquivos PDF seguros.

Você pode encontrar mais informações sobre Aspose.PDF for API Java em documentação e exemplos sobre como usar a API. Alguns dos recursos essenciais da API Aspose.PDF for Java incluem suporte para vários formatos de arquivo, incluindo HTML, XFA, TXT, PCL, XML, XPS e formatos de arquivo de imagem, suporte para diferentes versões de PDF e ampla funcionalidade de hiperlink.