processa imagens digitalizadas ou até mesmo fotos de smartphones no formato PDF e cria documentos PDF contendo texto reconhecido. Para adicioná-lo ao seu projeto, você só precisa obter Aspose.OCR
Maven ou especifique a configuração do repositório Aspose Maven e instale-o em seu projeto baseado em Maven adicionando as seguintes configurações ao arquivo pom.xml. Para exemplos de Graddle, Ivy, Sbt, confira nosso repositório .
Maven Dependency
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>22.5</version>
</dependency>
Com Java OCR e apenas algumas linhas de código, você pode criar um aplicativo completo que converte uma imagem PDF em um documento XLSX:
- Crie uma instância da classe AsposeOcr
- Chamar o método AsposeOCR.RecognizePage
- Passe o caminho do arquivo PDF como parâmetro
- AsposeOCR.RecognizePage retorna uma String ou arquivo do tipo XLSX
Requisitos de sistema
Antes de executar o exemplo, certifique-se de que o Java 2 Platform, Standard Edition (J2SE) 6.0 (1.6) ou posterior esteja instalado em seu sistema.
- JDK 1.6 ou superior está instalado.
//Create API instance
AsposeOCR api = new AsposeOCR();
//Prepare rectangles with texts.
ArrayList rectArray = new ArrayList();
rectArray.add(new Rectangle(138, 352, 2033, 537));
rectArray.add(new Rectangle(147, 890, 2033, 1157));
String result = api.RecognizePage("srcImage.png", rectArray);
System.out.println("Result with rect: " + result);
PDF O que é PDF Formato de arquivo
Portable Document Format (PDF) é um tipo de documento criado pela Adobe na década de 1990. O objetivo deste formato de arquivo foi introduzir um padrão para representação de documentos e outros materiais de referência em um formato independente do software aplicativo, hardware e sistema operacional. O formato de arquivo PDF tem capacidade total para conter informações como texto, imagens, hiperlinks, campos de formulário, rich media, assinaturas digitais, anexos, metadados, recursos geoespaciais e objetos 3D que podem se tornar parte do documento de origem.
consulte Mais informaçãoXLSX O que é XLSX Formato de arquivo
XLSX é um formato bem conhecido para documentos do Microsoft Excel que foi introduzido pela Microsoft com o lançamento do Microsoft Office 2007. um pacote zip que contém vários arquivos XML. A estrutura e os arquivos subjacentes podem ser examinados simplesmente descompactando o arquivo .xlsx.
consulte Mais informação