Aspose.OCR  for Java

Converta imagens e PDFs em texto em Java

Crie facilmente aplicativos Java multiplataforma com recursos de reconhecimento óptico de caracteres (OCR).

  Download Free Trial
  
 

O Aspose.OCR para Java permite extrair texto de imagens, capturas de tela, áreas específicas de uma imagem e criar PDFs pesquisáveis a partir de arquivos digitalizados em qualquer plataforma que suporte Java. Com sua API poderosa e fácil de usar, mesmo as tarefas complexas de OCR levam menos de 10 linhas de código. Você não precisa trabalhar com fórmulas e aprendizado de máquina - a biblioteca cuidará de todos os detalhes técnicos e produzirá resultados confiáveis em 26 idiomas baseados em scripts latinos e cirílicos , além de chinês . A API de OCR processa imagens digitalizadas, fotos de smartphones, capturas de tela, áreas de imagens e PDFs digitalizados e retorna resultados nos formatos de documentos mais populares. A velocidade, a precisão e o desempenho do reconhecimento podem ser aprimorados ainda mais distribuindo a computação em vários núcleos de CPU e transferindo tarefas que consomem muitos recursos para a GPU .

Recursos e capacidades do Aspose.OCR para Java

Reconhece texto formatado em imagens digitalizadas e PDFs

Suporta todos os formatos de arquivo que você pode obter de um scanner ou câmera

Lê scripts latinos e cirílicos

Reconhece mais de 6.000 caracteres chineses

Detecta e reconhece todos os tipos de letra populares

Preserva cuidadosamente estilos de fonte e formatação

Processa toda a imagem ou apenas áreas selecionadas

Suporta imagens giradas, distorcidas e ruidosas

Reconhecimento em lote de todas as imagens em uma pasta ou arquivo

Reconhece imagens fornecidas como links da web

Encontra e corrige automaticamente palavras com erros ortográficos

100% de compatibilidade com outros produtos Aspose

Fácil de instalar

Você pode usar o Aspose.OCR para Java diretamente de um projeto baseado em Maven seguindo instruções simples de instalação .

Solicite uma licença temporária para começar a construir um aplicativo de OCR totalmente funcional sem quaisquer limites e restrições.

$Easy to Use$

O reconhecimento de imagem requer algumas linhas de código. Literalmente. É realmente tão simples - tente você mesmo:

Imagem para texto em 7 linhas - Java

// Criar instância da API OCR
AsposeOCR api = new AsposeOCR();

try {
    // Reconhecer imagem
    String result = api.RecognizePage(imagePath);
    // Exibir o resultado do reconhecimento
    System.out.println("Recognized text: " + result);
} catch (IOException e) {
    // Manipulação de erros
    e.printStackTrace();
}

26 Idiomas de Reconhecimento

A API OCR suporta um grande número de idiomas e todos os scripts de escrita populares, incluindo textos com idiomas mistos. O corretor ortográfico integrado substitui automaticamente palavras com erros ortográficos e evita o trabalho de corrigir manualmente os resultados do reconhecimento.

  • Alfabeto latino estendido : croata, tcheco, dinamarquês, holandês, inglês, estoniano, finlandês, francês, alemão, italiano, letão, lituano, norueguês, polonês, português, romeno, eslovaco, esloveno, espanhol, sueco.
  • Alfabeto cirílico : bielorrusso, búlgaro, cazaque, russo, sérvio, ucraniano.
  • Chinês : mais de 6.000 caracteres.

Você pode especificar o idioma para aumentar o desempenho e a confiabilidade do reconhecimento ou permitir que a API detecte os idiomas automaticamente.

Preservar formatação

A API de OCR lê todos os tipos de letra populares, como Arial, Times New Roman, Courier New, Tahoma, Calibri e muito mais nos estilos regular, negrito e itálico e preserva cuidadosamente a formatação nos resultados de OCR. Você também pode dividir os resultados do reconhecimento em linhas e detectar áreas de texto em uma página.

Reconhecer fotos

O scanner nem sempre está disponível nas estações de trabalho do usuário final, o que pode se tornar um impedimento para aplicativos de OCR. Nossa API de OCR fornece vários filtros de pré-processamento que podem lidar com imagens distorcidas, giradas, distorcidas e com ruído. Em combinação com suporte para todos os formatos de imagem, permite o reconhecimento confiável até mesmo de fotos de smartphones. A maior parte do pré-processamento e correção da imagem é feita automaticamente, mas você sempre pode intervir em casos difíceis.

Aplicar correções de imagem - Java

// Criar instância da API OCR
AsposeOCR api = new AsposeOCR();

// Definir filtros de pré-processamento
PreprocessingFilter filters = new PreprocessingFilter();
filters.add(PreprocessingFilter.ToGrayscale());
filters.add(PreprocessingFilter.Rotate(-90));

// Pré-processar a imagem antes do reconhecimento
BufferedImage imageRes = api.PreprocessImage(imagePath, filters);

// Reconhecer imagem
RecognitionResult result = api.RecognizePage(imageRes, set);

Otimização de performance

O reconhecimento óptico de caracteres requer muitos recursos de processamento, o que pode se tornar um problema para serviços da Web e dispositivos básicos. A API oferece maneiras muito flexíveis de equilibrar a velocidade de reconhecimento, os requisitos de recursos e a precisão:

  • Escolha entre reconhecimento completo e reconhecimento rápido.
  • Especifique o número de threads alocados para reconhecimento ou permita que a biblioteca seja dimensionada automaticamente para o número de núcleos de CPU.
  • Libere a CPU descarregando os cálculos para a GPU.

Reconhecimento rápido - Java

// Criar instância da API OCR
AsposeOCR api = new AsposeOCR();

// Reconhecer imagem no modo mais rápido
String result = api.RecognizePageFast("sample.jpg");

Processamento em lote

A API OCR libera você de reconhecer cada imagem uma de cada vez, oferecendo vários métodos de processamento em lote que permitem reconhecer várias imagens em uma única chamada:

  • Reconhecimento de arquivos PDF e TIFF de várias páginas.
  • Reconhecimento de todos os arquivos em um arquivo.
  • Reconhecimento de todos os arquivos em uma pasta.
  
  
  

O Aspose também oferece APIs OCR nativas para outras linguagens de programação populares: