HTML JPG OCR XML BMP
Aspose.OCR  para Java
XML

Aspose.Imaging for Java

processa imagens digitalizadas ou até mesmo fotos de smartphones no formato JP2 e cria documentos JP2 contendo texto reconhecido. Para adicioná-lo ao seu projeto, você só precisa obter Aspose.OCR

Maven ou especifique a configuração do repositório Aspose Maven e instale-o em seu projeto baseado em Maven adicionando as seguintes configurações ao arquivo pom.xml. Para exemplos de Graddle, Ivy, Sbt, confira nosso repositório .

Maven Dependency


 <dependency>
 <groupId>com.aspose</groupId>
 <artifactId>aspose-ocr</artifactId>
 <version>22.5</version>
 </dependency>

Com Java OCR e apenas algumas linhas de código, você pode criar um aplicativo completo que converte uma imagem JP2 em um documento XML:

  • Crie uma instância da classe AsposeOcr
  • Chamar o método AsposeOCR.RecognizePage
  • Passe o caminho do arquivo JP2 como parâmetro
  • AsposeOCR.RecognizePage retorna uma String ou arquivo do tipo XML

Requisitos de sistema

Antes de executar o exemplo, certifique-se de que o Java 2 Platform, Standard Edition (J2SE) 6.0 (1.6) ou posterior esteja instalado em seu sistema.

  • JDK 1.6 ou superior está instalado.


 //Create API instance
 AsposeOCR api = new AsposeOCR();

 //Prepare rectangles with texts.
 ArrayList rectArray = new ArrayList();

 rectArray.add(new Rectangle(138, 352, 2033, 537));
 rectArray.add(new Rectangle(147, 890, 2033, 1157));

 String result = api.RecognizePage("srcImage.png", rectArray);
 System.out.println("Result with rect: " + result);
  • JP2 O que é JP2 Formato de arquivo

    JPEG 2000 (JP2) é um sistema de codificação de imagem e padrão de compressão de imagem de última geração. Projetado, usando a tecnologia wavelet JPEG 2000 pode codificar conteúdo sem perdas em qualquer qualidade de uma só vez. Além disso, sem nenhuma penalidade substancial na eficiência de codificação, o JPEG 2000 tem a capacidade de acessar e decodificar o mesmo conteúdo de forma eficaz em uma variedade de outras resoluções e qualidades. Os fluxos de código em JPEG 2000 são significativamente escaláveis ​​com regiões de interesse que fornecem a facilidade de acesso espacial aleatório. Possuindo até 16384 componentes diversos com as dimensões em terapixels, e precisão que pode chegar a 38 bits/amostra.

    consulte Mais informação

    XML O que é XML Formato de arquivo

    XML significa Extensible Markup Language que é semelhante ao HTML, mas diferente no uso de tags para definir objetos. A ideia por trás da criação do formato de arquivo XML era armazenar e transportar dados sem depender de ferramentas de software ou hardware. Sua popularidade se deve ao fato de ser tanto humano quanto legível por máquina. Isso permite que ele crie protocolos de dados comuns na forma de objetos a serem armazenados e compartilhados em rede, como a World Wide Web (WWW). O “X” em XML é extensível, o que implica que a linguagem pode ser estendida a qualquer número de símbolos conforme os requisitos do usuário. É para esses recursos que muitos formatos de arquivo padrão fazem uso dele, como Microsoft Open XML, LibreOffice OpenDocument, XHTML e SVG.

    consulte Mais informação

    TXT (Arquivo de documento de texto)
    Text (Arquivo de documento de texto)
    DOC (Documentos gerados pelo Microsoft Word)
    DOCX (Documentos do Microsoft Word)
    XLS (Formato de arquivo binário do Microsoft Excel)
    XLSX (Documentos do Microsoft Excel)
    PDF (Formato de Documento Portátil (PDF))
    Searchable PDF (Gráficos de rede portáteis pesquisáveis)
    XML (Extensible Markup Language)
    JSON (Notação de Objeto JavaScript)