processa imagens digitalizadas ou até mesmo fotos de smartphones no formato DJVU e cria documentos DJVU contendo texto reconhecido. Para adicioná-lo ao seu projeto, você só precisa obter Aspose.OCR
Maven ou especifique a configuração do repositório Aspose Maven e instale-o em seu projeto baseado em Maven adicionando as seguintes configurações ao arquivo pom.xml. Para exemplos de Graddle, Ivy, Sbt, confira nosso repositório .
Maven Dependency
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>22.5</version>
</dependency>
Com Java OCR e apenas algumas linhas de código, você pode criar um aplicativo completo que converte uma imagem DJVU em um documento XML:
- Crie uma instância da classe AsposeOcr
- Chamar o método AsposeOCR.RecognizePage
- Passe o caminho do arquivo DJVU como parâmetro
- AsposeOCR.RecognizePage retorna uma String ou arquivo do tipo XML
Requisitos de sistema
Antes de executar o exemplo, certifique-se de que o Java 2 Platform, Standard Edition (J2SE) 6.0 (1.6) ou posterior esteja instalado em seu sistema.
- JDK 1.6 ou superior está instalado.
//Create API instance
AsposeOCR api = new AsposeOCR();
//Prepare rectangles with texts.
ArrayList rectArray = new ArrayList();
rectArray.add(new Rectangle(138, 352, 2033, 537));
rectArray.add(new Rectangle(147, 890, 2033, 1157));
String result = api.RecognizePage("srcImage.png", rectArray);
System.out.println("Result with rect: " + result);
DJVU O que é DJVU Formato de arquivo
DjVu, pronunciado como “déjà vu”, é um formato de arquivo gráfico destinado a documentos e livros digitalizados, especialmente aqueles que contêm a combinação de texto, desenhos, imagens e fotografias. Foi desenvolvido pela AT&T Labs. Ele usa várias técnicas, como separação de camadas de imagem de texto e imagens de fundo, carregamento progressivo, codificação aritmética e compactação com perdas para imagens bitonais. Como o arquivo DJVU pode conter imagens coloridas, fotografias, textos e desenhos compactados e de alta qualidade e pode ser salvo em menos espaço, ele é usado na web como eBooks, manuais, jornais, documentos antigos etc.
consulte Mais informaçãoXML O que é XML Formato de arquivo
XML significa Extensible Markup Language que é semelhante ao HTML, mas diferente no uso de tags para definir objetos. A ideia por trás da criação do formato de arquivo XML era armazenar e transportar dados sem depender de ferramentas de software ou hardware. Sua popularidade se deve ao fato de ser tanto humano quanto legível por máquina. Isso permite que ele crie protocolos de dados comuns na forma de objetos a serem armazenados e compartilhados em rede, como a World Wide Web (WWW). O “X” em XML é extensível, o que implica que a linguagem pode ser estendida a qualquer número de símbolos conforme os requisitos do usuário. É para esses recursos que muitos formatos de arquivo padrão fazem uso dele, como Microsoft Open XML, LibreOffice OpenDocument, XHTML e SVG.
consulte Mais informação