procesa imágenes escaneadas o incluso fotos de teléfonos inteligentes en formato DJVU y crea documentos DJVU que contienen texto reconocido. Para agregarlo a su proyecto, solo necesita obtener Aspose.OCR
Maven o especifique la configuración del Repositorio Aspose Maven e instálelo dentro de su proyecto basado en Maven agregando las siguientes configuraciones a pom.xml. Para ver ejemplos de Graddle, Ivy, Sbt, consulte nuestro [repositorio] ( https://repository.aspose.com/ocr/ ) .
Maven Dependency
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>22.5</version>
</dependency>
Con Java OCR y solo unas pocas líneas de código, puede crear una aplicación con todas las funciones que convierte una imagen DJVU en un documento DOC:
- Crear una instancia de la clase AsposeOcr
- Llamar al método AsposeOCR.RecognizePage
- Pase la ruta del archivo DJVU como parámetro
- AsposeOCR.RecognizePage devuelve una cadena o archivo de tipo DOC
Requisitos del sistema
Antes de ejecutar el ejemplo, asegúrese de que Java 2 Platform, Standard Edition (J2SE) 6.0 (1.6) o posterior esté instalado en su sistema.
- Está instalado JDK 1.6 o superior.
//Create API instance
AsposeOCR api = new AsposeOCR();
//Prepare rectangles with texts.
ArrayList rectArray = new ArrayList();
rectArray.add(new Rectangle(138, 352, 2033, 537));
rectArray.add(new Rectangle(147, 890, 2033, 1157));
String result = api.RecognizePage("srcImage.png", rectArray);
System.out.println("Result with rect: " + result);
DJVU Que es DJVU Formato de archivo
DjVu, pronunciado como "déjà vu", es un formato de archivo de gráficos destinado a documentos escaneados y libros, especialmente aquellos que contienen una combinación de texto, dibujos, imágenes y fotografías. Fue desarrollado por AT&T Labs. Utiliza múltiples técnicas como la separación de capas de imágenes de texto e imágenes de fondo, carga progresiva, codificación aritmética y compresión con pérdida para imágenes bitonales. Dado que el archivo DJVU puede contener imágenes en color, fotografías, texto y dibujos comprimidos pero de alta calidad y se puede guardar en menos espacio, por lo tanto, se usa en la web como libros electrónicos, manuales, periódicos, documentos antiguos, etc.
Lee masDOC Que es DOC Formato de archivo
Los archivos con extensión .doc representan documentos generados por Microsoft Word u otros documentos de procesamiento de texto en formato de archivo binario. La extensión se usó inicialmente para la documentación de texto sin formato en varios sistemas operativos diferentes. Puede contener varios tipos diferentes de datos, como imágenes, texto formateado y sin formato, gráficos, tablas, objetos incrustados, enlaces, páginas, formato de página, configuraciones de impresión y muchos otros. El formato fue popular para todo tipo de documentación debido a la variedad de opciones que ofrece a los usuarios para escribir manuales, propuestas, especificaciones, currículos, artículos o cualquier documento similar. La versión actualizada de DOC es DOCX, que se basa en Office OpenXML cuyas especificaciones están disponibles abiertamente.
Lee mas