HTML JPG OCR XML BMP
Aspose.OCR  para {plataforma de idioma}
DOCX

Aspose.Imaging para Java

procesa imágenes escaneadas o incluso fotos de teléfonos inteligentes en formato PDF y crea documentos PDF que contienen texto reconocido. Para agregarlo a su proyecto, solo necesita obtener Aspose.OCR

Maven o especifique la configuración del Repositorio Aspose Maven e instálelo dentro de su proyecto basado en Maven agregando las siguientes configuraciones a pom.xml. Para ver ejemplos de Graddle, Ivy, Sbt, consulte nuestro [repositorio] ( https://repository.aspose.com/ocr/ ) .

Maven Dependency


 <dependency>
 <groupId>com.aspose</groupId>
 <artifactId>aspose-ocr</artifactId>
 <version>22.5</version>
 </dependency>

Con Java OCR y solo unas pocas líneas de código, puede crear una aplicación con todas las funciones que convierte una imagen PDF en un documento DOCX:

  • Crear una instancia de la clase AsposeOcr
  • Llamar al método AsposeOCR.RecognizePage
  • Pase la ruta del archivo PDF como parámetro
  • AsposeOCR.RecognizePage devuelve una cadena o archivo de tipo DOCX

Requisitos del sistema

Antes de ejecutar el ejemplo, asegúrese de que Java 2 Platform, Standard Edition (J2SE) 6.0 (1.6) o posterior esté instalado en su sistema.

  • Está instalado JDK 1.6 o superior.


 //Create API instance
 AsposeOCR api = new AsposeOCR();

 //Prepare rectangles with texts.
 ArrayList rectArray = new ArrayList();

 rectArray.add(new Rectangle(138, 352, 2033, 537));
 rectArray.add(new Rectangle(147, 890, 2033, 1157));

 String result = api.RecognizePage("srcImage.png", rectArray);
 System.out.println("Result with rect: " + result);
  • PDF Que es PDF Formato de archivo

    El formato de documento portátil (PDF) es un tipo de documento creado por Adobe en la década de 1990. El propósito de este formato de archivo era introducir un estándar para la representación de documentos y otro material de referencia en un formato que es independiente del software de la aplicación, el hardware y el sistema operativo. El formato de archivo PDF tiene la capacidad completa de contener información como texto, imágenes, hipervínculos, campos de formulario, medios enriquecidos, firmas digitales, archivos adjuntos, metadatos, características geoespaciales y objetos 3D que pueden convertirse en parte del documento de origen.

    Lee mas

    DOCX Que es DOCX Formato de archivo

    DOCX es un formato muy conocido para documentos de Microsoft Word. Introducido a partir de 2007 con el lanzamiento de Microsoft Office 2007, la estructura de este nuevo formato de documento se cambió de binario simple a una combinación de XML y archivos binarios. Los archivos Docx se pueden abrir con Word 2007 y versiones laterales, pero no con las versiones anteriores de MS Word que admiten extensiones de archivo DOC.

    Lee mas

    TXT (Archivo de documento de texto)
    Text (Archivo de documento de texto)
    DOC (Documentos generados por Microsoft Word)
    DOCX (Documentos de Microsoft Word)
    XLS (Formato de archivo binario de Microsoft Excel)
    XLSX (Documentos de Microsoft Excel)
    PDF (Formato de documento portátil (PDF))
    Searchable PDF (Gráficos de red portátiles con capacidad de búsqueda)
    XML (Lenguaje de marcado extensible)
    JSON (Notación de objetos de JavaScript)