HTML JPG OCR XML BMP
Aspose.OCR  para {plataforma de idioma}
XML

Convertir {Formato1} a {Formato2} en C#

Realice el reconocimiento óptico de caracteres en el documento DJVU y guarde el texto como documento DJVU usando Aspose.OCR de la biblioteca .NET.

Cómo convertir DJVU a XML usando C#

Aspose.OCR para .NET es una biblioteca potente pero fácil de usar y rentable para convertir imágenes DJVU a documentos XML. Compatible con 26 idiomas basados ​​en el latín, el cirílico y el chino, su motor de reconocimiento óptico de caracteres de última generación proporciona una velocidad y precisión de reconocimiento superiores, a la vez que lo aísla de fórmulas, redes neuronales y otros detalles técnicos complejos. Le permite agregar la funcionalidad OCR a sus aplicaciones .NET en menos de 10 líneas de código.

Aspose.OCR para .NET

procesa imágenes escaneadas o incluso fotos de teléfonos inteligentes en formato DJVU y crea documentos DJVU que contienen texto reconocido. Para agregarlo a su proyecto, solo necesita instalar Aspose.OCR

NuGet

paquete en su proyecto con el siguiente comando:

Package Manager Console Command


  PM> Install-Package Aspose.OCR

Pasos para convertir {Formato1} a {Formato2}

Con .NET OCR y solo unas pocas líneas de código, puede crear una aplicación con todas las funciones que convierte una imagen DJVU en un documento XML:

  • Crear una instancia de la clase AsposeOcr
  • Llamar al método AsposeOCR.RecognizeImage
  • Pase la ruta del archivo DJVU como parámetro
  • AsposeOCR.RecognizeImage devuelve una cadena o archivo de tipo XML

Requisitos del sistema

Antes de ejecutar el ejemplo, asegúrese de que la API .NET compatible con la especificación NET Standard 2.0 esté instalada en su sistema y todas las [dependencias externas] ( https://docs.aspose.com/ocr/net/system-requirements/#external- dependencias) del paquete Aspose.OCR se hace referencia en su proyecto.

  • Solución compatible con NET Standard 2.0+
  • Aspose.OCR para .NET referenciado en su proyecto.

Este código de ejemplo muestra la conversión de DJVU a XML .NET


// initialize an instance of AsposeOcr
AsposeOcr ocr = new AsposeOcr();
// recognize image
string riText = ocr.RecognizeImage("template.DJVU");
// print text
File. File.WriteAllText("document.XML", riText);
  • DJVU Que es DJVU Formato de archivo

    DjVu, pronunciado como "déjà vu", es un formato de archivo de gráficos destinado a documentos escaneados y libros, especialmente aquellos que contienen una combinación de texto, dibujos, imágenes y fotografías. Fue desarrollado por AT&T Labs. Utiliza múltiples técnicas como la separación de capas de imágenes de texto e imágenes de fondo, carga progresiva, codificación aritmética y compresión con pérdida para imágenes bitonales. Dado que el archivo DJVU puede contener imágenes en color, fotografías, texto y dibujos comprimidos pero de alta calidad y se puede guardar en menos espacio, por lo tanto, se usa en la web como libros electrónicos, manuales, periódicos, documentos antiguos, etc.

    Lee mas

    XML Que es XML Formato de archivo

    XML significa Lenguaje de marcado extensible que es similar a HTML pero diferente en el uso de etiquetas para definir objetos. La idea detrás de la creación del formato de archivo XML era almacenar y transportar datos sin depender de herramientas de software o hardware. Su popularidad se debe a que es legible tanto por humanos como por máquinas. Esto le permite crear protocolos de datos comunes en forma de objetos para ser almacenados y compartidos a través de una red como la World Wide Web (WWW). La "X" en XML es extensible, lo que implica que el lenguaje se puede extender a cualquier número de símbolos según los requisitos del usuario. Es por estas características que muchos formatos de archivo estándar lo utilizan, como Microsoft Open XML, LibreOffice OpenDocument, XHTML y SVG.

    Lee mas

    Otras conversiones admitidas

    Usando C#, uno puede convertir fácilmente diferentes formatos, incluidos.

    TXT (Archivo de documento de texto)
    Text (Archivo de documento de texto)
    DOC (Documentos generados por Microsoft Word)
    DOCX (Documentos de Microsoft Word)
    XLS (Formato de archivo binario de Microsoft Excel)
    XLSX (Documentos de Microsoft Excel)
    PDF (Formato de documento portátil (PDF))
    Searchable PDF (Gráficos de red portátiles con capacidad de búsqueda)
    XML (Lenguaje de marcado extensible)
    JSON (Notación de objetos de JavaScript)