HTML JPG OCR XML BMP
Aspose.OCR  para {plataforma de idioma}
DOC

Convertir {Formato1} a {Formato2} en C#

Realice el reconocimiento óptico de caracteres en el documento PDF y guarde el texto como documento PDF usando Aspose.OCR de la biblioteca .NET.

Cómo convertir PDF a DOC usando C#

Aspose.OCR para .NET es una biblioteca potente pero fácil de usar y rentable para convertir imágenes PDF a documentos DOC. Compatible con 26 idiomas basados ​​en el latín, el cirílico y el chino, su motor de reconocimiento óptico de caracteres de última generación proporciona una velocidad y precisión de reconocimiento superiores, a la vez que lo aísla de fórmulas, redes neuronales y otros detalles técnicos complejos. Le permite agregar la funcionalidad OCR a sus aplicaciones .NET en menos de 10 líneas de código.

Aspose.OCR para .NET

procesa imágenes escaneadas o incluso fotos de teléfonos inteligentes en formato PDF y crea documentos PDF que contienen texto reconocido. Para agregarlo a su proyecto, solo necesita instalar Aspose.OCR

NuGet

paquete en su proyecto con el siguiente comando:

Package Manager Console Command


  PM> Install-Package Aspose.OCR

Pasos para convertir {Formato1} a {Formato2}

Con .NET OCR y solo unas pocas líneas de código, puede crear una aplicación con todas las funciones que convierte una imagen PDF en un documento DOC:

  • Crear una instancia de la clase AsposeOcr
  • Llamar al método AsposeOCR.RecognizeImage
  • Pase la ruta del archivo PDF como parámetro
  • AsposeOCR.RecognizeImage devuelve una cadena o archivo de tipo DOC

Requisitos del sistema

Antes de ejecutar el ejemplo, asegúrese de que la API .NET compatible con la especificación NET Standard 2.0 esté instalada en su sistema y todas las [dependencias externas] ( https://docs.aspose.com/ocr/net/system-requirements/#external- dependencias) del paquete Aspose.OCR se hace referencia en su proyecto.

  • Solución compatible con NET Standard 2.0+
  • Aspose.OCR para .NET referenciado en su proyecto.

Este código de ejemplo muestra la conversión de PDF a DOC .NET


// initialize an instance of AsposeOcr
AsposeOcr ocr = new AsposeOcr();
// recognize image
string riText = ocr.RecognizeImage("template.PDF");
// print text
File. File.WriteAllText("document.DOC", riText);
  • PDF Que es PDF Formato de archivo

    El formato de documento portátil (PDF) es un tipo de documento creado por Adobe en la década de 1990. El propósito de este formato de archivo era introducir un estándar para la representación de documentos y otro material de referencia en un formato que es independiente del software de la aplicación, el hardware y el sistema operativo. El formato de archivo PDF tiene la capacidad completa de contener información como texto, imágenes, hipervínculos, campos de formulario, medios enriquecidos, firmas digitales, archivos adjuntos, metadatos, características geoespaciales y objetos 3D que pueden convertirse en parte del documento de origen.

    Lee mas

    DOC Que es DOC Formato de archivo

    Los archivos con extensión .doc representan documentos generados por Microsoft Word u otros documentos de procesamiento de texto en formato de archivo binario. La extensión se usó inicialmente para la documentación de texto sin formato en varios sistemas operativos diferentes. Puede contener varios tipos diferentes de datos, como imágenes, texto formateado y sin formato, gráficos, tablas, objetos incrustados, enlaces, páginas, formato de página, configuraciones de impresión y muchos otros. El formato fue popular para todo tipo de documentación debido a la variedad de opciones que ofrece a los usuarios para escribir manuales, propuestas, especificaciones, currículos, artículos o cualquier documento similar. La versión actualizada de DOC es DOCX, que se basa en Office OpenXML cuyas especificaciones están disponibles abiertamente.

    Lee mas

    Otras conversiones admitidas

    Usando C#, uno puede convertir fácilmente diferentes formatos, incluidos.

    TXT (Archivo de documento de texto)
    Text (Archivo de documento de texto)
    DOC (Documentos generados por Microsoft Word)
    DOCX (Documentos de Microsoft Word)
    XLS (Formato de archivo binario de Microsoft Excel)
    XLSX (Documentos de Microsoft Excel)
    PDF (Formato de documento portátil (PDF))
    Searchable PDF (Gráficos de red portátiles con capacidad de búsqueda)
    XML (Lenguaje de marcado extensible)
    JSON (Notación de objetos de JavaScript)