¿Por qué elegir la biblioteca Aspose OCR?

Cree potentes capacidades de OCR en sus aplicaciones .NET en segundos. Nuestra API de OCR fácil de usar le permite extraer texto de imágenes y escaneos, crear archivos PDF con capacidad de búsqueda y más con un mínimo de código C#. Ideal para funciones .NET de escritorio, web, en la nube y sin servidor. Haga clic en los elementos a continuación para obtener más información sobre nuestras características y beneficios.

Illustration ocr

Aplicaciones globales de OCR

C# OCR reconoce textos en inglés, cirílico, árabe, persa, chino, japonés, coreano, hindi, tamil y en varios idiomas.

leer todo

Obtenga texto de cualquier archivo obtenido a través de un escáner o cámara y procese imágenes directamente desde enlaces web.

Resultados confiables

Logre una alta precisión de reconocimiento para todas las imágenes, incluidas aquellas que están desenfocadas, giradas, distorsionadas y con ruido.

reconocimiento por lotes

Reconocer de forma masiva todas las imágenes de carpetas y archivos; lea documentos PDF de varias páginas e imágenes TIFF.

Detección de diseño

Identifique y categorice bloques de contenido en imágenes para garantizar el orden correcto del texto extraído, independientemente del diseño.

Ejemplo de código en vivo

.NET OCR se convierte en una tarea trivial y sencilla con la API Aspose OCR, incluso para los nuevos desarrolladores. Sólo unas pocas líneas de código son suficientes para extraer texto de una imagen y mostrarlo en la pantalla. Realmente es así de simple: pruébalo.

Listo para reconocer Listo para reconocer Suelta un archivo aquí o haz clic para explorar *

* Al cargar tus archivos o utilizar el servicio, estás de acuerdo con nuestra Condiciones de uso y política de privacidad.

Resultado del reconocimiento
 

Convertir imagen a texto

Más ejemplos >
// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");

// Perform OCR
List<Aspose.OCR.RecognitionResult> results
     = recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);

Independencia de plataforma

La biblioteca OCR multiplataforma puede funcionar en todas partes bajo .NET, .NET Core o .NET Framework, ya sea en una máquina local o en el servidor web o en la nube.

Microsoft Windows
Linux
MacOS
GitHub
Microsoft Azure
Amazon Web Services
Docker

Formatos de archivo admitidos

Aspose.OCR for .NET puede trabajar con cualquier archivo puede obtenerlo de un escáner o una cámara. Los resultados del reconocimiento se pueden guardar, importar a una base de datos o analizar en tiempo real.

Imágenes

  • JPEG
  • PNG
  • TIFF
  • BMP
  • GIF

OCR por lotes

  • Multi-page PDF
  • DjVu
  • ZIP
  • Folder

Resultados del reconocimiento

  • Text
  • PDF
  • Microsoft Word
  • Microsoft Excel
  • HTML
  • RTF
  • ePub
  • JSON
  • XML

Apto para cualquier contenido.

La precisión y confiabilidad del reconocimiento de texto en C# dependen en gran medida de la calidad de la imagen. .NET OCR ofrece un conjunto completo de optimización de imágenes manual y automática, lo que garantiza resultados de reconocimiento superiores.

El potente procesamiento de imágenes, la detección de texto totalmente personalizable, el posprocesamiento y la corrección ortográfica automatizada permiten la extracción de texto de cualquier escaneo o fotografía con la mayor precisión.

Optimización de recursos OCR

La biblioteca C# OCR de Aspose permite un equilibrio altamente flexible entre la velocidad de reconocimiento, la calidad y la utilización de recursos para cada caso de uso específico:

  • Elija entre reconocimiento exhaustivo y reconocimiento rápido.
  • Especifique la cantidad de subprocesos asignados para el reconocimiento o permita que nuestra biblioteca .NET OCR escale automáticamente a la cantidad de núcleos de procesador.
  • Libere la CPU descargando los cálculos a la GPU.

Más de 140 idiomas de reconocimiento

Nuestra biblioteca C# OCR es una solución universal para el procesamiento de documentos, extracción de datos y digitalización de contenidos a escala global. Con soporte para una amplia gama de guiones escritos en Europa, Medio Oriente y Asia, está bien adaptado para cualquier país y negocio.

Puede reconocer documentos escritos en idiomas mixtos, como chino/inglés, árabe/francés o cirílico/inglés. Se admiten los siguientes idiomas:

  • Latín extendido: inglés, español, francés, indonesio, portugués, alemán, vietnamita, turco, italiano, polaco y más de 80 años;
  • Alfabeto cirílico: ruso, ucraniano, kazajo, búlgaro, incluidos textos mixtos cirílico/inglés;
  • árabe, persa, urdu, incluidos textos mezclados con inglés;
  • Idiomas chino, coreano, japonés, devanagari y dravidiano, incluidos hindi, tamil, marathi y otros.

Características y capacidades

C# OCR extrae automáticamente texto de fotografías o escaneos, eliminando la necesidad de volver a escribir manualmente los documentos.

Feature icon

OCR de fotos

Extraiga texto de fotografías de teléfonos inteligentes con precisión a nivel de escaneo.

Feature icon

PDF con capacidad de búsqueda

Convierta cualquier escaneo en un documento indexable y con capacidad de búsqueda completa.

Feature icon

reconocimiento de URL

Reconocer una imagen desde la URL sin descargarla localmente.

Feature icon

Reconocimiento masivo

Lea todas las imágenes de documentos, carpetas y archivos de varias páginas.

Feature icon

Cualquier fuente y estilo

Identifique y reconozca texto en todos los tipos de letra y estilos populares.

Feature icon

Reconocimiento preciso

Ajuste todos los parámetros de OCR para obtener mejores resultados de reconocimiento.

Feature icon

corrector ortográfico

Mejore los resultados corrigiendo automáticamente las palabras mal escritas.

Feature icon

Buscar texto en imágenes

Busque texto o expresión regular dentro de un conjunto de imágenes.

Feature icon

Comparar textos de imágenes

Compare textos en dos imágenes, independientemente del caso y el diseño.

OCR fácil de usar

Con nuestra API de C# OCR, solo necesita unas pocas líneas de código C# para convertir imágenes en texto, crear un PDF con capacidad de búsqueda, guardar los resultados del reconocimiento en un documento y mucho más. Explore los ejemplos de código para comprender cómo integrar nuestra API de OCR en sus soluciones .NET.

Instalación

.NET OCR se distribuye como un paquete NuGet o como un [archivo descargable]( https://releases.aspose.com/ocr/net /) con dependencias mínimas. El paquete se puede agregar a su proyecto directamente desde Microsoft Visual Studio. Simplemente instálelo en su proyecto y estará listo para extraer texto de imágenes y guardar los resultados del reconocimiento en cualquiera de los formatos admitidos. Si su sistema tiene una GPU compatible con CUDA, puede utilizar el motor de OCR acelerado por GPU para aumentar significativamente el rendimiento del reconocimiento.

Puede comenzar a usar Aspose.OCR for .NET inmediatamente después de la instalación con algunas restricciones . Una licencia temporal elimina todas las limitaciones de la versión de prueba durante 30 días. Úselo para comenzar a crear una aplicación de OCR completamente funcional y tomar la decisión final de comprar OCR para .NET más adelante.

Extraer texto de una foto

Cuando la gente suele pensar en OCR (reconocimiento óptico de caracteres), la primera asociación suele ser con un escáner como dispositivo de captura principal. Esta asociación tiene razones históricas y todavía prevalece en muchos contextos, proporcionando un entorno consistente y controlado para capturar texto impreso a partir de documentos físicos con una calidad inigualable. Sin embargo, un escáner es un equipo especializado que no siempre está a mano y requiere una estación de trabajo estacionaria para funcionar. Afortunadamente, el mundo moderno ofrece una alternativa conveniente a los escáneres tradicionales: la cámara de un teléfono inteligente. Los avances en la tecnología de las cámaras de los teléfonos inteligentes garantizan que incluso un teléfono inteligente básico proporcione calidad suficiente para capturar documentos listos para OCR. Y la memoria integrada hace que sea más fácil que nunca digitalizar grandes cantidades de documentos, periódicos, libros, señales de tráfico y otros textos sobre la marcha. Todo lo que necesitas es la tecnología adecuada para convertir esas fotos en texto legible por máquina.

Nuestra biblioteca C# OCR está diseñada específicamente para reconocer todo tipo de imágenes listas para usar y se puede ajustar aún más para manejar incluso las fotos de baja calidad. Combinado con un teléfono inteligente moderno, le permite crear potentes aplicaciones de OCR para la mayoría de las tareas diarias de escaneo y reconocimiento de texto. El procesamiento de imágenes y el análisis de la estructura de documentos más avanzados se realizan en unas pocas líneas de código, lo que le permite centrarse en el negocio en lugar de en complejos algoritmos matemáticos, redes neuronales y otras complejidades técnicas.

OCR de fotos - C#

// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
  PreprocessingFilter.ContrastCorrectionFilter(),
  PreprocessingFilter.AutoDewarping()
};

// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");

// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;

// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);

// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);

Cree un PDF con capacidad de búsqueda a partir del escaneo

PDF es uno de los formatos más populares para escanear documentos en papel, especialmente debido a su capacidad para combinar varias páginas en un solo archivo. Este formato se utiliza ampliamente para el intercambio de contratos, facturas, documentos legales, pasaportes y documentos de identidad, y muchos otros documentos entre particulares, empresas, bancos y agencias gubernamentales. Sin embargo, cualquier PDF escaneado es esencialmente una colección de imágenes. No contiene texto legible por máquina, por lo que los usuarios no pueden buscar, copiar ni manipular de otro modo el contenido del documento.

Aspose .NET OCR le ofrece una manera rápida, fácil y altamente confiable de convertir cualquier PDF escaneado en un documento indexable y con capacidad de búsqueda completa. Reconoce con precisión el contenido de la página y lo convierte en una capa de texto legible por máquina sobre la imagen original que puede seleccionarse, copiarse, leerse mediante software de conversión de texto a voz e incluso procesarse automáticamente mediante traductores, resumidores y otros análisis basados ​​en IA. herramientas.

Agregar superposición de texto a PDF - C#

// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");

// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);

// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");

Buscar texto en imágenes

Los archivos digitales, especialmente en organizaciones grandes, a menudo constan de una vasta colección de escaneos y fotografías, muchas de las cuales pueden contener documentos de varias páginas. La gestión y organización eficiente de dichos archivos es esencial para facilitar la recuperación y navegación de la información. Sin embargo, las imágenes no contienen texto legible por máquina, lo que hace imposible buscar y analizar el contenido del documento.

La biblioteca C# OCR le permite buscar fácilmente texto en imágenes, independientemente de la fuente, el tamaño del texto, el estilo y otros parámetros. La biblioteca también admite búsquedas que no distinguen entre mayúsculas y minúsculas y expresiones regulares, que resultan extremadamente útiles en diversas aplicaciones e industrias. Esta funcionalidad se puede utilizar para categorizar documentos según el contenido, las palabras clave o los patrones que se encuentran en el texto; buscar términos o cláusulas específicas dentro de acuerdos y contratos; reorganizar archivos en función de palabras clave o contenido que se encuentran en ellos; Localice e identifique datos personales dentro de los documentos, lo que facilita garantizar el cumplimiento del RGPD y gestionar la información confidencial de forma más eficaz. La búsqueda dentro de las imágenes también permite crear flujos de trabajo automatizados y optimizar diversos procesos comerciales al recibir contratos y facturas firmados.

Buscar texto en imágenes - C#

string sourceFolder = "images";
string searchFor = "OCR";

// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
  bool found = api.ImageHasText(image, searchFor);
  if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}