OCR for C++

OCR for Python via .NET

OCR for Python via Java

OCR for Python via C++

OCR for Javascript via C++

OCR for Node.js via C++

OCR for .NET

Biblioteca C# OCR alimentada por IA para aplicativos .NET

.NET OCR Library suportando mais de 140 idiomas de reconhecimento que extraem texto das imagens e cria PDFs pesquisáveis com apenas algumas linhas de código C#.

Download Julgamento Comprar

Veja o que há de novo

// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source
     = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("image-with-text.png");

// Perform OCR
List<Aspose.OCR.RecognitionResult> results
     = recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);

> dotnet add package Aspose.OCR

Por que escolher a biblioteca Aspose OCR?

Crie recursos poderosos do OCR em seus aplicativos .NET em segundos. Nossa API OCR fácil de usar permite extrair texto de imagens e varreduras, criar PDFs pesquisáveis e muito mais com o código C# mínimo. Ideal para funções .NET Desktop, Web, Cloud e sem servidor.
Experimente OCR que não extrai apenas texto, mas entende e o aprimora com a IA. Clique nos itens abaixo para saber mais sobre nossos recursos e benefícios.

Aplicações Globais de OCR

C# OCR reconhece textos ingleses, cirílicos, árabes, persas, chineses, japoneses, coreanos, hindus, tâmeis e em língua mista.

Leia tudo

Obtenha texto de qualquer arquivo obtido através de um scanner ou câmera e processe imagens diretamente dos links da Web.

Resultados confiáveis

Alcance alta precisão de reconhecimento para todas as imagens, incluindo aquelas que estão fora de foco, rotacionadas, distorcidas e barulhentas.

Reconhecimento em lote

Recognizar todas as imagens de pastas e arquivos; Leia documentos em PDF e imagens TIFF de várias páginas.

Detecção de layout

Identifique e categorize os blocos de conteúdo nas imagens para garantir a ordem correta do texto extraído, independentemente do layout.

AI Pós -processamento usando LLMS

Não apenas OCR-sua solução de IA tudo em um para reconhecimento de texto mais inteligente e sem erros. O Aspose.ocr agora integra a IA e o LLMS para escolher modelos que aprimoram significativamente a precisão do OCR - de ajuste erros, restaurando o texto ausente e melhorando a qualidade geral do reconhecimento.

Amostra de código vivo

.NET OCR se torna uma tarefa trivial e direta com a ASPO OCR API, mesmo para novos desenvolvedores. Apenas algumas linhas de código são suficientes para extrair texto de uma imagem e exibi -lo na tela. É realmente simples assim - experimente.

Pronto para reconhecer Pronto para reconhecer Solte um arquivo aqui ou clique para navegar *

* Enviando seus arquivos ou usando o serviço com o qual você concorda com o nosso Termos de uso e política de Privacidade.

Resultado de reconhecimento

// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");

// Perform OCR
List<Aspose.OCR.RecognitionResult> results
     = recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);

Independência da plataforma

A biblioteca de OCR de plataforma cruzada pode funcionar em todos os lugares em .NET, .Net Core ou .Net Framework-seja em uma máquina local, no servidor da web ou na nuvem.

Formatos de arquivo suportados

Aspose.OCR for .NET pode trabalhar com qualquer arquivo Você pode ir de um scanner ou câmera. Os resultados do reconhecimento podem ser salvos, importados para um banco de dados ou analisados em tempo real.

Imagens

JPEG
PNG
TIFF
BMP
GIF

Lote ocr

Multi-page PDF
DjVu
ZIP
Folder

Resultados de reconhecimento

Text
PDF
Microsoft Word
Microsoft Excel
HTML
RTF
ePub
JSON
XML

OCR movido a LLM: a próxima geração de OCR acionada por modelos de idiomas de IA.

A precisão dos resultados não interrompe o reconhecimento - desbloqueie o próximo nível de qualidade, refinando o texto usando LLMs externos.

Corrija automaticamente a ortografia e a gramática em texto reconhecido.
Normalize inconsistências e problemas de formatação em varreduras de várias páginas.
Adapte os resultados do reconhecimento ao vocabulário específico do assunto usando modelos orientados por prompt.
Integre qualquer pipeline LLM externo no seu fluxo de trabalho OCR com apenas algumas linhas de código.

Adequado para qualquer conteúdo

A precisão e a confiabilidade do reconhecimento de texto em C# dependem amplamente da qualidade da imagem. O .NET OCR oferece um conjunto completo de otimização de imagem automatizada e manual, garantindo resultados de reconhecimento superior.

Processamento de imagem poderoso, detecção de texto totalmente personalizável, pós-processamento e correção automatizada de correção de ortografia, permitindo a extração de texto de qualquer varredura ou foto com maior precisão.

Otimização de recursos OCR

A biblioteca Aspose ‘C# OCR permite o equilíbrio altamente flexível da velocidade, qualidade e utilização de recursos para cada caso de uso específico:

Escolha entre reconhecimento completo e rápido reconhecimento.
Especifique o número de threads alocados para reconhecimento ou permita que nossa biblioteca .NET OCR escala automaticamente para o número de núcleos do processador.
Liberte a CPU descarregando os cálculos para a GPU.

140+ idiomas de reconhecimento

Nossa biblioteca C# OCR é uma solução universal para processamento de documentos, extração de dados e digitalização de conteúdo em escala global. Com apoio a uma vasta gama de scripts europeus, do Oriente Médio e Asiático, é bem adaptado para qualquer país e negócio.

Você pode reconhecer documentos escritos em idiomas mistos, como chinês/inglês, árabe/francês ou cirílico/inglês. Os seguintes idiomas são suportados:

** Latim estendido **: inglês, espanhol, francês, indonésio, português, alemão, vietnamita, turco, italiano, polonês e mais de 80;
** Cirílico ** alfabeto: russo, ucraniano, cazaque, búlgaro, incluindo textos cirílicos/ingleses mistos;
Árabe, persa, urdu, incluindo textos misturados com inglês;
Línguas chinesas, coreanas, japonesas, devanagari e dravidianas, incluindo hindi, tâmil, marathi e outros.

Recursos e recursos

O C# OCR extrai automaticamente o texto de fotos ou digitalizações, eliminando a necessidade de retipação manual de documentos.

Foto OCR

Extraia o texto das fotos de smartphones com precisão no nível da verificação.

PDF pesquisável

Converta qualquer varredura em um documento totalmente pesquisável e indexável.

Reconhecimento de URL

Reconheça uma imagem do URL sem baixá -la localmente.

Reconhecimento em massa

Leia todas as imagens de documentos, pastas e arquivos de várias páginas.

Qualquer fonte e estilo

Identifique e reconheça o texto em todos os tipos e estilos populares.

Reconhecimento fino

Ajuste todos os parâmetros OCR para obter os melhores resultados de reconhecimento.

Verificador ortográfico

Melhorar os resultados corrigindo automaticamente as palavras incorretas.

Encontre texto em imagens

Procure texto ou expressão regular dentro de um conjunto de imagens.

Compare textos de imagem

Compare textos em duas imagens, independentemente do caso e do layout.

Correção movida a IA

Corrija palavras mal reconhecidas e gramática usando LLMs baseados em transformadores-não é necessário treinamento personalizado.

Pós -processamento semântico

Vá além dos caracteres: refine a saída ruidosa do OCR com LLMS para melhorar a qualidade do conteúdo e a normalização da linguagem.

Pipelines plug-in llm

Conecte os modelos de linguagem externa para corrigir erros de reconhecimento de OCR e restaurar texto incompleto ou fragmentado.

Fácil de usar OCR

Com a nossa API C# OCR, você só precisa de algumas linhas de código C# para converter a imagem em texto, criar um PDF pesquisável, salvar resultados de reconhecimento para documentar e muito mais. Explore as amostras de código para entender como integrar nossa API OCR em suas soluções .NET.

Instalação

.NET OCR é distribuído como um Nuget Package ou como um arquivo para download com dependências mínimas. O pacote pode ser adicionado ao seu projeto diretamente do Microsoft Visual Studio. Basta instalá -lo no seu projeto e você está pronto para extrair texto das imagens e salvar os resultados do reconhecimento em qualquer um dos formatos suportados. Se o seu sistema tiver uma GPU capaz de CUDA, você poderá usar o mecanismo OCR acelerado GPU-acelerado para aumentar significativamente o desempenho do reconhecimento. você pode começar a usar o Aspose.OCR for .NET logo após a instalação com algumas restrições . Uma licença temporária remove todas as limitações da versão do teste por 30 dias. Use -o para começar a criar um aplicativo OCR totalmente funcional e tomar a decisão final de comprar o OCR para .NET posteriormente.

Extrair texto de uma foto

Quando as pessoas normalmente pensam no OCR (reconhecimento óptico de caracteres), a primeira associação é frequentemente com um scanner como o principal dispositivo de captura. Essa associação tem razões históricas e ainda prevalece em muitos contextos, proporcionando um ambiente consistente e controlado para capturar texto impresso de documentos físicos com qualidade inigualável. No entanto, um scanner é um equipamento especializado que nem sempre está próximo e requer uma estação de trabalho estacionária para operar. Felizmente, o mundo moderno fornece uma alternativa conveniente aos scanners tradicionais - uma câmera de smartphone. Os avanços na tecnologia de câmera para smartphones garantem que mesmo um smartphone de nível básico ofereça qualidade suficiente para capturar documentos prontos para o OCR. E a memória embutida facilita a digitalização de grandes quantidades de documentos, jornais, livros, placas de rua e outros texto em movimento. Tudo o que você precisa é da tecnologia certa para converter essas fotos em texto legível por máquina. Nossa biblioteca C# OCR foi projetada especificamente para reconhecer todos os tipos de imagens prontas para uso e pode ser mais ajustado para lidar com as fotos de baixa qualidade. Combinado com um smartphone moderno, ele permite criar aplicativos de OCR poderosos para a maioria das tarefas diárias de digitalização e reconhecimento de texto. O processamento de imagem mais avançado e a análise da estrutura de documentos são realizados em algumas linhas de código, permitindo que você se concentre nos negócios, em vez de algoritmos matemáticos complexos, redes neurais e outros meandros técnicos.

Foto OCR - C#

// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
  PreprocessingFilter.ContrastCorrectionFilter(),
  PreprocessingFilter.AutoDewarping()
};

// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");

// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;

// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);

// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);

Crie um PDF pesquisável a partir da varredura

O PDF é um dos formatos mais populares para digitalizar documentos em papel, especialmente devido à sua capacidade de combinar várias páginas em um único arquivo. Esse formato é amplamente utilizado para a troca de contratos, faturas, documentos legais, passaportes e cartões de identificação e muitos outros documentos entre indivíduos, empresas, bancos e agências governamentais. No entanto, qualquer PDF digitalizado é essencialmente uma coleção de imagens. Ele não contém texto legível por máquina; portanto, os usuários não podem pesquisar, copiar ou manipular o conteúdo do documento. Aspose .NET OCR oferece uma maneira rápida, fácil e altamente confiável de converter qualquer PDF digitalizado em um documento totalmente pesquisável e indexável. Ele reconhece com precisão o conteúdo da página, convertendo-o em uma camada de texto legível por máquina sobre a imagem original que pode ser selecionada, copiada, lida por software de texto em fala e até processada automaticamente por tradutores, resumos e outras ferramentas de análise de IA.

Adicionar sobreposição de texto ao PDF - C#

// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");

// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);

// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");

Procure texto em imagens

Os arquivos digitais, especialmente em grandes organizações, geralmente consistem em uma vasta coleção de varreduras e fotos, muitas das quais podem conter documentos de várias páginas. A gestão e a organização eficiente de tais arquivos efetivamente são essenciais para uma fácil recuperação de informações e navegação. No entanto, as imagens não contêm texto legível por máquina, tornando impossível pesquisar e analisar o conteúdo do documento. A biblioteca C# OCR permite procurar facilmente o texto em imagens, independentemente da fonte, tamanho do texto, estilo e outros parâmetros. A biblioteca também suporta pesquisas insensíveis ao caso e expressões regulares, que são extremamente úteis em várias aplicações e indústrias. Essa funcionalidade pode ser usada para categorizar documentos com base no conteúdo, palavras -chave ou padrões encontrados no texto; Procurando termos ou cláusulas específicas dentro de acordos e contratos; reorganizar arquivos com base em palavras -chave ou conteúdo encontrado nelas; Localize e identifique dados pessoais nos documentos, facilitando a garantia de conformidade com o GDPR e gerencie informações confidenciais com mais eficiência. A pesquisa de imagens com a criação de imagens também permite criar fluxos de trabalho automatizados e otimizar vários processos de negócios ao receber contratos e faturas assinadas.

Procure texto em imagens - C#

string sourceFolder = "images";
string searchFor = "OCR";

// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
  bool found = api.ImageHasText(image, searchFor);
  if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}

AI Pós -processamento com LLM

Agora você pode ir além do reconhecimento bruto e aplicar a lógica acionada por IA para melhorar a qualidade textual dos resultados do OCR. Os grandes modelos de idiomas (LLMs) podem corrigir inteligentemente erros de ortografia, restaurar os limites das palavras, aplicar regras gramaticais e adaptar o texto com base no contexto-algo que os verificadores ortográficos baseados em sintaxe não podem fazer. Esta etapa de pós-processamento é ideal para varreduras de baixa qualidade, fotos com ruído de fundo ou documentos multilíngues. Você pode conectar qualquer tubulação LLM que suporta entrada/saída básica de texto ou usar as ferramentas de correção inteligente interna da Aspose para obter resultados prontos para a produção.

🧠AI Pós -processamento com LLM - C#

// Optional logger for progress and error reporting (can be set to null)
ILogger logger = new ConsoleLogger();

// Configure AI model for postprocessing
AsposeAIModelConfig modelConfig = new AsposeAIModelConfig
{
    AllowAutoDownload = true,
    DirectoryModelPath = "D://Models", // Path to local or downloaded model files
};

// Initialize AI postprocessing engine
AsposeAI aiEngine = new AsposeAI(modelConfig, logger);

// Register a spell-checking processor
aiEngine.AddPostProcessor(new SpellCheckAIProcessor());

// Execute AI-based postprocessing on OCR results
aiEngine.RunPostprocessor(ocrResults);

// Output the refined recognition result
Console.WriteLine("Corrected OCR Output:\n");
Console.WriteLine(ocrResults[0].RecognitionText);

// Release resources
aiEngine.Dispose();