Por que escolher a biblioteca Aspose OCR?

Crie recursos avançados de OCR em seus aplicativos .NET em segundos. Nossa API de OCR fácil de usar permite extrair texto de imagens e digitalizações, criar PDFs pesquisáveis ​​e muito mais com o mínimo de código C#. Ideal para funções de desktop .NET, web, nuvem e sem servidor. Clique nos itens abaixo para saber mais sobre nossos recursos e benefícios.

Illustration ocr

Aplicativos globais de OCR

C# OCR reconhece textos em inglês, cirílico, árabe, persa, chinês, japonês, coreano, hindi, tâmil e em idiomas mistos.

Leia tudo

Obtenha texto de qualquer arquivo obtido por meio de um scanner ou câmera e processe imagens diretamente de links da web.

Resultados confiáveis

Obtenha alta precisão de reconhecimento para todas as imagens, incluindo aquelas que estão fora de foco, giradas, distorcidas e com ruído.

Reconhecimento de lote

Reconhecer em massa todas as imagens de pastas e arquivos; leia documentos PDF de várias páginas e imagens TIFF.

Detecção de layout

Identifique e categorize blocos de conteúdo em imagens para garantir a ordem correta do texto extraído, independentemente do layout.

Amostra de código ativo

O .NET OCR torna-se uma tarefa trivial e direta com a API Aspose OCR, mesmo para novos desenvolvedores. Apenas algumas linhas de código são suficientes para extrair o texto de uma imagem e exibi-lo na tela. É realmente simples assim - experimente.

Pronto para reconhecer Pronto para reconhecer Solte um arquivo aqui ou clique para navegar *

* Ao enviar seus arquivos ou usar o serviço você concorda com nosso Termos de uso e política de Privacidade.

Resultado de reconhecimento
 

Converter imagem em texto

Mais exemplos >
// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");

// Perform OCR
List<Aspose.OCR.RecognitionResult> results
     = recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);

Independência de plataforma

A biblioteca OCR multiplataforma pode funcionar em qualquer lugar em .NET, .NET Core ou .NET Framework - seja em uma máquina local, no servidor web ou na nuvem.

Microsoft Windows
Linux
MacOS
GitHub
Microsoft Azure
Amazon Web Services
Docker

Formatos de arquivo suportados

Aspose.OCR for .NET pode trabalhar com qualquer arquivo você pode obter de um scanner ou câmera. Os resultados do reconhecimento podem ser salvos, importados para um banco de dados ou analisados ​​em tempo real.

Imagens

  • JPEG
  • PNG
  • TIFF
  • BMP
  • GIF

OCR em lote

  • Multi-page PDF
  • DjVu
  • ZIP
  • Folder

Resultados de reconhecimento

  • Text
  • PDF
  • Microsoft Word
  • Microsoft Excel
  • HTML
  • RTF
  • ePub
  • JSON
  • XML

Adequado para qualquer conteúdo

A precisão e a confiabilidade do reconhecimento de texto em C# dependem em grande parte da qualidade da imagem. O .NET OCR oferece um conjunto completo de otimização de imagem automatizada e manual, garantindo resultados de reconhecimento superiores.

Processamento de imagem poderoso, detecção de texto totalmente personalizável, pós-processamento e correção ortográfica automatizada permitem a extração de texto de qualquer digitalização ou foto com a mais alta precisão.

Otimização de recursos de OCR

A biblioteca C# OCR da Aspose permite um equilíbrio altamente flexível de velocidade de reconhecimento, qualidade e utilização de recursos para cada caso de uso específico:

  • Escolha entre reconhecimento completo e reconhecimento rápido.
  • Especifique o número de threads alocados para reconhecimento ou permita que nossa biblioteca .NET OCR seja automaticamente dimensionada para o número de núcleos do processador.
  • Libere a CPU transferindo os cálculos para a GPU.

Mais de 140 idiomas de reconhecimento

Nossa biblioteca C# OCR é uma solução universal para processamento de documentos, extração de dados e digitalização de conteúdo em escala global. Com suporte para uma vasta gama de escritas europeias, do Médio Oriente e da Ásia, é bem adaptado a qualquer país e negócio.

Você pode reconhecer documentos escritos em idiomas mistos, como chinês/inglês, árabe/francês ou cirílico/inglês. Os seguintes idiomas são suportados:

  • Latim estendido: inglês, espanhol, francês, indonésio, português, alemão, vietnamita, turco, italiano, polonês e mais de 80;
  • Alfabeto Cirílico: Russo, Ucraniano, Cazaque, Búlgaro, incluindo textos mistos em Cirílico/Inglês;
  • Árabe, Persa, Urdu, incluindo textos misturados com Inglês;
  • Línguas chinesa, coreana, japonesa, devanágari e dravidiana, incluindo hindi, tâmil, marata e outras.

Recursos e capacidades

C# OCR extrai automaticamente texto de fotos ou digitalizações, eliminando a necessidade de redigitação manual de documentos.

Feature icon

OCR de fotos

Extraia texto de fotos de smartphones com precisão de digitalização.

Feature icon

PDF pesquisável

Converta qualquer digitalização em um documento totalmente pesquisável e indexável.

Feature icon

Reconhecimento de URL

Reconheça uma imagem do URL sem baixá-la localmente.

Feature icon

Reconhecimento em massa

Leia todas as imagens de documentos, pastas e arquivos de várias páginas.

Feature icon

Qualquer fonte e estilo

Identifique e reconheça texto em todos os tipos e estilos populares.

Feature icon

Reconhecimento de ajuste fino

Ajuste todos os parâmetros de OCR para obter melhores resultados de reconhecimento.

Feature icon

Corretor ortográfico

Melhore os resultados corrigindo automaticamente palavras com erros ortográficos.

Feature icon

Encontre texto em imagens

Pesquise texto ou expressão regular em um conjunto de imagens.

Feature icon

Compare textos de imagens

Compare textos em duas imagens, independentemente do caso e do layout.

OCR fácil de usar

Com nossa API C# OCR, você só precisa de algumas linhas de código C# para converter imagem em texto, criar um PDF pesquisável, salvar resultados de reconhecimento em um documento e muito mais. Explore os exemplos de código para entender como integrar nossa API OCR às suas soluções .NET.

Instalação

O .NET OCR é distribuído como um pacote NuGet ou como um [arquivo para download]( https://releases.aspose.com/ocr/net /) com dependências mínimas. O pacote pode ser adicionado ao seu projeto diretamente do Microsoft Visual Studio. Basta instalá-lo em seu projeto e você estará pronto para extrair texto de imagens e salvar os resultados do reconhecimento em qualquer um dos formatos suportados. Se o seu sistema tiver uma GPU compatível com CUDA, você poderá usar o mecanismo de OCR acelerado por GPU para aumentar significativamente o desempenho de reconhecimento.

Você pode começar a usar o Aspose.OCR for .NET logo após a instalação com algumas restrições . Uma licença temporária remove todas as limitações da versão de teste por 30 dias. Use-o para começar a criar um aplicativo de OCR totalmente funcional e tomar a decisão final de adquirir o OCR para .NET posteriormente.

Extraia texto de uma foto

Quando as pessoas normalmente pensam em OCR (reconhecimento óptico de caracteres), a primeira associação geralmente é com um scanner como dispositivo de captura principal. Esta associação tem razões históricas e ainda prevalece em muitos contextos, proporcionando um ambiente consistente e controlado para a captura de texto impresso de documentos físicos com qualidade incomparável. No entanto, um scanner é um equipamento especializado que nem sempre está disponível e requer uma estação de trabalho fixa para funcionar. Felizmente, o mundo moderno oferece uma alternativa conveniente aos scanners tradicionais - uma câmera de smartphone. Os avanços na tecnologia de câmeras de smartphones garantem que mesmo um smartphone básico forneça qualidade suficiente para capturar documentos prontos para OCR. E a memória incorporada torna mais fácil do que nunca a digitalização de grandes quantidades de documentos, jornais, livros, placas de rua e outros textos em trânsito. Tudo que você precisa é da tecnologia certa para converter essas fotos em texto legível por máquina.

Nossa biblioteca C# OCR foi projetada especificamente para reconhecer todos os tipos de imagens prontas para uso e pode ser ajustada ainda mais para lidar até mesmo com fotos de baixa qualidade. Combinado com um smartphone moderno, permite criar aplicativos OCR poderosos para a maioria das tarefas diárias de digitalização e reconhecimento de texto. O processamento de imagem e a análise da estrutura de documentos mais avançados são realizados em poucas linhas de código, permitindo que você se concentre nos negócios em vez de algoritmos matemáticos complexos, redes neurais e outras complexidades técnicas.

OCR de fotos - C#

// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
  PreprocessingFilter.ContrastCorrectionFilter(),
  PreprocessingFilter.AutoDewarping()
};

// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");

// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;

// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);

// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);

Crie um PDF pesquisável a partir da digitalização

PDF é um dos formatos mais populares para digitalização de documentos em papel, especialmente devido à sua capacidade de combinar várias páginas em um único arquivo. Este formato é amplamente utilizado para a troca de contratos, faturas, documentos legais, passaportes e carteiras de identidade, e muitos outros documentos entre indivíduos, empresas, bancos e agências governamentais. No entanto, qualquer PDF digitalizado é essencialmente uma coleção de imagens. Ele não contém texto legível por máquina, portanto os usuários não podem pesquisar, copiar ou manipular o conteúdo do documento.

Aspose .NET OCR oferece uma maneira rápida, fácil e altamente confiável de converter qualquer PDF digitalizado em um documento totalmente pesquisável e indexável. Ele reconhece com precisão o conteúdo da página, convertendo-o em uma camada de texto legível por máquina sobre a imagem original que pode ser selecionada, copiada, lida por software de conversão de texto em fala e até mesmo processada automaticamente por tradutores, resumidores e outras análises baseadas em IA. ferramentas.

Adicionar sobreposição de texto ao PDF - C#

// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");

// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);

// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");

Pesquisar texto em imagens

Os arquivos digitais, especialmente em grandes organizações, geralmente consistem em uma vasta coleção de digitalizações e fotos, muitas das quais podem conter documentos de várias páginas. A gestão eficiente e a organização eficaz de tais arquivos são essenciais para facilitar a recuperação e navegação de informações. No entanto, as imagens não contêm texto legível por máquina, impossibilitando a pesquisa e análise do conteúdo do documento.

A biblioteca C# OCR permite pesquisar facilmente texto em imagens, independentemente da fonte, tamanho do texto, estilo e outros parâmetros. A biblioteca também oferece suporte a pesquisas que não diferenciam maiúsculas de minúsculas e expressões regulares, que são extremamente úteis em vários aplicativos e setores. Esta funcionalidade pode ser utilizada para categorizar documentos com base no conteúdo, palavras-chave ou padrões encontrados no texto; pesquisa de termos ou cláusulas específicas em acordos e contratos; reorganizar arquivos com base em palavras-chave ou conteúdo encontrado neles; localizar e identificar dados pessoais em documentos, tornando mais fácil garantir a conformidade com o GDPR e gerenciar informações confidenciais de maneira mais eficaz. A pesquisa em imagens também permite criar fluxos de trabalho automatizados e agilizar diversos processos de negócios ao receber contratos e faturas assinadas.

Pesquisar texto em imagens - C#

string sourceFolder = "images";
string searchFor = "OCR";

// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
  bool found = api.ImageHasText(image, searchFor);
  if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}