Por que Aspose.OCR for .NET?

Aspose.OCR for .NET é uma API robusta, amigável ao desenvolvedor e econômica para reconhecimento óptico de caracteres. Em menos de 10 linhas de código C# nativo, você pode criar recursos de OCR em suas soluções de desktop .NET, aplicativos Web baseados em MVC, serviços em nuvem e funções do Azure sem servidor. Extraia texto legível por máquina de digitalizações, fotos e capturas de tela, converta páginas digitalizadas em PDFs pesquisáveis ​​e indexáveis, encontre e compare texto em imagens com foco em tarefas de negócios, em vez de matemática complexa, redes neurais e outras complexidades técnicas. Clique nos itens abaixo para saber mais sobre nossos recursos e benefícios.

Illustration ocr

Aplicações globais

Reconheça textos em escritas latinas, cirílicas e asiáticas, incluindo mais de 6.000 caracteres chineses e hindi.

Leia tudo

Recupere texto de qualquer arquivo obtido por meio de um scanner ou câmera e processe imagens diretamente de links da web.

Resultados confiáveis

Obtenha alta precisão de reconhecimento para todas as imagens, incluindo aquelas que estão fora de foco, giradas, distorcidas e com ruído.

Reconhecimento de lote

Reconhecer em massa todas as imagens de pastas e arquivos; leia documentos PDF de várias páginas e imagens TIFF.

Detecção de layout

Identifique e categorize blocos de conteúdo em imagens para garantir a ordem correta do texto extraído, independentemente do layout.

Amostra de código ativo

O reconhecimento óptico de caracteres torna-se uma tarefa trivial e direta com o Aspose.OCR, mesmo para desenvolvedores novos na tecnologia. Apenas algumas linhas de código são suficientes para extrair o texto de uma imagem e exibi-lo na tela. É realmente simples assim - experimente.

Pronto para reconhecer Pronto para reconhecer Solte um arquivo aqui ou clique para navegar *

* Ao enviar seus arquivos ou usar o serviço você concorda com nosso Termos de uso e política de Privacidade.

Resultado de reconhecimento
 

Converter imagem em texto

Mais exemplos >
// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");

// Perform OCR
List<Aspose.OCR.RecognitionResult> results
     = recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);

Independência de plataforma

Aspose.OCR for .NET pode funcionar em qualquer plataforma que suporte .NET, .NET Core ou .NET Framework - seja em um local máquina, no servidor web ou na nuvem.

Microsoft Windows
Linux
MacOS
GitHub
Microsoft Azure
Amazon Web Services
Docker

Formatos de arquivo suportados

Aspose.OCR for .NET pode trabalhar com praticamente qualquer arquivo você pode obter de um scanner ou câmera. Os resultados do reconhecimento são retornados nos formatos mais populares de arquivos e troca de dados que podem ser salvos, importados para um banco de dados ou analisados ​​em tempo real.

Imagens

  • JPEG
  • PNG
  • TIFF
  • BMP
  • GIF

OCR em lote

  • Multi-page PDF
  • DjVu
  • ZIP
  • Folder

Resultados de reconhecimento

  • Text
  • PDF
  • Microsoft Word
  • Microsoft Excel
  • HTML
  • RTF
  • ePub
  • JSON
  • XML

Adequado para qualquer conteúdo

A precisão e confiabilidade do reconhecimento de texto dependem muito da qualidade da imagem original. Aspose.OCR for .NET fornece uma ampla gama de filtros de processamento de imagem totalmente automatizados e manuais que aprimoram uma imagem antes de ela ser enviada ao mecanismo de OCR.

O poderoso processamento de imagens e algoritmos personalizáveis ​​de detecção de estrutura de conteúdo permitem a extração de texto de praticamente qualquer imagem, desde digitalizações de alta qualidade até fotos de rua. Vários filtros de processamento podem ser aplicados à mesma imagem para obter a melhor qualidade de reconhecimento.

Otimização de recursos

Aspose.OCR for .NET permite um equilíbrio altamente flexível de velocidade de reconhecimento, qualidade e utilização de recursos para cada caso de uso específico:

  • Escolha entre reconhecimento completo e reconhecimento rápido.
  • Especifique o número de threads alocados para reconhecimento ou permita que a biblioteca seja dimensionada automaticamente para o número de núcleos do processador.
  • Libere a CPU transferindo os cálculos para a GPU.

Mais de 130 idiomas de reconhecimento

Aspose.OCR for .NET é uma solução universal para processamento de documentos, extração de dados e digitalização de conteúdo em escala global. Com suporte para uma vasta gama de escritas europeias, do Médio Oriente e da Ásia, está bem adaptado a qualquer escala, atendendo tanto a pequenas e médias empresas como a empresas multinacionais.

Você pode delegar a detecção de idioma à biblioteca ou especificar manualmente o idioma, melhorando o desempenho e a confiabilidade do reconhecimento. Os seguintes idiomas são suportados:

  • Alfabeto latino estendido: inglês, espanhol, francês, indonésio, português, alemão, vietnamita, turco, italiano, polonês e mais de 80;
  • Alfabeto cirílico: russo, ucraniano, cazaque, sérvio, bielorrusso, búlgaro;
  • Árabe, Persa, Urdu;
  • Escrita chinesa e Devanagari, incluindo Hindi, Marathi, Bhojpuri e outras.

Recursos e capacidades

Aspose.OCR for .NET extrai automaticamente texto de fotos ou imagens digitalizadas, eliminando a necessidade de redigitação manual de documentos.

Feature icon

OCR de fotos

Extraia texto de fotos de smartphones com precisão de digitalização.

Feature icon

PDF pesquisável

Converta qualquer digitalização em um documento totalmente pesquisável e indexável.

Feature icon

Reconhecimento de URL

Reconheça uma imagem do URL sem baixá-la localmente.

Feature icon

Reconhecimento em massa

Leia todas as imagens de documentos, pastas e arquivos de várias páginas.

Feature icon

Qualquer fonte e estilo

Identifique e reconheça texto em todos os tipos e estilos populares.

Feature icon

Reconhecimento de ajuste fino

Ajuste todos os parâmetros de OCR para obter melhores resultados de reconhecimento.

Feature icon

Verificador ortográfico

Melhore os resultados corrigindo automaticamente palavras com erros ortográficos.

Feature icon

Encontre texto em imagens

Pesquise texto ou expressão regular em um conjunto de imagens.

Feature icon

Compare textos de imagens

Compare textos em duas imagens, independentemente do caso e do layout.

Fácil de usar

Você só precisa de algumas linhas de código para converter imagem em texto, criar um PDF pesquisável, salvar resultados de reconhecimento em documento e muito mais. Explore os exemplos de código para entender como integrar o Aspose.OCR for .NET às suas soluções.

Instalação

Aspose.OCR for .NET é distribuído como um pacote NuGet ou como um [arquivo para download]( https://releases.aspose.com/ ocr/net/) com dependências mínimas. O pacote pode ser adicionado ao seu projeto diretamente do Microsoft Visual Studio. Basta instalá-lo em seu projeto e você estará pronto para extrair texto de imagens e salvar os resultados do reconhecimento em qualquer um dos formatos suportados. Se o seu sistema tiver uma GPU compatível com CUDA, você poderá usar o mecanismo de OCR acelerado por GPU para aumentar significativamente o desempenho de reconhecimento.

Você pode começar a usar o Aspose.OCR for .NET logo após a instalação com algumas restrições . Uma licença temporária remove todas as limitações da versão de teste por 30 dias. Use-o para começar a construir um aplicativo OCR totalmente funcional e tomar a decisão final de comprar o Aspose.OCR for .NET posteriormente.

Extraia texto de uma foto

Quando as pessoas normalmente pensam em OCR (reconhecimento óptico de caracteres), a primeira associação geralmente é com um scanner como dispositivo de captura principal. Esta associação tem razões históricas e ainda prevalece em muitos contextos, proporcionando um ambiente consistente e controlado para a captura de texto impresso de documentos físicos com qualidade incomparável. No entanto, um scanner é um equipamento especializado que nem sempre está disponível e requer uma estação de trabalho fixa para funcionar. Felizmente, o mundo moderno oferece uma alternativa conveniente aos scanners tradicionais - uma câmera de smartphone. Os avanços na tecnologia de câmeras de smartphones garantem que mesmo um smartphone básico forneça qualidade suficiente para capturar documentos prontos para OCR. E a memória incorporada torna mais fácil do que nunca a digitalização de grandes quantidades de documentos, jornais, livros, placas de rua e outros textos em trânsito. Tudo que você precisa é da tecnologia certa para converter essas fotos em texto legível por máquina.

O Aspose.OCR for .NET foi projetado especificamente para reconhecer todos os tipos de imagens prontas para uso e pode ser ajustado ainda mais para lidar até mesmo com fotos de baixa qualidade. Combinado com um smartphone moderno, permite criar aplicativos OCR poderosos para a maioria das tarefas diárias de digitalização e reconhecimento de texto. O processamento de imagem e a análise da estrutura de documentos mais avançados são realizados em poucas linhas de código, permitindo que você se concentre nos negócios em vez de algoritmos matemáticos complexos, redes neurais e outras complexidades técnicas.

OCR de fotos - C#

// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
  PreprocessingFilter.ContrastCorrectionFilter(),
  PreprocessingFilter.AutoDewarping()
};

// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");

// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;

// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);

// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);

Crie um PDF pesquisável a partir da digitalização

PDF é um dos formatos mais populares para digitalização de documentos em papel, especialmente devido à sua capacidade de combinar várias páginas em um único arquivo. Este formato é amplamente utilizado para a troca de contratos, faturas, documentos legais, passaportes e carteiras de identidade, e muitos outros documentos entre indivíduos, empresas, bancos e agências governamentais. No entanto, qualquer PDF digitalizado é essencialmente uma coleção de imagens. Ele não contém texto legível por máquina, portanto os usuários não podem pesquisar, copiar ou manipular o conteúdo do documento.

Aspose.OCR for .NET oferece uma maneira rápida, fácil e altamente confiável de converter qualquer PDF digitalizado em um documento totalmente pesquisável e indexável. Ele reconhece com precisão o conteúdo da página, convertendo-o em uma camada de texto legível por máquina sobre a imagem original que pode ser selecionada, copiada, lida por software de conversão de texto em fala e até mesmo processada automaticamente por tradutores, resumidores e outras análises baseadas em IA. ferramentas.

Adicionar sobreposição de texto ao PDF - C#

// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");

// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);

// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");

Pesquisar texto em imagens

Os arquivos digitais, especialmente em grandes organizações, geralmente consistem em uma vasta coleção de digitalizações e fotos, muitas das quais podem conter documentos de várias páginas. A gestão eficiente e a organização eficaz de tais arquivos são essenciais para facilitar a recuperação e navegação de informações. No entanto, as imagens não contêm texto legível por máquina, impossibilitando a pesquisa e análise do conteúdo do documento.

Aspose.OCR for .NET permite pesquisar facilmente texto em imagens, independentemente da fonte, tamanho do texto, estilo e outros parâmetros. A biblioteca também oferece suporte a pesquisas que não diferenciam maiúsculas de minúsculas e expressões regulares, que são extremamente úteis em vários aplicativos e setores. Esta funcionalidade pode ser utilizada para categorizar documentos com base no conteúdo, palavras-chave ou padrões encontrados no texto; pesquisa de termos ou cláusulas específicas em acordos e contratos; reorganizar arquivos com base em palavras-chave ou conteúdo encontrado neles; localizar e identificar dados pessoais em documentos, tornando mais fácil garantir a conformidade com o GDPR e gerenciar informações confidenciais de maneira mais eficaz. A pesquisa em imagens também permite criar fluxos de trabalho automatizados e agilizar diversos processos de negócios ao receber contratos e faturas assinadas.

Pesquisar texto em imagens - C#

string sourceFolder = "images";
string searchFor = "OCR";

// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
  bool found = api.ImageHasText(image, searchFor);
  if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}