Converta imagens e PDFs em texto em .NET

Adicione o reconhecimento óptico de caracteres (OCR) aos seus aplicativos .NET com algumas linhas de código.

Aspose.OCR para .NET é uma API poderosa, mas fácil de usar e econômica para reconhecimento óptico de caracteres. Com ele, você pode adicionar a funcionalidade OCR aos seus aplicativos .NET em menos de 5 linhas de código sem se preocupar com matemática complexa, redes neurais e outros detalhes técnicos. Nossa experiência em tecnologias de aprendizado de máquina e anos de desenvolvimento resultaram em um mecanismo OCR com velocidade e precisão superiores que suporta 26 idiomas baseados em scripts latinos e cirílicos , além de chinês . A API de OCR pode reconhecer imagens digitalizadas, fotos de smartphones, capturas de tela, áreas de imagens e PDFs digitalizados e retornar resultados nos formatos de troca de dados e documentos mais populares. Vários filtros de pré-processamento permitem que você reconheça imagens giradas, distorcidas e ruidosas. O desempenho do reconhecimento e a carga do sistema podem ser melhorados ainda mais com a transferência de tarefas computacionais intensivas em recursos para a GPU .

Num relance

Um breve resumo dos recursos de reconhecimento óptico de caracteres.

Fontes compatíveis

Arial
Times New Roman
Courier New
Tahoma
Calibri
Verdana

Estilos de fonte suportados

Fonte normal
Negrito
Fonte em itálico

Idiomas suportados

língua Inglesa
língua chinesa
língua alemã
lingua francesa
Língua italiana
língua espanhola
língua russa
Língua tcheca
língua polonesa
lingua ucraniana
língua holandesa
idioma estoniano
e mais 10

Aspose.OCR

Independência de plataforma

Aspose.OCR para .NET suporta .NET Standard 2.0.

Implementações .NET

.NET 6.0
.NET 5.0
.NET Core
.NET Framework
Mono
Xamarin

Formulários

Aplicativos de desktop
Serviços do Windows
ASP.NET MVC
ASP.NET Web API
Serviços web
Serviços na nuvem

Aspose.OCR

Formatos de arquivo suportados

Converta qualquer arquivo obtido de um scanner ou câmera para os formatos de troca de dados e documentos mais populares.

Arquivos Fonte

PDF
JPEG
PNG
TIFF
GIF
BMP
DjVu

Resultados de reconhecimento

PDF pesquisável
Microsoft Word
Microsoft Excel
Texto simples
JSON
XML

Aspose.OCR

Recursos e capacidades do Aspose.OCR para .NET

Converte imagens e PDFs em texto

Suporta todos os formatos de imagem que você pode obter de um scanner ou câmera

Lê idiomas baseados em latim e cirílico

Reconhece mais de 6.000 caracteres chineses

Detecta e reconhece todos os tipos de letra populares

Preserva cuidadosamente estilos de fonte e formatação

Processa toda a imagem ou apenas áreas selecionadas

Suporta imagens giradas, distorcidas e ruidosas

Reconhecimento em lote de todas as imagens em uma pasta ou arquivo

Reconhece imagens fornecidas como links da web

Encontra e corrige automaticamente palavras com erros ortográficos

Totalmente compatível com outros produtos Aspose

Fácil de instalar

O Aspose.OCR para .NET é distribuído como um pacote NuGet leve ou como um arquivo para download com dependências mínimas. Basta instalá -lo em seu projeto e você estará pronto para reconhecer textos em qualquer idioma suportado e salvar resultados de reconhecimento em qualquer um dos formatos suportados.

Solicite uma licença temporária para começar a construir um aplicativo de OCR totalmente funcional sem quaisquer limites e restrições.

Fácil de usar

Você precisa de três linhas de código para reconhecer a imagem e exibir o resultado. Sim, é realmente tão simples!

Imagem para texto em 3 linhas - C#

// Inicialize o mecanismo de OCR
var recognitionEngine = new Aspose.OCR.AsposeOcr();

// Reconhecer imagem para texto
string result = recognitionEngine.RecognizeImage("sample.jpg");

// Exibir o resultado do reconhecimento
Console.WriteLine(result);

Multiplataforma

A biblioteca oferece suporte total ao .NET Standard 2.0. Isso significa que os aplicativos podem ser executados em qualquer plataforma: desktop Windows, Windows Server, macOS, Linux e nuvem.

26 Idiomas de Reconhecimento

A API OCR pode reconhecer um grande número de idiomas e todos os scripts de escrita populares, incluindo textos com idiomas mistos.

Alfabeto latino estendido : croata, tcheco, dinamarquês, holandês, inglês, estoniano, finlandês, francês, alemão, italiano, letão, lituano, norueguês, polonês, português, romeno, eslovaco, esloveno, espanhol, sueco.
Alfabeto cirílico : bielorrusso, búlgaro, cazaque, russo, sérvio, ucraniano.
Chinês : mais de 6.000 caracteres.

Você pode deixar a detecção de idioma para a biblioteca ou definir o idioma você mesmo para aumentar o desempenho e a confiabilidade do reconhecimento.

Reconhecer fotos

A maior barreira para os aplicativos de OCR é que os scanners não são comuns para os usuários finais. A API possui poderosos filtros de pré-processamento de imagem integrados que podem lidar com imagens giradas, distorcidas e com ruído. Em combinação com suporte para todos os formatos de imagem, permite o reconhecimento confiável até mesmo de fotos de smartphones. A maior parte do pré-processamento e correção de imagem é feita automaticamente, então você só terá que intervir em casos difíceis.

Aplicar correções automáticas de imagem - C#

// Inicialize o mecanismo de OCR
var recognitionEngine = new Aspose.OCR.AsposeOcr();

// Ativar cálculo e contraste automáticos de inclinação
var recognitionEngine = new Aspose.OCR.AsposeOcr();
var recognitionSettings = new Aspose.OCR.RecognitionSettings() {
    AutoContrast = true,
    AutoSkew = true
};

// Reconhecer imagem
Aspose.OCR.RecognitionResult result = recognitionEngine.RecognizeImage("IMG_20220622_163123.jpg", recognitionSettings);

Conversor universal

A API pode ler literalmente qualquer imagem obtida de um scanner, câmera ou smartphone: documentos PDF, JPEG, PNG, TIFF, GIF, imagens BMP e até arquivos DjVu. Documentos PDF de várias páginas, imagens TIFF e DjVu são totalmente suportados. Você também pode fornecer uma imagem da web por meio de um URL.

Os resultados do reconhecimento são retornados nos formatos de troca de dados e documentos mais populares: texto simples, PDF, Microsoft Word, Microsoft Excel, JSON e XML.

Reconhecer PDF e salvar resultados em JSON - C#

// Inicializar o mecanismo de OCR
var recognitionEngine = new Aspose.OCR.AsposeOcr();

// Reconhecer todas as páginas do PDF digitalizado
var pages = recognitionEngine.RecognizePdf("sample.pdf", new Aspose.OCR.DocumentRecognitionSettings());

// Saída de cada página como JSON
foreach(var page in pages)
{
    Console.WriteLine(page.GetJson());
}

Otimização de recursos

O reconhecimento óptico de caracteres é um processo que consome muitos recursos. A API oferece maneiras muito flexíveis de encontrar um equilíbrio na tríade clássica de tempo-preço-qualidade:

Escolha entre reconhecimento completo e reconhecimento rápido.
Especifique o número de threads alocados para reconhecimento ou permita que a biblioteca seja dimensionada automaticamente para o número de núcleos do processador.
Libere a CPU descarregando os cálculos para a GPU.

Reconhecimento rápido - C#

// Inicialize o mecanismo de OCR
var recognitionEngine = new Aspose.OCR.AsposeOcr();

// Reconhecer imagem no modo mais rápido
string result = recognitionEngine.RecognizeImageFast("sample.jpg");

Verificação ortográfica

Embora o OCR produza resultados confiáveis, poeira e defeitos de impressão podem fazer com que alguns símbolos sejam reconhecidos incorretamente. A API OCR possui um corretor ortográfico integrado que substitui automaticamente palavras com erros ortográficos e libera você de ter que corrigir manualmente os resultados do reconhecimento.

Resultados de reconhecimento de verificação ortográfica - C#

// Inicialize o mecanismo de OCR
var recognitionEngine = new Aspose.OCR.AsposeOcr();

// Ativar contraste automático
var recognitionEngine = new Aspose.OCR.AsposeOcr();
var recognitionSettings = new Aspose.OCR.RecognitionSettings() {
    AutoContrast = true
};

// Reconhecer imagem
Aspose.OCR.RecognitionResult result = recognitionEngine.RecognizeImage("sample.jpg", recognitionSettings);

// Corrigir palavras incorretas
string text =  result.GetSpellCheckCorrectedText();

Processamento em lote

A API OCR libera você de reconhecer cada imagem uma por uma, oferecendo vários métodos de processamento em lote que permitem reconhecer várias imagens em uma chamada:

Reconhecimento de arquivos PDF, TIFF e DjVu de várias páginas.
Reconhecimento de todos os arquivos em uma pasta.
Reconhecimento de todos os arquivos em um arquivo.
Reconhecimento de todos os arquivos de uma lista.

Aprenda pelo exemplo

O Aspose.OCR para .NET vem com vários exemplos escritos em C# que permitem que você se familiarize rapidamente com suas funções e recursos e dá uma ideia de como criar soluções para suas necessidades de negócios.

Support and Learning Resources

Por que Aspose.OCR para .NET?
Lista de clientes
Histórias de sucesso

Download Free Trial Pricing Information

O Aspose também oferece APIs OCR nativas para outras linguagens de programação populares:

Converta imagens e PDFs em texto em .NET

Adicione o reconhecimento óptico de caracteres (OCR) aos seus aplicativos .NET com algumas linhas de código.

Aspose.OCR for .NET

Overview

Num relance

Independência de plataforma

Formatos de arquivo suportados

Recursos e capacidades do Aspose.OCR para .NET

Fácil de instalar

Fácil de usar

Imagem para texto em 3 linhas - C#

Multiplataforma

26 Idiomas de Reconhecimento

Reconhecer fotos

Aplicar correções automáticas de imagem - C#

Conversor universal

Reconhecer PDF e salvar resultados em JSON - C#

Otimização de recursos

Reconhecimento rápido - C#

Verificação ortográfica

Resultados de reconhecimento de verificação ortográfica - C#

Processamento em lote

Aprenda pelo exemplo

Support and Learning Resources

Aspose.OCR forJava

Aspose.OCR forC++