Biblioteca OCR Python
Converta imagens em texto com Python OCR
Mais vitrines ># Initialize OCR engine
recognitionEngine = AsposeOcr()
# Add image to batch
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("sample.png")
# Extract text from image
result = recognitionEngine.recognize(input)
# Display the recognition result
print(result[0].recognition_text)
> pip install aspose-ocr-python-net
Por que Aspose.OCR para Python via .NET?
Embarque em uma jornada com Aspose OCR para Python via .NET – uma API de OCR versátil e fácil de usar. Incorpore a funcionalidade OCR em seus aplicativos Python com menos de cinco linhas de código, eliminando a necessidade de matemática complexa ou redes neurais. Nosso poderoso mecanismo de OCR oferece velocidade e precisão incomparáveis, suportando mais de 130 idiomas, incluindo inglês, cirílico, árabe, persa, hindi, chinês, japonês, coreano, tâmil e muitos mais. Quer sejam imagens digitalizadas, fotos de smartphones, capturas de tela ou PDFs digitalizados, obtenha resultados em formatos populares de troca de documentos e dados. Aproveite filtros de pré-processamento para lidar com imagens giradas, distorcidas e com ruído.
OCR eficiente e preciso
Experimente velocidade e precisão incomparáveis nos resultados de OCR com tecnologia Python avançada.
Multilíngue
Reconheça texto em mais de 140 idiomas: inglês, francês, alemão, espanhol, russo, chinês, hindi, japonês, coreano, tâmil, árabe, persa e muito mais.
Universal
Processe facilmente imagens de diversas fontes – scanners, câmeras e smartphones – usando Python.
Línguas asiáticas
Obtenha reconhecimento preciso das escritas chinesa, árabe, devanágari e dravidiana, bem como de textos em idiomas mistos.
Preservar layout
Mantenha a formatação de origem para uma representação de texto precisa e reconheça tabelas.
Amostra de código ativo
Converta uma imagem em texto em apenas TRÊS linhas de código Python. Experimente você mesmo!
* Ao enviar seus arquivos ou usar o serviço você concorda com nosso Termos de uso e política de Privacidade.
Converter imagem em texto
Descubra mais exemplos ># Initialize OCR engine
recognitionEngine = AsposeOcr()
# Add image to batch
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("sample.png")
# Extract text from image
result = recognitionEngine.recognize(input)
# Display the recognition result
print(result[0].recognition_text)
Escolha sua preferência
Escolha a biblioteca certa para suas necessidades. Explore as APIs disponíveis e seus recursos para selecionar a solução mais eficiente.
Versatilidade
Python via .NET
Uniformidade
Python via Java
Desempenho
Python via C++
Corre em todos os lugares
Independentemente do nome, Aspose.OCR para Python via .NET não requer a instalação do .NET na plataforma de destino. O pacote de instalação já vem com todos os componentes necessários e pode operar perfeitamente em qualquer plataforma – seja uma máquina local, servidor web ou nuvem.
Formatos de arquivo suportados
Aspose.OCR for Python via .NET pode trabalhar com qualquer arquivo você pode obter de um scanner ou câmera. Os resultados do reconhecimento podem ser salvos, importados para um banco de dados ou analisados em tempo real.
Imagens
- JPEG
- PNG
- TIFF
- BMP
- GIF
OCR em lote
- Multi-page PDF
- DjVu
- ZIP
- Folder
Resultados de reconhecimento
- Text
- Microsoft Word
- Microsoft Excel
- HTML
- RTF
- ePub
- JSON
- XML
Instalação
Aspose.OCR para Python via .NET é entregue como um pacote Python com dependências mínimas ou como um arquivo para download ou [pacote PyPI](https: //pypi.org/project/aspose-ocr-python-net/). Instale facilmente em seu projeto e você estará pronto para reconhecer textos em mais de 140 idiomas e salvar resultados de reconhecimento em vários formatos.
Solicite uma licença de teste para iniciar o desenvolvimento de um aplicativo OCR totalmente funcional e sem limitações.
OCR em Python
Nossa biblioteca se integra facilmente, permitindo que aplicativos Python sejam executados perfeitamente em qualquer plataforma – desktop Windows, Windows Server, macOS, Linux e nuvem.
Mais de 140 idiomas de reconhecimento
Nossa biblioteca Java OCR é uma solução universal para processamento de documentos, extração de dados e digitalização de conteúdo em escala global. Com suporte para uma vasta gama de escritas europeias, do Médio Oriente e da Ásia, é bem adaptado a qualquer país e negócio.
Aspose OCR para Java reconhece texto em documentos multilíngues, como chinês/inglês, árabe/francês ou cirílico/inglês. Os seguintes idiomas são suportados:
- Latim estendido: inglês, espanhol, francês, indonésio, português, alemão, vietnamita, turco, italiano, polonês e mais de 80;
- Alfabeto Cirílico: Russo, Ucraniano, Cazaque, Búlgaro, incluindo textos mistos em Cirílico/Inglês;
- Árabe, Persa, Urdu, incluindo textos misturados com Inglês;
- Línguas chinesa, coreana, japonesa, devanágari e dravidiana, incluindo hindi, tâmil, marata e outras. Textos em idiomas mistos também são suportados.
Filtros de processamento poderosos
A precisão e a confiabilidade do reconhecimento óptico de caracteres dependem altamente da qualidade da imagem original. Aspose OCR para Python via .NET oferece um grande número de filtros de processamento de imagem totalmente automatizados e manuais que aprimoram uma imagem antes de ela ser enviada ao mecanismo de OCR:
- Girar automaticamente imagens invertidas e giradas.
- Detecte imagens invertidas e extraia texto branco sobre preto.
- Remova automaticamente sujeira, manchas, arranhões, brilho, gradientes indesejados e outros ruídos.
- Ajusta automaticamente o contraste da imagem.
- Aumente a escala automaticamente ou redimensione manualmente a imagem.
- Converta imagens em preto e branco ou em tons de cinza.
- Encontre áreas da imagem potencialmente problemáticas e retorne informações sobre o tipo de defeito e suas coordenadas.
- Aumente a espessura dos caracteres em uma imagem.
- Desfoque imagens barulhentas preservando as bordas das letras.
- Endireite a curvatura da página e corrija a distorção da lente da câmera nas fotos da página.
Otimizado para tipos de documentos específicos
Aspose OCR para Python via .NET oferece redes neurais especialmente treinadas para extrair texto de certos tipos de imagens com máxima precisão:
Verificador ortográfico integrado
Embora nossa biblioteca Python OCR forneça alta precisão de reconhecimento, defeitos de impressão, sujeira ou fontes fora do padrão podem fazer com que certos caracteres ou palavras sejam reconhecidos incorretamente. Para melhorar ainda mais os resultados de reconhecimento, você pode ativar o corretor ortográfico, que localiza e corrige automaticamente erros ortográficos com base no idioma de reconhecimento selecionado.
Se o texto reconhecido contiver terminologia especializada, abreviações e outras palavras que não estejam presentes nos dicionários ortográficos comuns, você poderá fornecer suas próprias listas de palavras.
Reconhecimento de lote
Nossa API Python OCR libera você do reconhecimento de imagens uma por uma. Empregue vários métodos de processamento em lote para reconhecer várias imagens em uma chamada:
- Reconhecimento de arquivos PDF, TIFF e DjVu de várias páginas.
- Reconhecimento de todos os arquivos em uma pasta.
- Reconhecimento de todos os arquivos em um arquivo.
- Reconhecimento de todos os arquivos de uma lista.
Aprendendo por amostra
OCR para Python fornece uma variedade de exemplos escritos em Python, permitindo que você se familiarize rapidamente com suas funções e capacidades. Obtenha insights para criar soluções personalizadas para atender às suas necessidades de negócios em Python.
Recursos e capacidades
Aspose.OCR for Python via .NET resolve suas tarefas de forma rápida e fácil.
OCR de fotos
Extraia texto de fotos de smartphones com precisão de digitalização.
PDF pesquisável
Converta qualquer digitalização em um documento totalmente pesquisável, indexável e editável.
Reconhecimento de URL
Reconheça uma imagem do URL sem baixá-la localmente.
Reconhecimento em massa
Leia todas as imagens de documentos, pastas e arquivos de várias páginas.
Qualquer fonte e estilo
Identifique e reconheça texto em todos os tipos e estilos populares.
Reconhecimento de ajuste fino
Ajuste todos os parâmetros de OCR para obter melhores resultados de reconhecimento.
Corretor ortográfico
Melhore os resultados corrigindo automaticamente palavras com erros ortográficos.
Encontre texto em imagens
Pesquise texto ou expressão regular em um conjunto de imagens.
Compare textos de imagens
Compare textos em duas imagens, independentemente do caso e do layout.
Amostras de código Python
Aprofunde-se nos exemplos de código para integrar perfeitamente o OCR aos seus aplicativos Python.
Instalação
Distribuído como um Python Wheel ou um pacote independente para download, o Aspose.OCR para Python via .NET é facilmente distribuído. A integração em seu projeto Python, diretamente de seu ambiente de desenvolvimento integrado (IDE) Python preferido, é um processo contínuo. Basta instalá-lo e você estará preparado para aproveitar toda a gama de recursos de OCR, salvando resultados de reconhecimento em vários formatos.
Após a instalação, você pode começar imediatamente a usar o Aspose.OCR para Python via .NET , embora com certas limitações. Uma licença temporária elimina todas as restrições da versão de teste por 30 dias. Utilize este período para iniciar o desenvolvimento de um aplicativo OCR totalmente funcional, permitindo que você tome uma decisão informada sobre a compra do Aspose.OCR para Python via .NET posteriormente.
Carregar licença
lic = License()
lic.set_license(self.licPath)
Reconhecer texto em fotos
Ler texto de qualquer conteúdo no Aspose OCR para Python é tão fácil quanto chamar um método de reconhecimento universal.
Converter foto em texto - Python
api = AsposeOcr()
# Add image to the recognition batch
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("source1.png")
# Set recognition language
recognitionSettings = RecognitionSettings()
recognitionSettings.language = Language.UKR;
# Recognize the image
results = api.recognize(input, recognitionSettings)
# Print recognition result
for result in results:
print(result.recognition_text)
Conversor Universal Python
Nossa API lê habilmente qualquer imagem de scanners, câmeras ou smartphones: documentos PDF, JPEG, PNG, TIFF, GIF, imagens BMP e até arquivos DjVu. Suporte total para documentos PDF de várias páginas, imagens TIFF e DjVu garantem versatilidade. Você também pode fornecer uma imagem da web por meio de um URL.
Os resultados do reconhecimento são retornados em formatos populares de documentos e troca de dados: texto simples, PDF, Microsoft Word, Microsoft Excel, JSON e XML.
Reconheça PDF e salve resultados em vários formatos de saída - Python
api = AsposeOcr()
# Create OcrInput and add images
input = OcrInput(aspose.ocr.models.InputType.PDF)
file = os.path.join(self.dataDir, "pdfs/multi_page_1.pdf")
input.add(file, 0, 3)
set = RecognitionSettings()
set.set_detect_areas_mode = DetectAreasMode.NONE
result = api.recognize(input, set)
api.save_multipage_document("test.xml", SaveFormat.XML, result)
api.save_multipage_document("test.json", SaveFormat.JSON, result)
api.save_multipage_document("test.pdf", SaveFormat.PDF, result)
api.save_multipage_document("test.xlsx", SaveFormat.XLSX, result)
api.save_multipage_document("test.docx", SaveFormat.DOCX, result)
api.save_multipage_document("test.txt", SaveFormat.TEXT, result)
api.save_multipage_document("test.html", SaveFormat.HTML, result)
api.save_multipage_document("test.epub", SaveFormat.EPUB, result)
api.save_multipage_document("test.rtf", SaveFormat.RTF, result)
Otimização de recursos em Python
O reconhecimento óptico de caracteres exige recursos. Nossa API oferece maneiras flexíveis de equilibrar a clássica tríade tempo-preço-qualidade:
- Escolha entre reconhecimento completo e reconhecimento rápido.
- Especifique o número de threads alocados para reconhecimento ou permita que a biblioteca seja dimensionada automaticamente para o número de núcleos do processador.
- Libere a CPU transferindo cálculos para o back-end do .NET.
Reconhecimento rápido - Python
api = AsposeOcr()
# Create OcrInput and add images
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("sample_line.png")
result = api.recognize_fast(input)
Reconhecer linha única
Se sua imagem já estiver cortada em uma única linha de texto, ela poderá ser reconhecida no modo mais rápido possível, sem correções automatizadas, detecção de estrutura de conteúdo e outras etapas que consomem recursos. Ele pode acelerar o OCR até 7 vezes mais rápido que o processo normal de reconhecimento.
Reconhecer uma única linha de texto na imagem - Python
api = AsposeOcr()
# Create OcrInput and add images
input = OcrInput(InputType.SINGLE_IMAGE)
input.add("sample_line.png")
# recognize without regions detection
settings = RecognitionSettings()
settings.recognize_single_line = True
result = api.recognize(input, settings)
print(result[0].recognition_text)