Convertir des images et des PDF en texte en C++

Ajoutez la reconnaissance optique de caractères (OCR) à vos applications C++ avec quelques lignes de code.

Aspose.OCR pour C++ étend vos applications avec des capacités de reconnaissance optique de caractères en 5 lignes de code. Notre expérience dans les réseaux de neurones et l'apprentissage automatique a été traduite en une bibliothèque OCR avec des performances et une précision supérieures qui prend en charge 26 langues basées sur des scripts latins et cyrilliques ainsi que sur le chinois . L'API OCR peut reconnaître les images numérisées, les photos de smartphone, les captures d'écran, les zones d'images et les PDF numérisés et renvoyer les résultats dans les formats d'échange de documents et de données les plus courants. Il est complètement hors ligne et ne nécessite pas de connexion Internet pour fonctionner. L'API nécessite un effort minimal pour démarrer et une courbe d'apprentissage peu profonde à maîtriser. Tous les prétraitements, la correction de l'inclinaison, la suppression du bruit, la détection de la langue, le multithreading et d'autres tâches complexes sont effectués automatiquement, mais peuvent être réglés pour traiter les cas difficiles.

En bref

Un bref résumé des capacités de reconnaissance optique de caractères.

CARACTERISTIQUES de base

Extraire le texte des photos
Créer des PDF consultables
Corrections d'image automatiques
Prend en charge plusieurs polices de caractères
Conserver la mise en forme du texte
Détecter les fragments de texte
Le traitement par lots
Vérification orthographique

Langues prises en charge

langue Anglaise
langue chinoise
langue allemande
langue française
langue italienne
l'Espagnol
langue russe
langue tchèque
langue polonaise
Langue ukrainienne
langue néerlandaise
langue estonienne
et plus de 10

Aspose.OCR

Indépendance de la plate-forme

La bibliothèque OCR prend entièrement en charge les applications C++ pour Windows et Linux.

Windows 64 bit

Linux 64 bit

Aspose.OCR

Formats de fichiers pris en charge

Convertissez n'importe quel fichier que vous obtenez d'un scanner ou d'un appareil photo vers les formats d'échange de documents et de données les plus populaires.

Fichiers source

PDF
JPEG
PNG
TIFF
BMP

Résultats de reconnaissance

PDF consultable
Microsoft Word
Microsoft Excel
Texte brut
JSON
XML

Aspose.OCR

Fonctionnalités avancées de l'API C++ OCR

Extrait le texte des images et crée des PDF consultables

Prend en charge toutes les images que vous pouvez obtenir à partir d'un scanner ou d'un appareil photo

Lit les scripts latins et cyrilliques étendus

Reconnaît plus de 6 000 caractères chinois

Détecte et reconnaît toutes les polices de caractères et le formatage populaires

Prétraite les images avant la reconnaissance

Traite l'image entière ou des zones sélectionnées uniquement

Prend en charge les images tournées, asymétriques et bruyantes

Reconnaissance par lots de toutes les images d'un dossier ou d'une archive

Reconnaît les images fournies sous forme de liens Web

Recherche et corrige automatiquement les mots mal orthographiés

Obtenir le résultat de la reconnaissance au format JSON

Facile à utiliser

Pensez-vous toujours que C++ OCR est difficile ? Avec notre bibliothèque, vous n'avez besoin que de 5 lignes de code pour reconnaître l'image et afficher le résultat. Essayez ce code et voyez par vous-même :

Image en texte en 5 lignes - C++

// Indiquez le chemin de l'image
std::string image_path = "../Data/Source/sample.png";

// Préparer le tampon pour le résultat
const size_t len = 4096;
wchar_t buffer[len] = { 0 };

// Faites la magie
size_t size = aspose::ocr::page(image_path.c_str(), buffer, len);

// Afficher le résultat de la reconnaissance
std::wcout << buffer << L"\n";

26 langues de reconnaissance

L'API OCR peut reconnaître un grand nombre de langues et tous les scripts d'écriture populaires, y compris les textes avec des langues mixtes.

Alphabet latin étendu : croate, tchèque, danois, néerlandais, anglais, estonien, finnois, français, allemand, italien, letton, lituanien, norvégien, polonais, portugais, roumain, slovaque, slovène, espagnol, suédois.
Alphabet cyrillique : biélorusse, bulgare, kazakh, russe, serbe, ukrainien.
Chinois : plus de 6 000 caractères.

Vous pouvez laisser la détection de la langue à la bibliothèque ou définir vous-même la langue pour augmenter les performances et la fiabilité de la reconnaissance.

Le traitement par lots

L'API OCR vous évite de reconnaître chaque image une par une en proposant diverses méthodes de traitement par lots qui vous permettent de reconnaître plusieurs images en un seul appel :

Reconnaissance des fichiers PDF et TIFF de plusieurs pages.
Reconnaissance de tous les fichiers d'un dossier.
Reconnaissance de tous les fichiers d'une archive.

Reconnaître l'archive ZIP - C++

// Indiquez le chemin de l'archive
std::string archive_path = "book.zip";

// Préparer le tampon pour le résultat
const size_t len = 4096;
wchar_t buffer[len] = { 0 };

// Initialiser l'objet RecognitionSettings avec les valeurs par défaut
RecognitionSettings settings;

// Reconnaître
size_t res_len = aspose::ocr::pages_multi(archive_path.c_str(), buffer, len, settings);

Conserver la mise en forme

La bibliothèque OCR lit toutes les polices de caractères populaires telles que Arial, Times New Roman, Courier New, Tahoma, Calibri et plus dans des styles réguliers, gras et italiques et préserve soigneusement la mise en forme dans les résultats OCR. Vous pouvez également diviser les résultats de la reconnaissance en lignes et détecter les zones de texte dans une page.

Reconnaître les photos

L'adoption généralisée des applications OCR est généralement stoppée par le fait que les scanners ne sont pas courants pour la plupart des utilisateurs. Notre bibliothèque OCR dispose de puissants filtres de prétraitement d'image intégrés qui peuvent gérer des images sombres, tournées, asymétriques et bruyantes. En combinaison avec la prise en charge de tous les formats d'image, il permet une reconnaissance fiable même des photos de smartphone. La majeure partie du prétraitement et de la correction d'image se fait automatiquement, vous n'aurez donc à intervenir que dans les cas difficiles.

Définir un angle personnalisé pour la correction d'inclinaison - C++

// Image originale
std::string image_path = "../Data/Source/sample.png";
rect rectangles[2] = { {90, 186, 775, 95} , { 928, 606, 790, 160 } };

// Préparer le tampon pour le résultat
const size_t len = 4096;
wchar_t buffer[len] = { 0 };

// Ajuster l'angle d'inclinaison
RecognitionSettings settings;
settings.format = export_format::text;
settings.rectangles = rectangles;
settings.rectangles_size = 2;
settings.skew = 5;

// Reconnaître l'image
size_t res_len = aspose::ocr::page_settings(image_path.c_str(), buffer, len, settings);

Vérification orthographique

Bien que l'OCR produise des résultats fiables, la poussière et les défauts d'impression peuvent entraîner une reconnaissance incorrecte de certains symboles. L'API OCR dispose d'un correcteur orthographique intégré qui remplace automatiquement les mots mal orthographiés et vous évite d'avoir à corriger manuellement les résultats de la reconnaissance.

Support and Learning Resources

Pourquoi Aspose.OCR pour C++ ?
Liste des clients
Réussites

Download Free Trial Pricing Information

Aspose propose également des API OCR natives pour d'autres langages de programmation populaires :

Convertir des images et des PDF en texte en C++

Ajoutez la reconnaissance optique de caractères (OCR) à vos applications C++ avec quelques lignes de code.

Aspose.OCR for C++

Overview

En bref

Indépendance de la plate-forme

Formats de fichiers pris en charge

Fonctionnalités avancées de l'API C++ OCR

Facile à utiliser

Image en texte en 5 lignes - C++

26 langues de reconnaissance

Le traitement par lots

Reconnaître l'archive ZIP - C++

Conserver la mise en forme

Reconnaître les photos

Définir un angle personnalisé pour la correction d'inclinaison - C++

Vérification orthographique

Support and Learning Resources

Aspose.OCR for.NET

Aspose.OCR forJava