API OCR native pour les applications .NET
Convertir une image en texte en C#
Plus de vitrines >// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source
= new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("image-with-text.png");
// Perform OCR
List<Aspose.OCR.RecognitionResult> results
= recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);
> dotnet add package Aspose.OCR
Pourquoi Aspose.OCR for .NET ?
Aspose.OCR for .NET est une API robuste, conviviale pour les développeurs et rentable pour la reconnaissance optique de caractères. En moins de 10 lignes de code C# natif, vous pouvez intégrer des fonctionnalités OCR dans vos solutions de bureau .NET, vos applications Web basées sur MVC, vos services cloud et vos fonctions Azure sans serveur. Extrayez du texte lisible par machine à partir de numérisations, de photos et de captures d’écran, convertissez les pages numérisées en PDF consultables et indexables, recherchez et comparez du texte sur des images en vous concentrant sur une tâche commerciale plutôt que sur des mathématiques complexes, des réseaux de neurones et d’autres subtilités techniques. Cliquez sur les éléments ci-dessous pour en savoir plus sur nos fonctionnalités et avantages.
Applications mondiales
Reconnaissez des textes en caractères latins, cyrilliques et asiatiques, comprenant plus de 6 000 caractères chinois et hindi.
Lisez tout
Récupérez le texte de n'importe quel fichier obtenu via un scanner ou un appareil photo et traitez les images directement à partir de liens Web.
Des résultats fiables
Obtenez une précision de reconnaissance élevée pour toutes les images, y compris celles qui sont floues, pivotées, déformées et bruyantes.
Reconnaissance par lots
Reconnaître en masse toutes les images des dossiers et des archives ; lire des documents PDF de plusieurs pages et des images TIFF.
Détection de mise en page
Identifiez et catégorisez les blocs de contenu dans les images pour garantir le bon ordre du texte extrait, quelle que soit la mise en page.
Exemple de code en direct
La reconnaissance optique de caractères devient une tâche triviale et simple avec Aspose.OCR, même pour les développeurs novices dans cette technologie. Quelques lignes de code suffisent pour extraire le texte d’une image et l’afficher à l’écran. C’est aussi simple que cela : essayez-le.
* En téléchargeant vos fichiers ou en utilisant le service, vous acceptez notre Conditions d'utilisation et politique de confidentialité.
Convertir l'image en texte
Plus d'exemples >// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");
// Perform OCR
List<Aspose.OCR.RecognitionResult> results
= recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);
Indépendance de la plateforme
Aspose.OCR for .NET peut fonctionner sur n’importe quelle plateforme qui prend en charge .NET, .NET Core ou .NET Framework - que ce soit sur un site local machine, sur le serveur Web ou dans le cloud.
Formats de fichiers pris en charge
Aspose.OCR for .NET peut fonctionner avec pratiquement n’importe quel fichier vous pouvez l’obtenir à partir d’un scanner ou d’un appareil photo. Les résultats de la reconnaissance sont renvoyés dans les formats d’échange de fichiers et de données les plus courants qui peuvent être enregistrés, importés dans une base de données ou analysés en temps réel.
Images
- JPEG
- PNG
- TIFF
- BMP
- GIF
ROC par lots
- Multi-page PDF
- DjVu
- ZIP
- Folder
Résultats de reconnaissance
- Text
- Microsoft Word
- Microsoft Excel
- HTML
- RTF
- ePub
- JSON
- XML
Convient à tout contenu
La précision et la fiabilité de la reconnaissance de texte dépendent fortement de la qualité de l’image originale. Aspose.OCR for .NET fournit une vaste gamme de filtres de traitement d’image entièrement automatisés et manuels qui améliorent une image avant qu’elle ne soit envoyée au moteur OCR.
Un traitement d’image puissant et des algorithmes personnalisables de détection de la structure du contenu permettent l’extraction de texte à partir de pratiquement n’importe quelle image, allant des numérisations de haute qualité aux photos de rue. Plusieurs filtres de traitement peuvent être appliqués à la même image pour obtenir la meilleure qualité de reconnaissance.
Optimisation des ressources
Aspose.OCR for .NET permet un équilibre très flexible entre la vitesse de reconnaissance, la qualité et l’utilisation des ressources pour chaque cas d’utilisation spécifique :
- Choisissez entre une reconnaissance approfondie et une reconnaissance rapide.
- Spécifiez le nombre de threads alloués pour la reconnaissance ou autorisez la bibliothèque à s’adapter automatiquement au nombre de cœurs de processeur.
- Libérez le CPU en déchargeant les calculs sur le GPU.
130+ langues de reconnaissance
Aspose.OCR for .NET est une solution universelle pour le traitement de documents, l’extraction de données et la numérisation de contenu à l’échelle mondiale. Prenant en charge une vaste gamme de scripts d’écriture européens, du Moyen-Orient et d’Asie, il est bien adapté à toutes les échelles, s’adressant aussi bien aux petites et moyennes entreprises qu’aux sociétés multinationales.
Vous pouvez déléguer la détection de langue à la bibliothèque ou spécifier manuellement la langue, améliorant ainsi les performances et la fiabilité de la reconnaissance. Les langues suivantes sont prises en charge :
- Alphabet latin étendu : anglais, espagnol, français, indonésien, portugais, allemand, vietnamien, turc, italien, polonais et plus de 80 autres ;
- Alphabet cyrillique : russe, ukrainien, kazakh, serbe, biélorusse, bulgare ;
- arabe, persan, ourdou ;
- Écriture chinoise et devanagari, notamment hindi, marathi, bhojpuri et autres.
Caractéristiques et capacités
Aspose.OCR for .NET extrait automatiquement le texte des photos ou des images numérisées, éliminant ainsi le besoin de retaper manuellement les documents.
ROC de photos
Extrayez le texte des photos de votre smartphone avec une précision de niveau numérisation.
PDF consultable
Convertissez n’importe quelle numérisation en un document entièrement consultable et indexable.
Reconnaissance d’URL
Reconnaissez une image à partir d’une URL sans la télécharger localement.
Reconnaissance groupée
Lisez toutes les images de documents, dossiers et archives de plusieurs pages.
N’importe quelle police et style
Identifiez et reconnaissez le texte dans toutes les polices et styles populaires.
Affiner la reconnaissance
Ajustez chaque paramètre OCR pour obtenir les meilleurs résultats de reconnaissance.
Correcteur orthographique
Améliorez les résultats en corrigeant automatiquement les mots mal orthographiés.
Rechercher du texte dans les images
Recherchez du texte ou une expression régulière dans un ensemble d’images.
Comparer les textes des images
Comparez les textes sur deux images, quels que soient la casse et la mise en page.
Facile à utiliser
Vous n’avez besoin que de quelques lignes de code pour convertir une image en texte, créer un PDF consultable, enregistrer les résultats de la reconnaissance dans un document, et bien d’autres encore. Explorez les exemples de code pour comprendre comment intégrer Aspose.OCR for .NET dans vos solutions.
Installation
Vous pouvez commencer à utiliser Aspose.OCR for .NET juste après l’installation avec certaines restrictions . Une licence temporaire supprime toutes les limitations de la version d’essai pendant 30 jours. Utilisez-le pour commencer à créer une application OCR entièrement fonctionnelle et prendre la décision finale d’acheter Aspose.OCR for .NET plus tard.
Extraire le texte d’une photo
Lorsque les gens pensent généralement à l’OCR (Reconnaissance Optique de Caractères), la première association est souvent avec un scanner comme principal dispositif de capture. Cette association a des raisons historiques et est toujours répandue dans de nombreux contextes, offrant un environnement cohérent et contrôlé pour capturer du texte imprimé à partir de documents physiques avec une qualité inégalée. Cependant, un scanner est un équipement spécialisé qui n’est pas toujours à portée de main et qui nécessite un poste de travail fixe pour fonctionner. Heureusement, le monde moderne offre une alternative pratique aux scanners traditionnels : l’appareil photo d’un smartphone. Les progrès de la technologie des appareils photo des smartphones garantissent que même un smartphone d’entrée de gamme offre une qualité suffisante pour capturer des documents prêts pour l’OCR. Et la mémoire intégrée facilite plus que jamais la numérisation de grandes quantités de documents, journaux, livres, panneaux de signalisation et autres textes en déplacement. Tout ce dont vous avez besoin est la bonne technologie pour convertir ces photos en texte lisible par machine.
Aspose.OCR for .NET est spécialement conçu pour reconnaître tous les types d’images prêtes à l’emploi et peut être affiné pour gérer même les photos de faible qualité. Associé à un smartphone moderne, il vous permet de créer de puissantes applications OCR pour la plupart des tâches quotidiennes de numérisation et de reconnaissance de texte. Le traitement d’image et l’analyse de la structure des documents les plus avancés sont effectués en quelques lignes de code, ce qui vous permet de vous concentrer sur votre activité plutôt que sur des algorithmes mathématiques complexes, des réseaux de neurones et d’autres subtilités techniques.
OCR de photos - C#
// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
PreprocessingFilter.ContrastCorrectionFilter(),
PreprocessingFilter.AutoDewarping()
};
// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");
// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;
// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);
// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);
Créer un PDF consultable à partir de la numérisation
Le PDF est l’un des formats les plus populaires pour numériser des documents papier, notamment en raison de sa capacité à combiner plusieurs pages en un seul fichier. Ce format est largement utilisé pour l’échange de contrats, factures, documents juridiques, passeports et cartes d’identité, et de nombreux autres documents entre particuliers, entreprises, banques et agences gouvernementales. Cependant, tout PDF numérisé est essentiellement une collection d’images. Il ne contient pas de texte lisible par machine, les utilisateurs ne peuvent donc pas rechercher, copier ou manipuler le contenu du document.
Aspose.OCR for .NET vous offre un moyen rapide, simple et hautement fiable de convertir n’importe quel PDF numérisé en un document entièrement consultable et indexable. Il reconnaît avec précision le contenu de la page, le convertissant en une couche de texte lisible par machine sur l’image originale qui peut être sélectionnée, copiée, lue par un logiciel de synthèse vocale et même traitée automatiquement par des traducteurs, des résumés et d’autres analyses basées sur l’IA. outils.
Ajouter une superposition de texte au PDF - C#
// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");
// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);
// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");
Rechercher du texte dans les images
Les archives numériques, en particulier dans les grandes organisations, consistent souvent en une vaste collection de numérisations et de photos, dont beaucoup peuvent contenir des documents de plusieurs pages. Une gestion et une organisation efficaces de ces archives sont essentielles pour faciliter la récupération et la navigation des informations. Cependant, les images ne contiennent pas de texte lisible par machine, ce qui rend impossible la recherche et l’analyse du contenu du document.
Aspose.OCR for .NET vous permet de rechercher facilement du texte dans les images, quels que soient la police, la taille du texte, le style et d’autres paramètres. La bibliothèque prend également en charge les recherches et les expressions régulières insensibles à la casse, qui s’avèrent extrêmement utiles dans diverses applications et secteurs. Cette fonctionnalité peut être utilisée pour classer les documents en fonction du contenu, des mots-clés ou des modèles trouvés dans le texte ; rechercher des termes ou clauses spécifiques dans des accords et des contrats ; réorganiser les fichiers en fonction des mots-clés ou du contenu qui s’y trouvent ; localiser et identifier les données personnelles dans les documents, ce qui facilite la garantie de la conformité au RGPD et gère plus efficacement les informations sensibles. La recherche dans les images permet également de créer des flux de travail automatisés et de rationaliser divers processus commerciaux dès la réception de contrats et de factures signés.
Rechercher du texte dans les images - C#
string sourceFolder = "images";
string searchFor = "OCR";
// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
bool found = api.ImageHasText(image, searchFor);
if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}