Pourquoi choisir la bibliothèque Aspose OCR ?

Intégrez de puissantes fonctionnalités OCR à vos applications .NET en quelques secondes. Notre API OCR facile à utiliser vous permet d’extraire du texte à partir d’images et de numérisations, de créer des PDF consultables et bien plus encore avec un minimum de code C#. Idéal pour les fonctions de bureau .NET, Web, cloud et sans serveur. Cliquez sur les éléments ci-dessous pour en savoir plus sur nos fonctionnalités et avantages.

Illustration ocr

Applications OCR mondiales

C# OCR reconnaît les textes en anglais, cyrillique, arabe, persan, chinois, japonais, coréen, hindi, tamoul et multilingues.

Lisez tout

Obtenez du texte à partir de n'importe quel fichier obtenu via un scanner ou un appareil photo et traitez les images directement à partir de liens Web.

Des résultats fiables

Obtenez une précision de reconnaissance élevée pour toutes les images, y compris celles qui sont floues, pivotées, déformées et bruyantes.

Reconnaissance par lots

Reconnaître en masse toutes les images des dossiers et des archives ; lire des documents PDF de plusieurs pages et des images TIFF.

Détection de mise en page

Identifiez et catégorisez les blocs de contenu dans les images pour garantir le bon ordre du texte extrait, quelle que soit la mise en page.

Exemple de code en direct

.NET OCR devient une tâche triviale et simple avec l’API Aspose OCR, même pour les nouveaux développeurs. Quelques lignes de code suffisent pour extraire le texte d’une image et l’afficher à l’écran. C’est aussi simple que cela : essayez-le.

Prêt à reconnaître Prêt à reconnaître Déposez un fichier ici ou cliquez pour parcourir *

* En téléchargeant vos fichiers ou en utilisant le service, vous acceptez notre Conditions d'utilisation et politique de confidentialité.

Résultat de la reconnaissance
 

Convertir l'image en texte

Plus d'exemples >
// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");

// Perform OCR
List<Aspose.OCR.RecognitionResult> results
     = recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);

Indépendance de la plateforme

La bibliothèque OCR multiplateforme peut fonctionner partout sous .NET, .NET Core ou .NET Framework - que ce soit sur une machine locale, sur le serveur Web ou dans le cloud.

Microsoft Windows
Linux
MacOS
GitHub
Microsoft Azure
Amazon Web Services
Docker

Formats de fichiers pris en charge

Aspose.OCR for .NET peut fonctionner avec n’importe quel fichier vous pouvez l’obtenir à partir d’un scanner ou d’un appareil photo. Les résultats de la reconnaissance peuvent être enregistrés, importés dans une base de données ou analysés en temps réel.

Images

  • JPEG
  • PNG
  • TIFF
  • BMP
  • GIF

ROC par lots

  • Multi-page PDF
  • DjVu
  • ZIP
  • Folder

Résultats de reconnaissance

  • Text
  • PDF
  • Microsoft Word
  • Microsoft Excel
  • HTML
  • RTF
  • ePub
  • JSON
  • XML

Convient à tout contenu

La précision et la fiabilité de la reconnaissance de texte en C# dépendent en grande partie de la qualité de l’image. .NET OCR offre un ensemble complet d’optimisation d’image automatisée et manuelle, garantissant des résultats de reconnaissance supérieurs.

Un traitement d’image puissant, une détection de texte entièrement personnalisable, un post-traitement et une correction orthographique automatisée permettent d’extraire le texte de n’importe quelle numérisation ou photo avec la plus grande précision.

Optimisation des ressources OCR

La bibliothèque C# OCR d’Aspose permet un équilibre très flexible entre la vitesse de reconnaissance, la qualité et l’utilisation des ressources pour chaque cas d’utilisation spécifique :

  • Choisissez entre une reconnaissance approfondie et une reconnaissance rapide.
  • Spécifiez le nombre de threads alloués pour la reconnaissance ou autorisez notre bibliothèque .NET OCR à s’adapter automatiquement au nombre de cœurs de processeur.
  • Libérez le CPU en déchargeant les calculs sur le GPU.

Plus de 140 langues de reconnaissance

Notre bibliothèque C# OCR est une solution universelle pour le traitement de documents, l’extraction de données et la numérisation de contenu à l’échelle mondiale. Prenant en charge une vaste gamme de scripts d’écriture européens, du Moyen-Orient et d’Asie, il est bien adapté à tous les pays et à toutes les entreprises.

Vous pouvez reconnaître des documents rédigés dans des langues mixtes, telles que chinois/anglais, arabe/français ou cyrillique/anglais. Les langues suivantes sont prises en charge :

  • Latin étendu : anglais, espagnol, français, indonésien, portugais, allemand, vietnamien, turc, italien, polonais et plus de 80 autres ;
  • Alphabet cyrillique : russe, ukrainien, kazakh, bulgare, y compris des textes mixtes cyrillique/anglais ;
  • arabe, persan, ourdou, y compris des textes mélangés à de l’anglais ;
  • Langues chinoise, coréenne, japonaise, devanagari et dravidienne, dont l’hindi, le tamoul, le marathi et d’autres.

Caractéristiques et capacités

C# OCR extrait automatiquement le texte des photos ou des numérisations, éliminant ainsi le besoin de retaper manuellement les documents.

Feature icon

ROC de photos

Extrayez le texte des photos de votre smartphone avec une précision de niveau numérisation.

Feature icon

PDF consultable

Convertissez n’importe quelle numérisation en un document entièrement consultable et indexable.

Feature icon

Reconnaissance d’URL

Reconnaissez une image à partir d’une URL sans la télécharger localement.

Feature icon

Reconnaissance groupée

Lisez toutes les images de documents, dossiers et archives de plusieurs pages.

Feature icon

N’importe quelle police et style

Identifiez et reconnaissez le texte dans toutes les polices et styles populaires.

Feature icon

Affiner la reconnaissance

Ajustez chaque paramètre OCR pour obtenir les meilleurs résultats de reconnaissance.

Feature icon

Correcteur orthographique

Améliorez les résultats en corrigeant automatiquement les mots mal orthographiés.

Feature icon

Rechercher du texte dans les images

Recherchez du texte ou une expression régulière dans un ensemble d’images.

Feature icon

Comparer les textes des images

Comparez les textes sur deux images, quels que soient la casse et la mise en page.

OCR facile à utiliser

Avec notre API C# OCR, vous n’avez besoin que de quelques lignes de code C# pour convertir une image en texte, créer un PDF consultable, enregistrer les résultats de la reconnaissance dans un document, et bien d’autres encore. Explorez les exemples de code pour comprendre comment intégrer notre API OCR dans vos solutions .NET.

Installation

.NET OCR est distribué sous forme de package NuGet ou sous forme de [fichier téléchargeable]( https://releases.aspose.com/ocr/net /) avec des dépendances minimales. Le package peut être ajouté à votre projet directement depuis Microsoft Visual Studio. Installez-le simplement sur votre projet et vous êtes prêt à extraire le texte des images et à enregistrer les résultats de la reconnaissance dans l’un des formats pris en charge. Si votre système dispose d’un GPU compatible CUDA, vous pouvez utiliser le moteur OCR accéléré par GPU pour augmenter considérablement les performances de reconnaissance.

Vous pouvez commencer à utiliser Aspose.OCR for .NET juste après l’installation avec certaines restrictions . Une licence temporaire supprime toutes les limitations de la version d’essai pendant 30 jours. Utilisez-le pour commencer à créer une application OCR entièrement fonctionnelle et prendre la décision finale d’acheter l’OCR pour .NET plus tard.

Extraire le texte d’une photo

Lorsque les gens pensent généralement à l’OCR (reconnaissance optique de caractères), la première association est souvent celle d’un scanner comme principal périphérique de capture. Cette association a des raisons historiques et est toujours répandue dans de nombreux contextes, offrant un environnement cohérent et contrôlé pour capturer du texte imprimé à partir de documents physiques avec une qualité inégalée. Cependant, un scanner est un équipement spécialisé qui n’est pas toujours à portée de main et qui nécessite un poste de travail fixe pour fonctionner. Heureusement, le monde moderne offre une alternative pratique aux scanners traditionnels : l’appareil photo d’un smartphone. Les progrès de la technologie des appareils photo des smartphones garantissent que même un smartphone d’entrée de gamme offre une qualité suffisante pour capturer des documents prêts pour l’OCR. Et la mémoire intégrée facilite plus que jamais la numérisation de grandes quantités de documents, journaux, livres, panneaux de signalisation et autres textes en déplacement. Tout ce dont vous avez besoin est la bonne technologie pour convertir ces photos en texte lisible par machine.

Notre bibliothèque C# OCR est spécialement conçue pour reconnaître tous les types d’images prêtes à l’emploi et peut être affinée pour gérer même les photos de faible qualité. Associé à un smartphone moderne, il vous permet de créer de puissantes applications OCR pour la plupart des tâches quotidiennes de numérisation et de reconnaissance de texte. Le traitement d’image et l’analyse de la structure des documents les plus avancés sont effectués en quelques lignes de code, ce qui vous permet de vous concentrer sur votre activité plutôt que sur des algorithmes mathématiques complexes, des réseaux de neurones et d’autres subtilités techniques.

OCR de photos - C#

// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
  PreprocessingFilter.ContrastCorrectionFilter(),
  PreprocessingFilter.AutoDewarping()
};

// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");

// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;

// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);

// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);

Créer un PDF consultable à partir de la numérisation

Le PDF est l’un des formats les plus populaires pour numériser des documents papier, notamment en raison de sa capacité à combiner plusieurs pages en un seul fichier. Ce format est largement utilisé pour l’échange de contrats, factures, documents juridiques, passeports et cartes d’identité, et de nombreux autres documents entre particuliers, entreprises, banques et agences gouvernementales. Cependant, tout PDF numérisé est essentiellement une collection d’images. Il ne contient pas de texte lisible par machine, les utilisateurs ne peuvent donc pas rechercher, copier ou manipuler le contenu du document.

Aspose .NET OCR vous offre un moyen rapide, simple et hautement fiable de convertir n’importe quel PDF numérisé en un document entièrement consultable et indexable. Il reconnaît avec précision le contenu de la page, le convertissant en une couche de texte lisible par machine sur l’image originale qui peut être sélectionnée, copiée, lue par un logiciel de synthèse vocale et même traitée automatiquement par des traducteurs, des résumés et d’autres analyses basées sur l’IA. outils.

Ajouter une superposition de texte au PDF - C#

// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");

// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);

// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");

Rechercher du texte dans les images

Les archives numériques, en particulier dans les grandes organisations, consistent souvent en une vaste collection de numérisations et de photos, dont beaucoup peuvent contenir des documents de plusieurs pages. Une gestion et une organisation efficaces de ces archives sont essentielles pour faciliter la récupération et la navigation des informations. Cependant, les images ne contiennent pas de texte lisible par machine, ce qui rend impossible la recherche et l’analyse du contenu du document.

La bibliothèque C# OCR vous permet de rechercher facilement du texte dans les images, quels que soient la police, la taille du texte, le style et d’autres paramètres. La bibliothèque prend également en charge les recherches et les expressions régulières insensibles à la casse, qui s’avèrent extrêmement utiles dans diverses applications et secteurs. Cette fonctionnalité peut être utilisée pour classer les documents en fonction du contenu, des mots-clés ou des modèles trouvés dans le texte ; rechercher des termes ou clauses spécifiques dans des accords et des contrats ; réorganiser les fichiers en fonction des mots-clés ou du contenu qui s’y trouvent ; localiser et identifier les données personnelles dans les documents, ce qui facilite la garantie de la conformité au RGPD et gère plus efficacement les informations sensibles. La recherche dans les images permet également de créer des flux de travail automatisés et de rationaliser divers processus commerciaux dès la réception de contrats et de factures signés.

Rechercher du texte dans les images - C#

string sourceFolder = "images";
string searchFor = "OCR";

// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
  bool found = api.ImageHasText(image, searchFor);
  if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}