Aspose.OCR  for Java

Convertir des images et des PDF en texte en Java

Créez facilement des applications Java multiplateformes avec des capacités de reconnaissance optique de caractères (OCR).

  Download Free Trial
  
 

Aspose.OCR pour Java vous permet d'extraire du texte à partir d'images, de captures d'écran, de zones spécifiques d'une image et de créer des fichiers PDF consultables à partir de fichiers numérisés sur n'importe quelle plate-forme prenant en charge Java. Avec son API puissante mais facile à utiliser, même les tâches OCR complexes prennent moins de 10 lignes de code. Vous n'avez pas besoin de travailler avec des formules et l'apprentissage automatique - la bibliothèque se chargera de tous les détails techniques et produira des résultats fiables dans 26 langues basées sur des scripts latins et cyrilliques , ainsi que sur le chinois . L'API OCR traite les images numérisées, les photos de smartphone, les captures d'écran, les zones d'images et les PDF numérisés et renvoie les résultats dans les formats de document les plus courants. La vitesse, la précision et les performances de la reconnaissance peuvent être encore améliorées en répartissant les calculs sur plusieurs cœurs de processeur et en déchargeant les tâches gourmandes en ressources sur le GPU .

Caractéristiques et capacités d'Aspose.OCR pour Java

Reconnaît le texte formaté dans les images numérisées et les PDF

Prend en charge tous les formats de fichiers que vous pouvez obtenir à partir d'un scanner ou d'un appareil photo

Lit les scripts latins et cyrilliques

Reconnaît plus de 6 000 caractères chinois

Détecte et reconnaît toutes les polices de caractères populaires

Préserve soigneusement les styles de police et la mise en forme

Traite l'image entière ou des zones sélectionnées uniquement

Prend en charge les images tournées, asymétriques et bruyantes

Reconnaissance par lots de toutes les images d'un dossier ou d'une archive

Reconnaît les images fournies sous forme de liens Web

Recherche et corrige automatiquement les mots mal orthographiés

Compatibilité à 100 % avec les autres produits Aspose

Facile à installer

Vous pouvez utiliser Aspose.OCR pour Java directement à partir d'un projet basé sur Maven en suivant des instructions d'installation simples.

Demandez une licence temporaire pour commencer à créer une application OCR entièrement fonctionnelle sans aucune limite ni restriction.

$Easy to Use$

La reconnaissance d'image nécessite quelques lignes de code. Littéralement. C'est vraiment aussi simple - essayez vous-même :

Image en texte en 7 lignes - Java

// Créer une instance de l'API OCR
AsposeOCR api = new AsposeOCR();

try {
    // Reconnaître l'image
    String result = api.RecognizePage(imagePath);
    // Afficher le résultat de la reconnaissance
    System.out.println("Recognized text: " + result);
} catch (IOException e) {
    // La gestion des erreurs
    e.printStackTrace();
}

26 langues de reconnaissance

L'API OCR prend en charge un grand nombre de langues et tous les scripts d'écriture populaires, y compris les textes avec des langues mixtes. Le correcteur orthographique intégré remplace automatiquement les mots mal orthographiés et vous évite d'avoir à corriger manuellement les résultats de la reconnaissance.

  • Alphabet latin étendu : croate, tchèque, danois, néerlandais, anglais, estonien, finnois, français, allemand, italien, letton, lituanien, norvégien, polonais, portugais, roumain, slovaque, slovène, espagnol, suédois.
  • Alphabet cyrillique : biélorusse, bulgare, kazakh, russe, serbe, ukrainien.
  • Chinois : plus de 6 000 caractères.

Vous pouvez spécifier la langue pour augmenter les performances et la fiabilité de la reconnaissance ou laisser l'API détecter automatiquement les langues.

Conserver la mise en forme

L'API OCR lit toutes les polices de caractères populaires telles que Arial, Times New Roman, Courier New, Tahoma, Calibri et plus encore dans des styles réguliers, gras et italiques et préserve soigneusement la mise en forme dans les résultats OCR. Vous pouvez également diviser les résultats de la reconnaissance en lignes et détecter les zones de texte dans une page.

Reconnaître les photos

Le scanner n'est pas toujours disponible sur les postes de travail des utilisateurs finaux, ce qui peut devenir un obstacle pour les applications OCR. Notre API OCR fournit un certain nombre de filtres de prétraitement qui peuvent gérer des images déformées, tournées, asymétriques et bruyantes. En combinaison avec la prise en charge de tous les formats d'image, il permet une reconnaissance fiable même des photos de smartphone. La majeure partie du prétraitement et de la correction d'image se fait automatiquement, mais vous pouvez toujours intervenir dans les cas difficiles.

Appliquer des corrections d'image - Java

// Créer une instance de l'API OCR
AsposeOCR api = new AsposeOCR();

// Définir des filtres de prétraitement
PreprocessingFilter filters = new PreprocessingFilter();
filters.add(PreprocessingFilter.ToGrayscale());
filters.add(PreprocessingFilter.Rotate(-90));

// Pré-traiter l'image avant la reconnaissance
BufferedImage imageRes = api.PreprocessImage(imagePath, filters);

// Reconnaître l'image
RecognitionResult result = api.RecognizePage(imageRes, set);

Optimisation des performances

La reconnaissance optique de caractères nécessite beaucoup de ressources de traitement, ce qui peut devenir un problème pour les services Web et les appareils d'entrée de gamme. L'API offre des moyens très flexibles d'équilibrer la vitesse de reconnaissance, les besoins en ressources et la précision :

  • Choisissez entre une reconnaissance approfondie et une reconnaissance rapide.
  • Spécifiez le nombre de threads alloués pour la reconnaissance ou autorisez la bibliothèque à s'adapter automatiquement au nombre de cœurs de processeur.
  • Libérez le CPU en déchargeant les calculs sur le GPU.

Reconnaissance rapide - Java

// Créer une instance de l'API OCR
AsposeOCR api = new AsposeOCR();

// Reconnaître l'image dans le mode le plus rapide
String result = api.RecognizePageFast("sample.jpg");

Le traitement par lots

L'API OCR vous évite d'avoir à reconnaître chaque image une par une en proposant diverses méthodes de traitement par lots qui vous permettent de reconnaître plusieurs images en un seul appel :

  • Reconnaissance des fichiers PDF et TIFF de plusieurs pages.
  • Reconnaissance de tous les fichiers d'une archive.
  • Reconnaissance de tous les fichiers d'un dossier.
  

Support and Learning Resources

  
  

Aspose propose également des API OCR natives pour d'autres langages de programmation populaires :