HTML JPG OCR XML BMP
Aspose.OCR  pour C++
DOCX

Aspose.Imaging pour Java

traite les images numérisées ou même les photos de smartphone au format PDF et crée des documents PDF contenant du texte reconnu. Pour l’ajouter à votre projet, il vous suffit d’obtenir Aspose.OCR

Maven ou spécifiez la configuration du référentiel Aspose Maven et installez-le dans votre projet basé sur Maven en ajoutant les configurations suivantes au fichier pom.xml. Pour des exemples Graddle, Ivy, Sbt, consultez notre référentiel .

Package Manager Console Command


  PM> Install-Package Aspose.OCR.Cpp

Avec C++ OCR et seulement quelques lignes de code, vous pouvez créer une application complète qui convertit une image PDF en document DOCX :

  • Créer une instance de la classe AsposeOcr
  • Appelez la méthode AsposeOCR.asposeocr_page()
  • Passez le chemin du fichier PDF en paramètre
  • AsposeOCR.asposeocr_page renvoie une chaîne ou un fichier de type DOCX

Configuration requise

Avant d’exécuter l’exemple, assurez-vous que Microsoft.ML.OnnxRuntime 1.7.0 ou supérieur est ajouté au projet. Il devrait être installé automatiquement si vous installez Aspose.OCR via NuGet Package Manager.

  • Solution compatible NET Standard 2.0+
  • Aspose.OCR pour .NET référencé dans votre projet.


std::string img_path = "../srcSample.png";

// Prepare buffer for result (in symbols, len_byte = len * sizeof(wchar_t))
const size_t len = 4096;

wchar_t bfr[len] = { 0 };

size_t result = aspose::ocr::page(image_path.c_str(), bfr, len);

//Print result
std::wcout << bfr << L"\n";
  • PDF Qu'est-ce que PDF Format de fichier

    Portable Document Format (PDF) est un type de document créé par Adobe dans les années 1990. Le but de ce format de fichier était d'introduire une norme pour la représentation des documents et autres documents de référence dans un format indépendant du logiciel d'application, du matériel ainsi que du système d'exploitation. Le format de fichier PDF a la pleine capacité de contenir des informations telles que du texte, des images, des hyperliens, des champs de formulaire, des médias enrichis, des signatures numériques, des pièces jointes, des métadonnées, des fonctionnalités géospatiales et des objets 3D qui peuvent faire partie du document source.

    Lire la suite

    DOCX Qu'est-ce que DOCX Format de fichier

    DOCX est un format bien connu pour les documents Microsoft Word. Introduit à partir de 2007 avec la sortie de Microsoft Office 2007, la structure de ce nouveau format de document est passée de binaire brut à une combinaison de fichiers XML et binaires. Les fichiers Docx peuvent être ouverts avec Word 2007 et les versions latérales, mais pas avec les versions antérieures de MS Word qui prennent en charge les extensions de fichier DOC.

    Lire la suite