Extraire du texte d’un PDF en C++

Comment extraire du texte d’un PDF à l’aide de la bibliothèque C++

Comment extraire du texte d'un PDF à l'aide de la bibliothèque C++

Avez-vous besoin d’extraire du texte d’un PDF ? La modification programmatique des documents PDF est un élément essentiel des flux de travail numériques modernes. Avec les bibliothèques C++ telles que Aspose.PDF, les développeurs peuvent extraire du texte d’un PDF. Ces bibliothèques sont des solutions autonomes qui ne s’appuient sur aucun autre logiciel et sont prêtes à être utilisées à des fins commerciales. Ils couvrent tous les besoins possibles des développeurs C++ professionnels.

  • Extraire le texte d’un PDF
  • Extraire des images d’un PDF
  • Extraire les polices d’un PDF
  • Extraire les données du formulaire
  • Extraire le texte des timbres
  • Extraire les données du tableau

Afin d’extraire du texte d’un fichier PDF, nous utiliserons l’API Aspose.PDF pour C++ qui est une API de manipulation de documents riche en fonctionnalités, puissante et facile à utiliser pour la plateforme cpp. Ouvrez le gestionnaire de packages NuGet, recherchez Aspose.pdf et installez-le. Vous pouvez également utiliser la commande suivante depuis la console du gestionnaire de packages.

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

Extraire du texte d’un PDF en C++


Vous avez besoin de Aspose.PDF pour C++ pour essayer le code dans votre environnement.

  1. Chargez le PDF avec une instance de Document.
  2. Créez un objet TextAbsorber pour extraire du texte.
  3. Acceptez l’absorbeur pour toutes les pages.
  4. Obtenir le texte extrait
  5. Créez un rédacteur et ouvrez le fichier, écrivez une ligne de texte dans le fichier

Extraire le texte d'un PDF - C++

Cet exemple de code montre comment extraire du texte à partir de documents PDF

Input file:

File not added

Output format:

PDF

Output file:


    void ExtractTextFromAllThePages() {

    std::clog << __func__ << ": Start" << std::endl;
    // String for path name
    String _dataDir("C:\\Samples\\Parsing\\");

    // String for file name
    String infilename("sample-4pages.pdf");
    String outfilename("extracted-text.txt");

    // Open document
    auto document = MakeObject<Document>(_dataDir + infilename);

    // Create TextAbsorber object to extract text
    auto textAbsorber = MakeObject<TextAbsorber>();
    // Accept the absorber for all the pages
    document->get_Pages()->Accept(textAbsorber);
    // Get the extracted text
    auto extractedText = textAbsorber->get_Text();

    System::IO::File::WriteAllText(_dataDir + outfilename, extractedText);
    std::clog << __func__ << ": Finish" << std::endl;
}

À propos de Aspose.PDF pour l'API C++

Aspose.PDF pour C++ est une puissante bibliothèque de traitement qui permet aux développeurs de créer, de lire et de manipuler des documents PDF sans utiliser Adobe Acrobat. Il fournit un large éventail de fonctionnalités, telles que la création de formulaires, l’ajout/la modification de texte, la manipulation de pages PDF, l’ajout d’annotations, la gestion de polices personnalisées et bien plus encore.

Aspose.PDF pour C++ est une bibliothèque qui permet aux développeurs d’ajouter des fonctionnalités de traitement PDF à leurs applications. L’API peut être utilisée pour créer des applications 32 bits et 64 bits afin de générer, lire, convertir et manipuler des fichiers PDF sans utiliser Adobe Acrobat.

Dans la référence de l’API, vous trouverez des explications détaillées et des exemples pour chaque classe et méthode dans Aspose.PDF pour la bibliothèque C++. Il recommande également de consulter une Documentation.