Extraire du texte d’un PDF en Java

Comment extraire du texte d’un PDF à l’aide de la bibliothèque Java

Comment extraire du texte d'un PDF à l'aide de la bibliothèque Java

Avez-vous besoin d’extraire du texte d’un PDF ? La modification programmatique des documents PDF est un élément essentiel des flux de travail numériques modernes. Avec les bibliothèques Java telles que Aspose.PDF, les développeurs peuvent extraire du texte d’un PDF. Ces bibliothèques sont des solutions autonomes qui ne s’appuient sur aucun autre logiciel et sont prêtes à être utilisées à des fins commerciales. Ils couvrent tous les besoins possibles des développeurs Java professionnels.

  • Extraire le texte d’un PDF
  • Extraire des images d’un PDF
  • Extraire les polices d’un PDF
  • Extraire les données du formulaire
  • Extraire le texte des timbres
  • Extraire les données du tableau

Afin d’extraire du texte d’un fichier PDF, nous utiliserons l’API Aspose.PDF pour Java qui est une API de conversion riche en fonctionnalités, puissante et facile à utiliser pour la plate-forme Java. Vous pouvez télécharger sa dernière version directement depuis Maven et l’installer dans votre projet basé sur Maven en ajoutant les configurations suivantes au pom.xml.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Extraire du texte d’un PDF en Java


Vous avez besoin de Aspose.PDF pour Java pour essayer le code dans votre environnement.

  1. Chargez le PDF avec une instance de Document.
  2. Créez un objet TextAbsorber pour extraire du texte.
  3. Acceptez l’absorbeur pour toutes les pages.
  4. Obtenir le texte extrait
  5. Créez un rédacteur et ouvrez le fichier, écrivez une ligne de texte dans le fichier

Extraire le texte d'un PDF - Java

Cet exemple de code montre comment extraire du texte à partir de documents PDF

Input file:

File not added

Output format:

PDF

Output file:

    // Open document
    com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document(filePath);

    // Create TextAbsorber object to extract text
    com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
    
    // Accept the absorber for all the pages
    pdfDocument.getPages().accept(textAbsorber);
    
    // Get the extracted text
    String extractedText = textAbsorber.getText();                
    try {
        java.io.FileWriter writer = new java.io.FileWriter(_dataDir + "extracted-text.txt", true);
        // Write a line of text to the file
        writer.write(extractedText);            
        // Close the stream
        writer.close();
    } catch (java.io.IOException e) {
        e.printStackTrace();
    }

À propos de Aspose.PDF pour l'API Java

L’API Aspose.PDF pour Java est une bibliothèque qui permet aux développeurs d’ajouter des fonctionnalités de traitement PDF à leurs applications. Il peut être utilisé pour créer tout type d’applications 32 bits et 64 bits pour générer ou lire, convertir et manipuler des fichiers PDF sans utiliser Adobe Acrobat. Aspose.PDF pour Java permet aux développeurs d’insérer des tableaux, des graphiques, des images, des hyperliens, des polices personnalisées, etc., dans des documents PDF. De plus, il est également possible de compresser des PDF. Aspose.PDF pour Java fournit d’excellentes fonctionnalités de sécurité pour développer des fichiers PDF sécurisés.

Vous trouverez plus d’informations sur Aspose.PDF pour l’API Java sur documentation et sur examples sur l’utilisation de l’API. Parmi les fonctionnalités essentielles de l’API Aspose.PDF pour Java, citons la prise en charge de divers formats de fichiers, notamment les formats de fichiers HTML, XFA, TXT, PCL, XML, XPS et image, la prise en charge de différentes versions PDF et une fonctionnalité étendue de liens hypertexte.