Extraire du texte d’un PDF en Java

Comment extraire du texte d’un PDF à l’aide de Java

C# Java C++ Python

Comment extraire du texte d'un PDF à l'aide de Aspose.PDF pour Java

Avez-vous besoin d’extraire du texte d’un PDF ? La modification programmatique des documents PDF est un élément essentiel des flux de travail numériques modernes. Avec les bibliothèques Java telles que Aspose.PDF, les développeurs peuvent extraire du texte d’un PDF. Ces bibliothèques sont des solutions autonomes qui ne s’appuient sur aucun autre logiciel et sont prêtes à être utilisées à des fins commerciales. Ils couvrent tous les besoins possibles des développeurs Java professionnels.

Extraire le texte d’un PDF
Extraire des images d’un PDF
Extraire les polices d’un PDF
Extraire les données du formulaire
Extraire le texte des timbres
Extraire les données du tableau

Afin d’extraire du texte d’un fichier PDF, nous utiliserons l’API Aspose.PDF pour Java qui est une API de conversion riche en fonctionnalités, puissante et facile à utiliser pour la plate-forme Java. Vous pouvez télécharger sa dernière version directement depuis Maven et l’installer dans votre projet basé sur Maven en ajoutant les configurations suivantes au pom.xml.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Extraire du texte d’un PDF en Java

Vous avez besoin de Aspose.PDF pour Java pour essayer le code dans votre environnement.

Chargez le PDF avec une instance de Document.
Créez un objet TextAbsorber pour extraire du texte.
Acceptez l’absorbeur pour toutes les pages.
Obtenir le texte extrait
Créez un rédacteur et ouvrez le fichier, écrivez une ligne de texte dans le fichier

Extraire du texte d'un PDF avec Java

Cet exemple de code montre comment extraire du texte à partir de documents PDF

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

// Open document
com.aspose.pdf.Document pdfDocument = new Document(DATA_DIR.resolve("sample.pdf").toString());
// Create TextAbsorber object to extract text
com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
// Accept the absorber for all the pages
pdfDocument.getPages().accept(textAbsorber);
// Get the extracted text
String extractedText = textAbsorber.getText();
try {
    java.io.FileWriter writer = new java.io.FileWriter(DATA_DIR.resolve("extracted-text.txt").toString(), true);
    // Write a line of text to the file
    writer.write(extractedText);
    // Close the stream
    writer.close();
} catch (java.io.IOException e) {
    System.out.println(e.getMessage());
}

À propos de Aspose.PDF pour l'API Aspose.PDF for Java

L’API Aspose.PDF pour Java est une bibliothèque qui permet aux développeurs d’ajouter des fonctionnalités de traitement PDF à leurs applications. Il peut être utilisé pour créer tout type d’applications 32 bits et 64 bits pour générer ou lire, convertir et manipuler des fichiers PDF sans utiliser Adobe Acrobat. Aspose.PDF pour Java permet aux développeurs d’insérer des tableaux, des graphiques, des images, des hyperliens, des polices personnalisées, etc., dans des documents PDF. De plus, il est également possible de compresser des PDF. Aspose.PDF pour Java fournit d’excellentes fonctionnalités de sécurité pour développer des fichiers PDF sécurisés.

Vous trouverez plus d’informations sur Aspose.PDF pour l’API Java sur documentation et sur examples sur l’utilisation de l’API. Parmi les fonctionnalités essentielles de l’API Aspose.PDF pour Java, citons la prise en charge de divers formats de fichiers, notamment les formats de fichiers HTML, XFA, TXT, PCL, XML, XPS et image, la prise en charge de différentes versions PDF et une fonctionnalité étendue de liens hypertexte.