Extraire le PDF via Java

Comment extraire du texte et des images d’un PDF à l’aide de la bibliothèque Java

C# Java C++ Python

Action la plus populaire avec Parser

Extraire du texte

Extraire des images

Extraire les polices

Comment analyser un PDF avec la bibliothèque Java

Avez-vous besoin d’extraire un PDF ? La modification programmatique des documents PDF est un élément essentiel des flux de travail numériques modernes. Avec les bibliothèques Java telles que Aspose.PDF, les développeurs peuvent extraire du texte d’un PDF ou extraire des images d’un PDF. Ces bibliothèques sont des solutions autonomes qui ne s’appuient sur aucun autre logiciel et sont prêtes à être utilisées à des fins commerciales. Ils couvrent tous les besoins possibles des développeurs Java professionnels.

Extraire des données PDF : textes, images, formulaires, champs, etc.
Extraire le texte d’un PDF
Extraire des images d’un PDF
Extraire les polices d’un PDF
Extraire les données du formulaire
Extraire le texte des timbres
Extraire les données du tableau

Pour extraire le fichier PDF, nous utiliserons l’API Aspose.PDF for Java qui est une API de conversion riche en fonctionnalités, puissante et facile à utiliser pour la plate-forme Java. Vous pouvez télécharger sa dernière version directement depuis Maven et l’installer dans votre projet basé sur Maven en ajoutant les configurations suivantes au pom.xml.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Analyser le PDF via Java

Vous avez besoin de Aspose.PDF for Java pour essayer le code dans votre environnement.

Chargez le PDF avec une instance de Document.
Créez un objet TextAbsorber pour extraire du texte.
Acceptez l’absorbeur pour toutes les pages.
Obtenir le texte extrait
Créez un rédacteur et ouvrez le fichier, écrivez une ligne de texte dans le fichier

Extraire des fichiers PDF - Java

Cet exemple de code montre comment extraire des documents PDF

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

document
com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document("sample.pdf");

e TextAbsorber object to extract text
com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();

t the absorber for all the pages
pdfDocument.getPages().accept(textAbsorber);

he extracted text
String extractedText = textAbsorber.getText();
try {
    java.io.FileWriter writer = new java.io.FileWriter("extracted-text.txt", true);
    // Write a line of text to the file
    writer.write(extractedText);
    // Close the stream
    writer.close();
} catch (java.io.IOException e) {
    System.out.println(e.getMessage());
}

À propos de Aspose.PDF pour l'API Aspose.PDF for Java

L’API Aspose.PDF pour Java est une bibliothèque qui permet aux développeurs d’ajouter des fonctionnalités de traitement PDF à leurs applications. Il peut être utilisé pour créer tout type d’applications 32 bits et 64 bits pour générer ou lire, convertir et manipuler des fichiers PDF sans utiliser Adobe Acrobat. Aspose.PDF pour Java permet aux développeurs d’insérer des tableaux, des graphiques, des images, des hyperliens, des polices personnalisées, etc., dans des documents PDF. De plus, il est également possible de compresser des PDF. Aspose.PDF pour Java fournit d’excellentes fonctionnalités de sécurité pour développer des fichiers PDF sécurisés.

Vous trouverez plus d’informations sur Aspose.PDF pour l’API Java sur documentation et sur examples sur l’utilisation de l’API. Parmi les fonctionnalités essentielles de l’API Aspose.PDF pour Java, citons la prise en charge de divers formats de fichiers, notamment les formats de fichiers HTML, XFA, TXT, PCL, XML, XPS et image, la prise en charge de différentes versions PDF et une fonctionnalité étendue de liens hypertexte.