Extrahieren Sie Text aus PDF in Java

So extrahieren Sie Text aus einer PDF-Datei mit Java

C# Java C++ Python

So extrahieren Sie Text aus einem PDF mit Aspose.PDF für Java

Müssen Sie Text aus PDF extrahieren? Die programmatische Änderung von PDF-Dokumenten ist ein wesentlicher Bestandteil moderner digitaler Workflows. Mit Java-Bibliotheken wie Aspose.PDF können Entwickler Text aus PDF extrahieren. Bei diesen Bibliotheken handelt es sich um eigenständige Lösungen, die nicht auf andere Software angewiesen sind und für den kommerziellen Einsatz bereit sind. Sie decken alle möglichen Bedürfnisse professioneller Java-Entwickler ab.

Text aus PDF extrahieren
Extrahieren Sie Bilder aus PDF
Extrahieren Sie Schriften aus PDF
Daten aus dem Formular extrahieren
Text aus Briefmarken extrahieren
Daten aus einer Tabelle extrahieren

Um Text aus einer PDF-Datei zu extrahieren, verwenden wir die API Aspose.PDF for Java, eine funktionsreiche, leistungsstarke und benutzerfreundliche Konvertierungsschnittstelle für die Java-Plattform. Du kannst die neueste Version direkt von Maven herunterladen und sie in deinem Maven-basierten Projekt installieren, indem du die folgenden Konfigurationen zur pom.xml hinzufügst.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Extrahieren Sie Text aus PDF in Java

Sie benötigen Aspose.PDF for Java, um den Code in Ihrer Umgebung auszuprobieren.

Laden Sie das PDF mit einer Instanz von Document.
Erstellen Sie ein TextAbsorber-Objekt, um Text zu extrahieren.
Akzeptiere den Absorber für alle Seiten.
Holen Sie sich den extrahierten Text
Erstellen Sie einen Writer und öffnen Sie die Datei, schreiben Sie eine Textzeile in die Datei

Extrahieren Sie Text aus PDF mit Java

Dieser Beispielcode zeigt, wie Text aus PDF-Dokumenten extrahiert wird

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

// Open document
com.aspose.pdf.Document pdfDocument = new Document(DATA_DIR.resolve("sample.pdf").toString());
// Create TextAbsorber object to extract text
com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
// Accept the absorber for all the pages
pdfDocument.getPages().accept(textAbsorber);
// Get the extracted text
String extractedText = textAbsorber.getText();
try {
    java.io.FileWriter writer = new java.io.FileWriter(DATA_DIR.resolve("extracted-text.txt").toString(), true);
    // Write a line of text to the file
    writer.write(extractedText);
    // Close the stream
    writer.close();
} catch (java.io.IOException e) {
    System.out.println(e.getMessage());
}

Über Aspose.PDF for Java API

Aspose.PDF for Java API ist eine Bibliothek, mit der Entwickler ihren Anwendungen PDF-Verarbeitungsfunktionen hinzufügen können. Es kann verwendet werden, um jede Art von 32-Bit- und 64-Bit-Anwendungen zum Generieren oder Lesen, Konvertieren und Bearbeiten von PDF-Dateien ohne die Verwendung von Adobe Acrobat zu erstellen. Aspose.PDF for Java ermöglicht es Entwicklern, Tabellen, Grafiken, Bilder, Hyperlinks, benutzerdefinierte Schriftarten und mehr in PDF-Dokumente einzufügen. Darüber hinaus ist es auch möglich, PDFs zu komprimieren. Aspose.PDF for Java bietet hervorragende Sicherheitsfunktionen für die Entwicklung sicherer PDF-Dateien.

Weitere Informationen zu Aspose.PDF for die Java-API finden Sie unter Dokumentation und Beispiele zur Verwendung der API. Zu den wichtigen Funktionen der Aspose.PDF for Java API gehören die Unterstützung verschiedener Dateiformate, darunter HTML-, XFA-, TXT-, PCL-, XML-, XPS- und Bilddateiformate, Unterstützung für verschiedene PDF-Versionen und umfangreiche Hyperlink-Funktionen.