Wyodrębnij tekst z pliku PDF w Java

Jak wyodrębnić tekst z pliku PDF za pomocą Java

C# Java C++ Python

Jak wyodrębnić tekst z pliku PDF za pomocą Aspose.PDF dla Java

Czy potrzebujesz wyodrębnić tekst z pliku PDF? Programowa modyfikacja dokumentów PDF jest istotną częścią nowoczesnych cyfrowych przepływów pracy. Dzięki bibliotekom Java, takim jak Aspose.PDF, programiści mogą wyodrębnić tekst z pliku PDF. Biblioteki te są samodzielnymi rozwiązaniami, które nie opierają się na innym oprogramowaniu i są gotowe do użytku komercyjnego. Obejmują wszystkie możliwe potrzeby profesjonalnych programistów Java.

Wyodrębnij tekst z pliku PDF
Wyodrębnij obrazy z pliku PDF
Wyodrębnij czcionki z PDF
Wyodrębnij dane z formularza
Wyodrębnij tekst ze znaczków
Wyodrębnij dane z tabeli

Aby wyodrębnić tekst z pliku PDF, użyjemy interfejsu API Aspose.PDF for Java, który jest bogatym w funkcje, wydajnym i łatwym w użyciu interfejsem API konwersji dla platformy Java. Możesz pobrać jego najnowszą wersję bezpośrednio z Maven i zainstalować ją w swoim projekcie opartym na Maven, dodając następujące konfiguracje do plikupom.xml.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Wyodrębnij tekst z pliku PDF w Java

Aby wypróbować kod w swoim środowisku, potrzebujesz Aspose.PDF for Java.

Załaduj plik PDF z instancją dokumentu.
Utwórz obiekt TextTabSorber, aby wyodrębnić tekst.
Zaakceptuj absorber dla wszystkich stron.
Pobierz wyodrębniony tekst
Utwórz pisarza i otwórz plik, napisz wiersz tekstu do pliku

Wyodrębnij tekst z pliku PDF za pomocą Java

Ten przykładowy kod pokazuje, jak wyodrębnić tekst z dokumentów PDF

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

// Open document
com.aspose.pdf.Document pdfDocument = new Document(DATA_DIR.resolve("sample.pdf").toString());
// Create TextAbsorber object to extract text
com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
// Accept the absorber for all the pages
pdfDocument.getPages().accept(textAbsorber);
// Get the extracted text
String extractedText = textAbsorber.getText();
try {
    java.io.FileWriter writer = new java.io.FileWriter(DATA_DIR.resolve("extracted-text.txt").toString(), true);
    // Write a line of text to the file
    writer.write(extractedText);
    // Close the stream
    writer.close();
} catch (java.io.IOException e) {
    System.out.println(e.getMessage());
}

Informacje o Aspose.PDF for Java API

Aspose.PDF dla Java API to biblioteka, która umożliwia programistom dodawanie możliwości przetwarzania plików PDF do swoich aplikacji. Może być używany do tworzenia dowolnego typu aplikacji 32-bitowych i 64-bitowych do generowania lub odczytu, konwersji i manipulowania plikami PDF bez użycia programu Adobe Acrobat. Aspose.PDF dla Java umożliwia programistom wstawianie tabel, wykresów, obrazów, hiperłączy, niestandardowych czcionek - i innych - do dokumentów PDF. Ponadto możliwe jest również kompresowanie plików PDF. Aspose.PDF dla Java zapewnia doskonałe funkcje bezpieczeństwa do tworzenia bezpiecznych plików PDF.

Więcej informacji na temat Aspose.PDF dla Java API można znaleźć na stronie dokumentacja i przykłady na temat korzystania z API. Niektóre z krytycznych funkcji Aspose.PDF dla Java API obejmują obsługę różnych formatów plików, w tym HTML, XFA, TXT, PCL, XML, XPS i formatów plików graficznych, obsługę różnych wersji PDF i rozbudowaną funkcjonalność hiperłączy.