Wyodrębnij tekst z pliku PDF w Java

Jak wyodrębnić tekst z pliku PDF za pomocą Java

Jak wyodrębnić tekst z pliku PDF za pomocą narzędzia Java

Czy potrzebujesz wyodrębnić tekst z pliku PDF? Programowa modyfikacja dokumentów PDF jest istotną częścią nowoczesnych cyfrowych przepływów pracy. Dzięki bibliotekom Java, takim jak Aspose.PDF, programiści mogą wyodrębnić tekst z pliku PDF. Biblioteki te są samodzielnymi rozwiązaniami, które nie opierają się na innym oprogramowaniu i są gotowe do użytku komercyjnego. Obejmują wszystkie możliwe potrzeby profesjonalnych programistów Java.

  • Wyodrębnij tekst z pliku PDF
  • Wyodrębnij obrazy z pliku PDF
  • Wyodrębnij czcionki z PDF
  • Wyodrębnij dane z formularza
  • Wyodrębnij tekst ze znaczków
  • Wyodrębnij dane z tabeli

Aby wyodrębnić tekst z pliku PDF, użyjemy interfejsu API Aspose.PDF for Java, który jest bogatym w funkcje, wydajnym i łatwym w użyciu interfejsem API konwersji dla platformy Java. Możesz pobrać jego najnowszą wersję bezpośrednio z Maven i zainstalować ją w swoim projekcie opartym na Maven, dodając następujące konfiguracje do plikupom.xml.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Wyodrębnij tekst z pliku PDF w Java


Aby wypróbować kod w swoim środowisku, potrzebujesz Aspose.PDF for Java.

  1. Załaduj plik PDF z instancją dokumentu.
  2. Utwórz obiekt TextTabSorber, aby wyodrębnić tekst.
  3. Zaakceptuj absorber dla wszystkich stron.
  4. Pobierz wyodrębniony tekst
  5. Utwórz pisarza i otwórz plik, napisz wiersz tekstu do pliku

Wyodrębnij tekst z PDF - Java

Ten przykładowy kod pokazuje, jak wyodrębnić tekst z dokumentów PDF

Input file:

File not added

Output format:

PDF

Output file:

    // Open document
    com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document(filePath);

    // Create TextAbsorber object to extract text
    com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
    
    // Accept the absorber for all the pages
    pdfDocument.getPages().accept(textAbsorber);
    
    // Get the extracted text
    String extractedText = textAbsorber.getText();                
    try {
        java.io.FileWriter writer = new java.io.FileWriter(_dataDir + "extracted-text.txt", true);
        // Write a line of text to the file
        writer.write(extractedText);            
        // Close the stream
        writer.close();
    } catch (java.io.IOException e) {
        e.printStackTrace();
    }

Informacje o Aspose.PDF dla Java API

Aspose.PDF dla Java API to biblioteka, która umożliwia programistom dodawanie możliwości przetwarzania plików PDF do swoich aplikacji. Może być używany do tworzenia dowolnego typu aplikacji 32-bitowych i 64-bitowych do generowania lub odczytu, konwersji i manipulowania plikami PDF bez użycia programu Adobe Acrobat. Aspose.PDF dla Java umożliwia programistom wstawianie tabel, wykresów, obrazów, hiperłączy, niestandardowych czcionek - i innych - do dokumentów PDF. Ponadto możliwe jest również kompresowanie plików PDF. Aspose.PDF dla Java zapewnia doskonałe funkcje bezpieczeństwa do tworzenia bezpiecznych plików PDF.

Więcej informacji na temat Aspose.PDF dla Java API można znaleźć na stronie dokumentacja i przykłady na temat korzystania z API. Niektóre z krytycznych funkcji Aspose.PDF dla Java API obejmują obsługę różnych formatów plików, w tym HTML, XFA, TXT, PCL, XML, XPS i formatów plików graficznych, obsługę różnych wersji PDF i rozbudowaną funkcjonalność hiperłączy.