Wyodrębnij tekst z pliku PDF w Python

Jak wyodrębnić tekst z pliku PDF przy użyciu biblioteki Python for .NET

Jak wyodrębnić tekst z pliku PDF przy użyciu biblioteki Python for .NET

Czy potrzebujesz wyodrębnić tekst z pliku PDF? Programowa modyfikacja dokumentów PDF jest istotną częścią nowoczesnych cyfrowych przepływów pracy. Dzięki bibliotekom Pythona, takim jak Aspose.PDF, programiści mogą wyodrębnić tekst z pliku PDF. Biblioteki te są samodzielnymi rozwiązaniami, które nie opierają się na innym oprogramowaniu i są gotowe do użytku komercyjnego. Obejmują wszystkie możliwe potrzeby profesjonalnych programistów Pythona.

  • Wyodrębnij tekst z pliku PDF
  • Wyodrębnij obrazy z pliku PDF
  • Wyodrębnij czcionki z PDF
  • Wyodrębnij dane z formularza
  • Wyodrębnij tekst ze znaczków
  • Wyodrębnij dane z tabeli

Aby wyodrębnić tekst z pliku PDF, użyjemy interfejsu API Aspose.PDF for .NET, który jest bogatym w funkcje, wydajnym i łatwym w użyciu interfejsem API do manipulacji dokumentami dla platformy python-net. Otwórz menedżera pakietów NuGet, wyszukaj Aspose.pdf i zainstaluj. Możesz także użyć następującego polecenia z konsoli Menedżera pakietów.

Python Package Manager Console

pip install aspose-pdf

Wyodrębnij tekst z pliku PDF w Python


Aby wypróbować kod w swoim środowisku, potrzebujesz Aspose.PDF for Python.

  1. Załaduj plik PDF z instancją dokumentu.
  2. Utwórz obiekt TextTabSorber, aby wyodrębnić tekst.
  3. Zaakceptuj absorber dla wszystkich stron.
  4. Pobierz wyodrębniony tekst
  5. Utwórz pisarza i otwórz plik, napisz wiersz tekstu do pliku

Wyodrębnij tekst z PDF - Python

Ten przykładowy kod pokazuje, jak wyodrębnić tekst z dokumentów PDF

Input file:

File not added

Output format:

PDF

Output file:

    # Open document
    document = Document(dataDir + "ExtractTextAll.pdf")

    # Create TextAbsorber object to extract text
    textAbsorber = TextAbsorber()
    # Accept the absorber for all the pages
    document.Pages.Accept(textAbsorber)
    # Get the extracted text
    extractedText = textAbsorber.Text
    # Create a writer and open the file
    tw = new StreamWriter(dataDir + "extracted-text.txt")
    # Write a line of text to the file
    tw.WriteLine(extractedText)
    # Close the stream
    tw.Close()

Informacje o Aspose.PDF dla Python for .NET API

Aspose.PDF dla Pythona za pośrednictwem API .NET obsługuje większość ustalonych standardów PDF i specyfikacji PDF. Umożliwia programistom wstawianie tabel, wykresów, obrazów, hiperłączy, niestandardowych czcionek - i nie tylko - do dokumentów PDF. Ponadto możliwe jest również kompresowanie dokumentów PDF. Aspose.PDF dla Pythona za pośrednictwem .NET zapewnia doskonałe funkcje bezpieczeństwa do tworzenia bezpiecznych dokumentów PDF. Niektóre z kluczowych funkcji Aspose.PDF dla Pythona za pośrednictwem API .NET obejmują:

  • Możliwość odczytu i eksportowania plików PDF w wielu formatach obrazów, w tym BMP, GIF, JPEG i PNG.
  • Ustaw podstawowe informacje (np. autor, twórca) dokumentu PDF.
  • Funkcje konwersji: Konwertuj PDF na Word, Excel i PowerPoint. Konwertuj PDF na formaty obrazów. Konwertuj plik PDF na format HTML i odwrotnie. Konwertuj PDF na EPUB, tekst, XPS itp.

Więcej informacji na temat Aspose.PDF dla Pythona można znaleźć za pośrednictwem API .NET w naszym dokumentacja na temat korzystania z API.