Wyodrębnij tekst z pliku PDF w Python

Jak wyodrębnić tekst z pliku PDF za pomocą Python

Jak wyodrębnić tekst z pliku PDF za pomocą Aspose.PDF dla Python for .NET

Czy potrzebujesz wyodrębnić tekst z pliku PDF? Programowa modyfikacja dokumentów PDF jest istotną częścią nowoczesnych cyfrowych przepływów pracy. Dzięki bibliotekom Pythona, takim jak Aspose.PDF, programiści mogą wyodrębnić tekst z pliku PDF. Biblioteki te są samodzielnymi rozwiązaniami, które nie opierają się na innym oprogramowaniu i są gotowe do użytku komercyjnego. Obejmują wszystkie możliwe potrzeby profesjonalnych programistów Pythona.

Wyodrębnij tekst z pliku PDF
Wyodrębnij obrazy z pliku PDF
Wyodrębnij czcionki z PDF
Wyodrębnij dane z formularza
Wyodrębnij tekst ze znaczków
Wyodrębnij dane z tabeli

Aby wyodrębnić tekst z pliku PDF, użyjemy interfejsu API Aspose.PDF for .NET, który jest bogatym w funkcje, wydajnym i łatwym w użyciu interfejsem API do manipulacji dokumentami dla platformy python-net. Otwórz menedżera pakietów NuGet, wyszukaj Aspose.PDF i zainstaluj. Możesz także użyć następującego polecenia z konsoli Menedżera pakietów.

Console

pip install aspose-pdf

Wyodrębnij tekst z pliku PDF w Python

Aby wypróbować kod w swoim środowisku, potrzebujesz Aspose.PDF for Python.

Załaduj plik PDF z instancją dokumentu.
Utwórz obiekt TextTabSorber, aby wyodrębnić tekst.
Zaakceptuj absorber dla wszystkich stron.
Pobierz wyodrębniony tekst
Utwórz pisarza i otwórz plik, napisz wiersz tekstu do pliku

Wyodrębnij tekst z pliku PDF za pomocą Python

Ten przykładowy kod pokazuje, jak wyodrębnić tekst z dokumentów PDF

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

import aspose.pdf as apdf
from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

document = apdf.Document(path_infile)
# Create TextAbsorber object to extract text
textAbsorber = apdf.text.TextAbsorber()
document.pages.accept(textAbsorber)
extractedText = textAbsorber.text

with open(path_outfile, 'w') as f:
    f.write(extractedText)

Informacje o Aspose.PDF for Python for .NET API

Aspose.PDF dla Pythona poprzez API .NET obsługuje większość ustalonych standardów PDF i specyfikacji PDF. Umożliwia programistom wstawianie tabel, wykresów, obrazów, hiperłączy, niestandardowych czcionek - i nie tylko - do dokumentów PDF. Ponadto możliwe jest również kompresowanie dokumentów PDF. Aspose.PDF dla Pythona poprzez .NET zapewnia doskonałe funkcje bezpieczeństwa do tworzenia bezpiecznych dokumentów PDF. Niektóre z krytycznych funkcji Aspose.PDF dla Pythona za pośrednictwem interfejsu API .NET obejmują:

Możliwość odczytu i eksportu plików PDF w wielu formatach obrazu, w tym BMP, GIF, JPEG i PNG.
Ustaw podstawowe informacje (np. autor, twórca) dokumentu PDF.
Funkcje konwersji: Konwertuj PDF na Word, Excel i PowerPoint. Konwertuj PDF na formaty graficzne. Konwertuj pliki PDF do formatu HTML i odwrotnie. Konwertuj PDF na EPUB, tekst, XPS itp.

Jeśli chodzi o korzystanie z interfejsu API, można znaleźć więcej informacji na temat Aspose.PDF dla Pythona za pośrednictwem interfejsu API .NET w naszej dokumentacji.