Wyszukaj plik PDF przez Python

Zaawansowane wyszukiwanie dokumentów PDF. Użyj pliku Aspose.PDF dla Python for .NET, aby programowo modyfikować dokumenty PDF

Jak przeszukiwać plik PDF za pomocą Python

Aby przeszukać plik PDF, użyjemy Aspose.PDF dla Pythona przez .NET, potężnego i łatwego w użyciu API. Otwórz PyPI, zainstaluj go i wyszukaj aspose-pdf. Alternatywnie uruchom polecenie:

Console

pip install aspose-pdf

Przeszukaj plik PDF przez Python


Potrzebujesz Aspose.PDF for .NET, aby wypróbować kod w swoim środowisku.

  1. Załaduj plik PDF z wystąpieniem dokumentu.
  2. Tworzenie obiektu TextFragmentAbsorber z tekstem, aby znaleźć jako parametr.
  3. Pobierz całą kolekcję wyodrębnionych fragmentów tekstu.
  4. Pętla przez każdy fragment, aby uzyskać wszystkie jego informacje.

Wyszukaj pliki PDF - Python

import aspose.pdf as apdf

from os import path
path_infile = path.join(self.data_dir, infile)

document = apdf.Document(path_infile)

# Create TextAbsorber object to find all instances of the input search phrase
textFragmentAbsorber = apdf.text.TextFragmentAbsorber("PDF")

# Accept the absorber for all the pages
document.pages.accept(textFragmentAbsorber)

# Loop through the fragments
for textFragment in textFragmentAbsorber.text_fragments:
    print(f"Text : {textFragment.text}" )
    print(f"Position : {textFragment.position}")
    print(f"XIndent : {textFragment.position.x_indent}")
    print(f"YIndent : {textFragment.position.y_indent}")
    print(f"Font - Name : {textFragment.text_state.font.font_name}" )
    print(f"Font - IsAccessible : {textFragment.text_state.font.is_accessible} " )
    print(f"Font - IsEmbedded : {textFragment.text_state.font.is_embedded} " )
    print(f"Font - IsSubset : {textFragment.text_state.font.is_subset} ")
    print(f"Font Size : {textFragment.text_state.font_size}" )
    print(f"Foreground Color : {textFragment.text_state.foreground_color} " )