PDF’yi Python üzerinden arayın

Gelişmiş PDF belge araması. PDF belgelerini programlı olarak değiştirmek için Python for .NET için Aspose.PDF öğesini kullanın

Python Kullanarak PDF Dosyası Nasıl Aranır

Bir PDF dosyasını aramak için, güçlü ve kullanımı kolay bir API olan Aspose.PDF for Python via .NET kullanacağız. PyPI‘yi açın, kurun ve aspose-pdf‘i arayın. Alternatif olarak, şu komutu çalıştırın:

Console

pip install aspose-pdf

Python aracılığıyla PDF Dosyasını Ara


Ortamınızdaki kodu denemek için Aspose.PDF for .NET gerekir.

  1. PDF’yi bir Belge örneğiyle yükleyin.
  2. Parametre olarak bulmak için metinle TextFragmenTabsorber Nesnesi oluşturun.
  3. Çıkarılan tüm metin parçaları koleksiyonunu alın.
  4. Tüm bilgilerini almak için her parçayı dolaşın.

PDF Dosyalarını Ara - Python

import aspose.pdf as apdf

from os import path
path_infile = path.join(self.data_dir, infile)

document = apdf.Document(path_infile)

# Create TextAbsorber object to find all instances of the input search phrase
textFragmentAbsorber = apdf.text.TextFragmentAbsorber("PDF")

# Accept the absorber for all the pages
document.pages.accept(textFragmentAbsorber)

# Loop through the fragments
for textFragment in textFragmentAbsorber.text_fragments:
    print(f"Text : {textFragment.text}" )
    print(f"Position : {textFragment.position}")
    print(f"XIndent : {textFragment.position.x_indent}")
    print(f"YIndent : {textFragment.position.y_indent}")
    print(f"Font - Name : {textFragment.text_state.font.font_name}" )
    print(f"Font - IsAccessible : {textFragment.text_state.font.is_accessible} " )
    print(f"Font - IsEmbedded : {textFragment.text_state.font.is_embedded} " )
    print(f"Font - IsSubset : {textFragment.text_state.font.is_subset} ")
    print(f"Font Size : {textFragment.text_state.font_size}" )
    print(f"Foreground Color : {textFragment.text_state.foreground_color} " )