Untuk mencari file PDF, kita akan menggunakan Aspose.PDF for .NET API yang merupakan API manipulasi dokumen yang kaya fitur, kuat, dan mudah digunakan untuk platform python-net. Buka manajer paket nuget, cari Aspose.pdf dan instal. Anda juga dapat menggunakan perintah berikut dari Konsol Manajer Paket.
Cari File PDF melalui Python
Anda perlu Aspose.PDF for .NET untuk mencoba kode di lingkungan Anda.
- Muat PDF dengan instance Document.
- Buat TextFragmenTabSorber Object dengan teks untuk menemukan sebagai parameter.
- Dapatkan semua koleksi fragmen teks yang diekstraksi.
- Loop melalui setiap fragmen untuk mendapatkan semua informasinya.
Cari File PDF - Python
import aspose.pdf as ap
# Search Text from All the Pages of PDF Document
pdfDocument = ap.Document("c:\\samples\\sample.pdf")
# Create TextAbsorber object to find all instances of the input search phrase
textFragmentAbsorber = ap.text.TextFragmentAbsorber("PDF")
# Accept the absorber for all the pages
pdfDocument.pages.accept(textFragmentAbsorber)
# Loop through the fragments
for textFragment in textFragmentAbsorber.text_fragments:
print(f"Text : {textFragment.text}" )
print(f"Position : {textFragment.position}")
print(f"XIndent : {textFragment.position.x_indent}")
print(f"YIndent : {textFragment.position.y_indent}")
print(f"Font - Name : {textFragment.text_state.font.font_name}" )
print(f"Font - IsAccessible : {textFragment.text_state.font.is_accessible} " )
print(f"Font - IsEmbedded : {textFragment.text_state.font.is_embedded} " )
print(f"Font - IsSubset : {textFragment.text_state.font.is_subset} ")
print(f"Font Size : {textFragment.text_state.font_size}" )
print(f"Foreground Color : {textFragment.text_state.foreground_color} " )