Busca en PDF a través de Python

Búsqueda avanzada de documentos PDF. Utilice Aspose.PDF for Python for .NET para modificar documentos PDF mediante programación

Cómo buscar un archivo PDF con Python

Para buscar un archivo PDF, usaremos Aspose.PDF for Python via .NET, una API potente y fácil de usar. Abra PyPI, instálelo y busque aspose-pdf. También puede ejecutar el comando:

Console

pip install aspose-pdf

Buscar archivo PDF a través de Python


Necesita Aspose.PDF for .NET para probar el código en su entorno.

  1. Cargue el PDF con una instancia de Document.
  2. Cree el objeto TextFragmentAbsorber con texto para encontrarlo como parámetro.
  3. Obtenga toda la colección de fragmentos de texto extraídos.
  4. Recorre cada fragmento para obtener toda su información.

Buscar archivos PDF: Python

import aspose.pdf as apdf

from os import path
path_infile = path.join(self.data_dir, infile)

document = apdf.Document(path_infile)

# Create TextAbsorber object to find all instances of the input search phrase
textFragmentAbsorber = apdf.text.TextFragmentAbsorber("PDF")

# Accept the absorber for all the pages
document.pages.accept(textFragmentAbsorber)

# Loop through the fragments
for textFragment in textFragmentAbsorber.text_fragments:
    print(f"Text : {textFragment.text}" )
    print(f"Position : {textFragment.position}")
    print(f"XIndent : {textFragment.position.x_indent}")
    print(f"YIndent : {textFragment.position.y_indent}")
    print(f"Font - Name : {textFragment.text_state.font.font_name}" )
    print(f"Font - IsAccessible : {textFragment.text_state.font.is_accessible} " )
    print(f"Font - IsEmbedded : {textFragment.text_state.font.is_embedded} " )
    print(f"Font - IsSubset : {textFragment.text_state.font.is_subset} ")
    print(f"Font Size : {textFragment.text_state.font_size}" )
    print(f"Foreground Color : {textFragment.text_state.foreground_color} " )