Extraire des tableaux d’un PDF via Python

Extraire le tableau d’un document PDF. Utilisez Aspose.PDF pour Python for .NET pour modifier les fichiers PDF par programmation

Comment extraire des tableaux d'un document PDF à l'aide de la bibliothèque Python for .NET

Pour travailler avec des tableaux, utilisez Aspose.PDF pour Python via .NET, une API puissante et facile à utiliser. Ouvrez PyPI, recherchez « aspose-pdf » et installez-le. Vous pouvez également exécuter la commande suivante :

Console

pip install aspose-pdf

Extraire des tableaux d’un PDF via Python


Vous devez Aspose.PDF for .NET essayer le code dans votre environnement.

  1. Importer les bibliothèques nécessaires
  2. Charger le document PDF
  3. Initialiser le TableAbsorber et parcourir les pages
  4. Extraire le contenu du tableau
  5. Enregistrer les données extraites (facultatif)

Extraire les tableaux du PDF - Python

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)

# Load source PDF document
pdf_document = apdf.Document(path_infile)
for page in pdf_document.pages:
    absorber = apdf.text.TableAbsorber()
    absorber.visit(page)
    for table in absorber.table_list:
        for row in table.row_list:
            for cell in row.cell_list:
                text_fragment_collection = cell.text_fragments
                for fragment in text_fragment_collection:
                    txt = ""
                    for seg in fragment.segments:
                        txt += seg.text
                    print(txt)