Extraire des tableaux d’un PDF via Python

Extraire le tableau d’un document PDF. Utilisez Aspose.PDF pour Python for .NET pour modifier les fichiers PDF par programmation

Comment extraire des tableaux d'un document PDF à l'aide de la bibliothèque Python for .NET

Afin d’extraire le tableau, nous utiliserons l’API Aspose.PDF for .NET qui est une API de manipulation de documents riche en fonctionnalités, puissante et facile à utiliser pour la plate-forme python-net. Ouvrez le gestionnaire de packages NuGet, recherchez Aspose.pdf et installez. Vous pouvez également utiliser la commande suivante depuis la console du gestionnaire de packages.

Python Package Manager Console

pip install aspose-pdf

Extraire des tableaux d’un PDF via Python


Vous devez Aspose.PDF for .NET essayer le code dans votre environnement.

  1. Chargez le PDF avec une instance de Document.
  2. Créez un objet TableAbsorber pour rechercher des tables.
  3. Visitez la première page avec absorbeur.
  4. Obtenez le premier tableau de la page.
  5. Enlevez la table. Enregistrez le fichier.

Extraire les tableaux du PDF - Python

import aspose.pdf as ap

input_file = DIR_INPUT_TABLE + "Table_input.pdf"
# Load source PDF document
pdf_document = ap.Document(input_file)
for page in pdf_document.pages:
    absorber = ap.text.TableAbsorber()
    absorber.visit(page)
    for table in absorber.table_list:
        for row in table.row_list:
            for cell in row.cell_list:
                text_fragment_collection = cell.text_fragments
                for fragment in text_fragment_collection:
                    txt = ""
                    for seg in fragment.segments:
                        txt += seg.text
                    print(txt)