Extrahieren Sie Tabellen aus PDF über Python

Extrahieren Sie die Tabelle aus dem PDF-Dokument. Verwenden Sie Aspose.PDF für Python for .NET, um PDF-Dateien programmgesteuert zu ändern

So extrahieren Sie mithilfe der Python for .NET Bibliothek Tabellen aus einem PDF-Dokument

Um die Tabelle zu extrahieren, verwenden wir die API Aspose.PDF for .NET, eine funktionsreiche, leistungsstarke und einfach zu verwendende API zur Dokumentenbearbeitung für die python-net Plattform. Öffnen Sie den NuGet -Paketmanager, suchen Sie nach Aspose.pdf und installieren Sie es. Sie können auch den folgenden Befehl von der Package Manager Console aus verwenden.

Python Package Manager Console

pip install aspose-pdf

Extrahiere Tabellen aus PDF via Python


Sie benötigen Aspose.PDF for .NET, um den Code in Ihrer Umgebung auszuprobieren.

  1. Laden Sie das PDF mit einer Instanz von Document.
  2. Erstellen Sie ein TableAbsorber-Objekt, um Tabellen zu finden.
  3. Besuchen Sie die erste Seite mit Absorber.
  4. Holen Sie sich die erste Tabelle auf der Seite.
  5. Entferne den Tisch. Speichern Sie die Datei.

Extrahiere Tabellen aus PDF - Python

import aspose.pdf as ap

input_file = DIR_INPUT_TABLE + "Table_input.pdf"
# Load source PDF document
pdf_document = ap.Document(input_file)
for page in pdf_document.pages:
    absorber = ap.text.TableAbsorber()
    absorber.visit(page)
    for table in absorber.table_list:
        for row in table.row_list:
            for cell in row.cell_list:
                text_fragment_collection = cell.text_fragments
                for fragment in text_fragment_collection:
                    txt = ""
                    for seg in fragment.segments:
                        txt += seg.text
                    print(txt)