Extrahiere Tabellen aus dem PDF-Dokument über Python

Wie kann ich mithilfe der Python Bibliothek eine Tabelle aus PDF extrahieren

So extrahieren Sie mithilfe der Python for .NET Bibliothek Tabellen aus einem PDF-Dokument

Um die Tabelle zu extrahieren, verwenden wir die API Aspose.PDF for .NET, eine funktionsreiche, leistungsstarke und einfach zu verwendende API zur Dokumentenbearbeitung für die python-net Plattform. Öffnen Sie den NuGet -Paketmanager, suchen Sie nach Aspose.pdf und installieren Sie es. Sie können auch den folgenden Befehl von der Package Manager Console aus verwenden.

Python Package Manager Console

pip install aspose-pdf

Extrahiere Tabellen aus PDF via Python


Sie benötigen Aspose.PDF for .NET, um den Code in Ihrer Umgebung auszuprobieren.

  1. Laden Sie das PDF mit einer Instanz von Document.
  2. Erstellen Sie ein TableAbsorber-Objekt, um Tabellen zu finden.
  3. Besuchen Sie die erste Seite mit Absorber.
  4. Holen Sie sich die erste Tabelle auf der Seite.
  5. Entferne den Tisch. Speichern Sie die Datei.

Extrahiere Tabellen aus PDF - Python

    import aspose.pdf as ap

    input_file = DIR_INPUT_TABLE + "Table_input.pdf"
    # Load source PDF document
    pdf_document = ap.Document(input_file)
    for page in pdf_document.pages:
        absorber = ap.text.TableAbsorber()
        absorber.visit(page)
        for table in absorber.table_list:
            for row in table.row_list:
                for cell in row.cell_list:
                    text_fragment_collection = cell.text_fragments
                    for fragment in text_fragment_collection:
                        txt = ""
                        for seg in fragment.segments:
                            txt += seg.text
                        print(txt)