แยกตารางจาก PDF ผ่าน Python

แยกตารางจากเอกสาร PDFใช้ Aspose.PDF สำหรับ Python for .NET เพื่อแก้ไขไฟล์ PDF แบบโปรแกรม

วิธีการแยกตารางจากเอกสาร PDF โดยใช้ Python for .NET ห้องสมุด

หากต้องการแยกตาราง ให้ใช้ Aspose.PDF for Python via .NET ซึ่งเป็น API ที่มีประสิทธิภาพและใช้งานง่าย เปิด PyPI ค้นหา aspose-pdf แล้วติดตั้ง หรือเรียกใช้คำสั่งต่อไปนี้:

Console

pip install aspose-pdf

แยกตารางจาก PDF ผ่าน Python


คุณจำเป็นต้อง Aspose.PDF for Python ที่จะลองรหัสในสภาพแวดล้อมของคุณ

1.นำเข้าห้องสมุดที่จำเป็น 1.โหลดเอกสาร PDF 1.เริ่ม “TableAbsorber” และทำซ้ำบนหน้า 1.แยกเนื้อหาตาราง 1.บันทึกข้อมูลที่แยกออกมา (ไม่จำเป็น)

แยกตารางจาก PDF - Python

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)

# Load source PDF document
pdf_document = apdf.Document(path_infile)
for page in pdf_document.pages:
    absorber = apdf.text.TableAbsorber()
    absorber.visit(page)
    for table in absorber.table_list:
        for row in table.row_list:
            for cell in row.cell_list:
                text_fragment_collection = cell.text_fragments
                for fragment in text_fragment_collection:
                    txt = ""
                    for seg in fragment.segments:
                        txt += seg.text
                    print(txt)