استخراج جداول از PDF از طریق Python

جدول را از سند PDF استخراج کنید. از Aspose.PDF برای Python for .NET برای اصلاح فایل های PDF به صورت برنامه نویسی استفاده کنید

نحوه استخراج جداول از سند PDF با استفاده از کتابخانه Python for .NET

به منظور استخراج جدول، از طریق Aspose.PDF برای پایتون استفاده کنید.NET, یک API قدرتمند و آسان برای استفاده. باز کردن PyPI, جستجو برای & ampdf را, و نصب آن. از طرف دیگر، دستور را اجرا کنید:

Console

pip install aspose-pdf

قابلیت استخراج جداول از پی دی اف از طریق Python


شما نیاز به Aspose.PDF for Python دارید تا کد را در محیط خود امتحان کنید.

۱. وارد کردن کتابخانه های لازم ۱. سند PDF را بارگذاری کنید ۱. TableAbsorber را اولیه کنید و روی صفحات تکرار کنید ۱. استخراج محتوای جدول ۱. ذخیره داده های استخراج شده (اختیاری)

قابلیت استخراج جداول از پی دی اف - Python

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)

# Load source PDF document
pdf_document = apdf.Document(path_infile)
for page in pdf_document.pages:
    absorber = apdf.text.TableAbsorber()
    absorber.visit(page)
    for table in absorber.table_list:
        for row in table.row_list:
            for cell in row.cell_list:
                text_fragment_collection = cell.text_fragments
                for fragment in text_fragment_collection:
                    txt = ""
                    for seg in fragment.segments:
                        txt += seg.text
                    print(txt)