استخراج جداول از PDF از طریق Python

جدول را از سند PDF استخراج کنید. از Aspose.PDF برای Python for .NET برای اصلاح فایل های PDF به صورت برنامه نویسی استفاده کنید

نحوه استخراج جداول از سند PDF با استفاده از کتابخانه Python for .NET

به منظور استخراج جدول، ما از API Aspose.PDF for Python استفاده خواهیم کرد که یک API دستکاری اسناد غنی، قدرتمند و آسان برای استفاده برای پلتفرم python-net است. مدیر بسته NuGet را باز کنید، aspose.pdf را جستجو کرده و نصب کنید. شما همچنین می توانید از دستور زیر از کنسول مدیریت بسته استفاده کنید.

Python Package Manager Console

pip install aspose-pdf

قابلیت استخراج جداول از پی دی اف از طریق Python


شما نیاز به Aspose.PDF for Python دارید تا کد را در محیط خود امتحان کنید.

۱. PDF را با نمونه ای از سند بارگذاری کنید. ۱. ایجاد شیء TableAbsorber برای پیدا کردن جداول. ۱. بازدید از صفحه اول با جذب. ۱. اولین جدول را در صفحه دریافت کنید ۱. جدول را بردارید فایل را ذخیره کنید

قابلیت استخراج جداول از پی دی اف - Python

import aspose.pdf as ap

input_file = DIR_INPUT_TABLE + "Table_input.pdf"
# Load source PDF document
pdf_document = ap.Document(input_file)
for page in pdf_document.pages:
    absorber = ap.text.TableAbsorber()
    absorber.visit(page)
    for table in absorber.table_list:
        for row in table.row_list:
            for cell in row.cell_list:
                text_fragment_collection = cell.text_fragments
                for fragment in text_fragment_collection:
                    txt = ""
                    for seg in fragment.segments:
                        txt += seg.text
                    print(txt)