استخراج PDF در Python

نحوه استخراج متن و تصاویر از PDF با استفاده از کتابخانه Python for .NET

محبوب ترین اقدام با پارسر

نحوه استخراج PDF با کتابخانه Python for .NET

آیا شما نیاز به استخراج PDF دارید؟ اصلاح برنامه ای اسناد PDF بخش مهمی از گردش کار دیجیتال مدرن است. با کتابخانه های Python مانند Aspose.PDF، توسعه دهندگان می توانند متن را از PDF استخراج کنند یا تصاویر را از PDF استخراج کنند. این کتابخانه ها راه حل های مستقلی هستند که به نرم افزارهای دیگر متکی نیستند و برای استفاده تجاری آماده هستند. آنها تمام نیازهای احتمالی توسعه دهندگان حرفه ای پایتون را پوشش می دهند.

  • استخراج داده های PDF: متون، تصاویر، فرم ها، زمینه ها و غیره
  • استخراج متن از PDF
  • استخراج تصاویر از PDF
  • استخراج فونت از PDF
  • استخراج داده ها از فرم
  • استخراج متن از تمبرها
  • استخراج داده ها از جدول

به منظور استخراج فایل PDF، ما از Aspose.PDF for .NET API استفاده خواهیم کرد که یک API دستکاری سند غنی، قدرتمند و آسان برای استفاده برای پلت فرم python-net است. مدیر بسته NuGet را باز کنید، Aspose.pdf را جستجو کرده و نصب کنید. شما همچنین می توانید از دستور زیر از کنسول مدیریت بسته استفاده کنید.

Python Package Manager Console

pip install aspose-pdf

تجزیه PDF از طریق Python


برای امتحان کد در محیط خود، شما نیاز به Aspose.PDF for Python.

۱. PDF را با نمونه ای از سند بارگذاری کنید. ۱. برای استخراج متن متن آبجکت Sorber ایجاد کنید. ۱. جذب برای تمام صفحات را بپذیرید. ۱. متن استخراج شده را دریافت کنید ۱. یک نویسنده ایجاد کنید و فایل را باز کنید، یک خط متن را به فایل بنویسید

استخراج فایلهای PDF - Python

این کد نمونه نحوه استخراج اسناد PDF را نشان می دهد

Input file:

File not added

Output format:

PDF

Output file:

    # Open document
    document = Document(dataDir + "ExtractTextAll.pdf")

    # Create TextAbsorber object to extract text
    textAbsorber = TextAbsorber()
    # Accept the absorber for all the pages
    document.Pages.Accept(textAbsorber)
    # Get the extracted text
    extractedText = textAbsorber.Text
    # Create a writer and open the file
    tw = new StreamWriter(dataDir + "extracted-text.txt")
    # Write a line of text to the file
    tw.WriteLine(extractedText)
    # Close the stream
    tw.Close()

درباره Aspose.PDF برای Python for .NET API

Aspose.PDF برای پایتون از طریق .NET API از اکثر استانداردهای PDF و مشخصات PDF پشتیبانی می کند. این اجازه می دهد تا توسعه دهندگان برای قرار دادن جداول، نمودار ها، تصاویر، لینک ها، فونت های سفارشی - و بیشتر - به اسناد PDF. علاوه بر این، فشرده سازی اسناد PDF نیز امکان پذیر است. Aspose.PDF برای پایتون از طریق .NET ویژگی های امنیتی عالی را برای توسعه اسناد PDF امن فراهم می کند. برخی از ویژگی های کلیدی Aspose.PDF برای پایتون از طریق .NET API عبارتند از:

  • قابلیت خواندن و صادرات فایل های PDF در فرمت های مختلف تصویر از جمله BMP، GIF، JPEG و PNG.
  • تنظیم اطلاعات پایه (به عنوان مثال نویسنده، خالق) سند PDF.
  • ویژگی های تبدیل: تبدیل PDF به ورد، اکسل، و پاورپوینت. PDF را به فرمت های تصاویر تبدیل کنید. تبدیل فایل PDF به فرمت HTML و بالعکس. تبدیل PDF به EPUB، متن، XPS و غیره

شما می توانید اطلاعات بیشتری در مورد Aspose.PDF برای پایتون از طریق .NET API در documentation ما در مورد نحوه استفاده از API پیدا کنید.