استخراج متن از PDF در Python

نحوه استخراج متن از PDF با استفاده از Python

نحوه استخراج متن از PDF با استفاده از Aspose.PDF برای Python for .NET

آیا شما نیاز به استخراج متن از PDF دارید؟ اصلاح برنامه ای اسناد PDF بخش مهمی از گردش کار دیجیتال مدرن است. با کتابخانه های پایتون مانند Aspose.PDF، توسعه دهندگان می توانند متن را از PDF استخراج کنند. این کتابخانه ها راه حل های مستقلی هستند که به نرم افزارهای دیگر متکی نیستند و برای استفاده تجاری آماده هستند. آنها تمام نیازهای احتمالی توسعه دهندگان حرفه ای پایتون را پوشش می دهند.

  • استخراج متن از PDF
  • استخراج تصاویر از PDF
  • استخراج فونت از PDF
  • استخراج داده ها از فرم
  • استخراج متن از تمبرها
  • استخراج داده ها از جدول

به منظور استخراج متن از فایل PDF، ما از Aspose.PDF for .NET API استفاده خواهیم کرد که یک API دستکاری سند غنی، قدرتمند و آسان برای استفاده برای پلت فرم python-net است. مدیر بسته NuGet را باز کنید، Aspose.PDF را جستجو کرده و نصب کنید. شما همچنین می توانید از دستور زیر از کنسول مدیریت بسته استفاده کنید.

Console

pip install aspose-pdf

استخراج متن از PDF در Python


برای امتحان کد در محیط خود، شما نیاز به Aspose.PDF برای پایتون.

۱. PDF را با یک نمونه از سند بارگذاری کنید. ۱. برای استخراج متن، شیء TextObsorber را ایجاد کنید. ۱. جذب کننده را برای تمام صفحات بپذیرید. ۱. متن استخراج شده را دریافت کنید ۱. یک نویسنده ایجاد کنید و فایل را باز کنید، یک خط متن را به فایل بنویسید

استخراج متن از PDF با Python

این کد نمونه نحوه استخراج متن از اسناد PDF را نشان می دهد

Input file:

File not added

Output format:

PDF

Output file:


import aspose.pdf as apdf
from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

document = apdf.Document(path_infile)
# Create TextAbsorber object to extract text
textAbsorber = apdf.text.TextAbsorber()
document.pages.accept(textAbsorber)
extractedText = textAbsorber.text

with open(path_outfile, 'w') as f:
    f.write(extractedText)

درباره Aspose.PDF for Python for .NET API

Aspose.PDF برای پایتون از طریق.NET API از اکثر استانداردهای PDF و مشخصات PDF پشتیبانی می کند. این اجازه می دهد تا توسعه دهندگان برای قرار دادن جداول، نمودار، تصاویر، لینک ها، فونت های سفارشی - و بیشتر - به اسناد PDF. علاوه بر این، امکان فشرده سازی اسناد PDF نیز وجود دارد. Aspose.PDF برای پایتون از طریق.NET فراهم می کند ویژگی های امنیتی عالی برای توسعه اسناد PDF امن است. برخی از ویژگی های مهم Aspose.PDF برای پایتون از طریق.API NET شامل:

  • امکان خواندن و صادرات PDF در فرمت های تصویری متعدد از جمله BMP، GIF، JPEG و PNG.
  • تنظیم اطلاعات اولیه (به عنوان مثال نویسنده، خالق) سند PDF.
  • ویژگی های تبدیل: تبدیل PDF به ورد، اکسل و پاورپوینت. تبدیل PDF به فرمت های تصویری. تبدیل فایل های PDF به فرمت HTML و برعکس. تبدیل PDF به EPUB، متن، XPS، و غیره.

در استفاده از API، می توانید اطلاعات بیشتری در مورد Aspose.PDF برای پایتون از طریق.NET API در ما مستندات.