استخراج PDF از طریق Java

نحوه استخراج متن و تصاویر از PDF با استفاده از کتابخانه Java

محبوب ترین اقدام با پارسر

نحوه تجزیه PDF با کتابخانه Java

آیا شما نیاز به استخراج PDF دارید؟ اصلاح برنامه ای اسناد PDF بخش مهمی از گردش کار دیجیتال مدرن است. با کتابخانه های جاوا مانند Aspose.PDF، توسعه دهندگان می توانند متن را از PDF استخراج کنند یا تصاویر را از PDF استخراج کنند. این کتابخانه ها راه حل های مستقلی هستند که به نرم افزارهای دیگر متکی نیستند و برای استفاده تجاری آماده هستند. آنها تمام نیازهای احتمالی توسعه دهندگان حرفه ای جاوا را پوشش می دهند.

  • استخراج داده های PDF: متون، تصاویر، فرم ها، زمینه ها و غیره
  • استخراج متن از PDF
  • استخراج تصاویر از PDF
  • استخراج فونت از PDF
  • استخراج داده ها از فرم
  • استخراج متن از تمبرها
  • استخراج داده ها از جدول

به منظور استخراج فایل PDF، ما از Aspose.PDF for Java API استفاده خواهیم کرد که یک API تبدیل غنی، قدرتمند و آسان برای استفاده برای پلت فرم جاوا است. شما می توانید آخرین نسخه آن را به طور مستقیم از Maven دانلود کنید و آن را در پروژه مبتنی بر Maven خود با اضافه کردن تنظیمات زیر به pom.xml نصب کنید.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

تجزیه PDF از طریق Java


شما نیاز به Aspose.PDF for Java به سعی کنید کد در محیط شما.

۱. PDF را با یک نمونه از سند بارگذاری کنید. ۱. یک شیء TextAbsorber برای استخراج متن ایجاد کنید. ۱. جذب کننده را برای همه صفحات بپذیرید. ۱. متن استخراج شده را دریافت کنید ۱. یک نویسنده ایجاد کنید و فایل را باز کنید، یک خط متن را به فایل بنویسید

استخراج فایلهای PDF - Java

این کد نمونه نحوه استخراج اسناد PDF را نشان می دهد

Input file:

File not added

Output format:

PDF

Output file:

document
com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document("sample.pdf");

e TextAbsorber object to extract text
com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();

t the absorber for all the pages
pdfDocument.getPages().accept(textAbsorber);

he extracted text
String extractedText = textAbsorber.getText();
try {
    java.io.FileWriter writer = new java.io.FileWriter("extracted-text.txt", true);
    // Write a line of text to the file
    writer.write(extractedText);
    // Close the stream
    writer.close();
} catch (java.io.IOException e) {
    System.out.println(e.getMessage());
}

درباره Aspose.PDF for Java API

Aspose.PDF برای Java API یک کتابخانه است که توسعه دهندگان را قادر می سازد قابلیت پردازش PDF را به برنامه های خود اضافه کنند. می توان از آن برای ساخت هر نوع برنامه های 32 بیتی و 64 بیتی برای تولید یا خواندن، تبدیل و دستکاری فایل های PDF بدون استفاده از Adobe Acrobat استفاده کرد. Aspose.PDF برای جاوا به توسعه دهندگان اجازه می دهد تا جداول، گرافها، تصاویر، هایپرلینک ها، فونت های سفارشی - و موارد دیگر - را در اسناد PDF وارد کنند. علاوه بر این، فشرده سازی فایل های PDF نیز امکان پذیر است. Aspose.PDF برای جاوا ویژگی های امنیتی عالی را برای توسعه فایل های PDF امن فراهم می کند.

شما می توانید اطلاعات بیشتری در مورد Aspose.PDF برای API جاوا در مستندات و مثال در مورد نحوه استفاده از API پیدا کنید. برخی از ویژگی های مهم Aspose.PDF برای API جاوا شامل پشتیبانی از فرمت های مختلف فایل، از جمله HTML، XFA، TXT، PCL، XML، XPS و فرمت های فایل تصویری، پشتیبانی از نسخه های مختلف PDF و عملکرد گسترده هایپرلینک است.