استخراج PDF در Java

نحوه استخراج متن و تصاویر از PDF با استفاده از کتابخانه Java

محبوب ترین اقدام با پارسر

نحوه استخراج PDF با کتابخانه Java

آیا شما نیاز به استخراج PDF دارید؟ اصلاح برنامه ای اسناد PDF بخش مهمی از گردش کار دیجیتال مدرن است. با کتابخانه های جاوا مانند Aspose.PDF، توسعه دهندگان می توانند متن را از PDF استخراج کنند یا تصاویر را از PDF استخراج کنند. این کتابخانه ها راه حل های مستقلی هستند که به نرم افزارهای دیگر متکی نیستند و برای استفاده تجاری آماده هستند. آنها تمام نیازهای احتمالی توسعه دهندگان حرفه ای جاوا را پوشش می دهند.

  • استخراج داده های PDF: متون، تصاویر، فرم ها، زمینه ها و غیره
  • استخراج متن از PDF
  • استخراج تصاویر از PDF
  • استخراج فونت از PDF
  • استخراج داده ها از فرم
  • استخراج متن از تمبرها
  • استخراج داده ها از جدول

به منظور استخراج فایل PDF، ما از Aspose.PDF for Java API استفاده خواهیم کرد که یک API تبدیل غنی، قدرتمند و آسان برای استفاده برای پلت فرم جاوا است. شما می توانید آخرین نسخه آن را به طور مستقیم از Maven دانلود کنید و آن را در پروژه مبتنی بر Maven خود با اضافه کردن تنظیمات زیر به pom.xml نصب کنید.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

تجزیه PDF از طریق Java


شما نیاز به Aspose.PDF for Java به سعی کنید کد در محیط شما.

۱. PDF را با نمونه ای از سند بارگذاری کنید. ۱. برای استخراج متن متن آبجکت Sorber ایجاد کنید. ۱. جذب برای تمام صفحات را بپذیرید. ۱. متن استخراج شده را دریافت کنید ۱. یک نویسنده ایجاد کنید و فایل را باز کنید، یک خط متن را به فایل بنویسید

استخراج فایلهای PDF - Java

این کد نمونه نحوه استخراج اسناد PDF را نشان می دهد

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document(filePath);

    // Create TextAbsorber object to extract text
    com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
    
    // Accept the absorber for all the pages
    pdfDocument.getPages().accept(textAbsorber);
    
    // Get the extracted text
    String extractedText = textAbsorber.getText();                
    try {
        java.io.FileWriter writer = new java.io.FileWriter(_dataDir + "extracted-text.txt", true);
        // Write a line of text to the file
        writer.write(extractedText);            
        // Close the stream
        writer.close();
    } catch (java.io.IOException e) {
        e.printStackTrace();
    }

درباره Aspose.PDF برای Java API

Aspose.PDF for Java API یک کتابخانه است که توسعه دهندگان را قادر می سازد قابلیت های پردازش PDF را به برنامه های خود اضافه کنند. این می تواند برای ساخت هر نوع برنامه های 32 بیتی و 64 بیتی برای تولید یا خواندن، تبدیل و دستکاری فایل های PDF بدون استفاده از Adobe Acrobat استفاده شود. Aspose.PDF for Java به توسعه دهندگان اجازه می دهد تا جداول، نمودارها، تصاویر، لینک ها، فونت های سفارشی - و موارد دیگر - را به اسناد PDF وارد کنند. علاوه بر این، فشرده سازی PDF نیز امکان پذیر است. Aspose.PDF for Java ویژگی های امنیتی عالی را برای توسعه فایل های PDF امن فراهم می کند.

شما می توانید اطلاعات بیشتری در مورد Aspose.PDF برای جاوا API در مستندات و مثال در مورد نحوه استفاده از API پیدا کنید. برخی از ویژگی های کلیدی Aspose.PDF برای جاوا API شامل پشتیبانی از فرمت های مختلف فایل از جمله HTML، XFA، TXT، PCL، XML، XPS و فرمت های فایل تصویری، پشتیبانی از نسخه های مختلف PDF و قابلیت های لینک گسترده است.