استخراج متن از PDF در Java

نحوه استخراج متن از PDF با استفاده از کتابخانه Java

نحوه استخراج متن از PDF با استفاده از Java کتابخانه

آیا شما نیاز به استخراج متن از PDF دارید؟ اصلاح برنامه ای اسناد PDF بخش مهمی از گردش کار دیجیتال مدرن است. با کتابخانه های جاوا مانند Aspose.PDF، توسعه دهندگان می توانند متن را از PDF استخراج کنند. این کتابخانه ها راه حل های مستقلی هستند که به نرم افزارهای دیگر متکی نیستند و برای استفاده تجاری آماده هستند. آنها تمام نیازهای احتمالی توسعه دهندگان حرفه ای جاوا را پوشش می دهند.

  • استخراج متن از PDF
  • استخراج تصاویر از PDF
  • استخراج فونت از PDF
  • استخراج داده ها از فرم
  • استخراج متن از تمبرها
  • استخراج داده ها از جدول

به منظور استخراج متن از فایل PDF، ما از Aspose.PDF for Java API استفاده خواهیم کرد که یک API تبدیل غنی، قدرتمند و آسان برای استفاده برای پلت فرم جاوا است. شما می توانید آخرین نسخه آن را به طور مستقیم از Maven دانلود کنید و آن را در پروژه مبتنی بر Maven خود با اضافه کردن تنظیمات زیر به pom.xml نصب کنید.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

استخراج متن از PDF در Java


شما به Aspose.PDF for Java نیاز دارید تا کد را در محیط خود امتحان کنید.

۱. PDF را با یک نمونه از سند بارگذاری کنید. ۱. برای استخراج متن، شیء TextObsorber را ایجاد کنید. ۱. جذب کننده را برای تمام صفحات بپذیرید. ۱. متن استخراج شده را دریافت کنید ۱. یک نویسنده ایجاد کنید و فایل را باز کنید، یک خط متن را به فایل بنویسید

استخراج متن از PDF - Java

این کد نمونه نحوه استخراج متن از اسناد PDF را نشان می دهد

Input file:

File not added

Output format:

PDF

Output file:

    // Open document
    com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document(filePath);

    // Create TextAbsorber object to extract text
    com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
    
    // Accept the absorber for all the pages
    pdfDocument.getPages().accept(textAbsorber);
    
    // Get the extracted text
    String extractedText = textAbsorber.getText();                
    try {
        java.io.FileWriter writer = new java.io.FileWriter(_dataDir + "extracted-text.txt", true);
        // Write a line of text to the file
        writer.write(extractedText);            
        // Close the stream
        writer.close();
    } catch (java.io.IOException e) {
        e.printStackTrace();
    }

درباره Aspose.PDF برای Java API

Aspose.PDF for Java API یک کتابخانه است که توسعه دهندگان را قادر می سازد قابلیت های پردازش PDF را به برنامه های خود اضافه کنند. این می تواند برای ساخت هر نوع برنامه های 32 بیتی و 64 بیتی برای تولید یا خواندن، تبدیل و دستکاری فایل های PDF بدون استفاده از Adobe Acrobat استفاده شود. Aspose.PDF for Java به توسعه دهندگان اجازه می دهد تا جداول، نمودارها، تصاویر، لینک ها، فونت های سفارشی - و موارد دیگر - را به اسناد PDF وارد کنند. علاوه بر این، فشرده سازی PDF نیز امکان پذیر است. Aspose.PDF for Java ویژگی های امنیتی عالی را برای توسعه فایل های PDF امن فراهم می کند.

شما می توانید اطلاعات بیشتری در مورد Aspose.PDF برای جاوا API در مستندات و مثال در مورد نحوه استفاده از API پیدا کنید. برخی از ویژگی های کلیدی Aspose.PDF برای جاوا API شامل پشتیبانی از فرمت های مختلف فایل از جمله HTML، XFA، TXT، PCL، XML، XPS و فرمت های فایل تصویری، پشتیبانی از نسخه های مختلف PDF و قابلیت های لینک گسترده است.