استخراج متن از PDF در Java

نحوه استخراج متن از PDF با استفاده از Java

نحوه استخراج متن از PDF با استفاده از ابزار Java

آیا شما نیاز به استخراج متن از PDF دارید؟ اصلاح برنامه ای اسناد PDF بخش مهمی از گردش کار دیجیتال مدرن است. با کتابخانه های جاوا مانند Aspose.PDF، توسعه دهندگان می توانند متن را از PDF استخراج کنند. این کتابخانه ها راه حل های مستقلی هستند که به نرم افزارهای دیگر متکی نیستند و برای استفاده تجاری آماده هستند. آنها تمام نیازهای احتمالی توسعه دهندگان حرفه ای جاوا را پوشش می دهند.

  • استخراج متن از PDF
  • استخراج تصاویر از PDF
  • استخراج فونت از PDF
  • استخراج داده ها از فرم
  • استخراج متن از تمبرها
  • استخراج داده ها از جدول

به منظور استخراج متن از فایل PDF، ما از Aspose.PDF for Java API استفاده خواهیم کرد که یک API تبدیل غنی، قدرتمند و آسان برای استفاده برای پلت فرم جاوا است. شما می توانید آخرین نسخه آن را به طور مستقیم از Maven دانلود کنید و آن را در پروژه مبتنی بر Maven خود با اضافه کردن تنظیمات زیر به pom.xml نصب کنید.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

استخراج متن از PDF در Java


شما به Aspose.PDF for Java نیاز دارید تا کد را در محیط خود امتحان کنید.

۱. PDF را با یک نمونه از سند بارگذاری کنید. ۱. برای استخراج متن، شیء TextObsorber را ایجاد کنید. ۱. جذب کننده را برای تمام صفحات بپذیرید. ۱. متن استخراج شده را دریافت کنید ۱. یک نویسنده ایجاد کنید و فایل را باز کنید، یک خط متن را به فایل بنویسید

استخراج متن از PDF - Java

این کد نمونه نحوه استخراج متن از اسناد PDF را نشان می دهد

Input file:

File not added

Output format:

PDF

Output file:

    // Open document
    com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document(filePath);

    // Create TextAbsorber object to extract text
    com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
    
    // Accept the absorber for all the pages
    pdfDocument.getPages().accept(textAbsorber);
    
    // Get the extracted text
    String extractedText = textAbsorber.getText();                
    try {
        java.io.FileWriter writer = new java.io.FileWriter(_dataDir + "extracted-text.txt", true);
        // Write a line of text to the file
        writer.write(extractedText);            
        // Close the stream
        writer.close();
    } catch (java.io.IOException e) {
        e.printStackTrace();
    }

درباره Aspose.PDF برای Java API

Aspose.PDF برای Java API یک کتابخانه است که توسعه دهندگان را قادر می سازد قابلیت پردازش PDF را به برنامه های خود اضافه کنند. می توان از آن برای ساخت هر نوع برنامه های 32 بیتی و 64 بیتی برای تولید یا خواندن، تبدیل و دستکاری فایل های PDF بدون استفاده از Adobe Acrobat استفاده کرد. Aspose.PDF برای جاوا به توسعه دهندگان اجازه می دهد تا جداول، گرافها، تصاویر، هایپرلینک ها، فونت های سفارشی - و موارد دیگر - را در اسناد PDF وارد کنند. علاوه بر این، فشرده سازی فایل های PDF نیز امکان پذیر است. Aspose.PDF برای جاوا ویژگی های امنیتی عالی را برای توسعه فایل های PDF امن فراهم می کند.

شما می توانید اطلاعات بیشتری در مورد Aspose.PDF برای API جاوا در مستندات و مثال در مورد نحوه استفاده از API پیدا کنید. برخی از ویژگی های مهم Aspose.PDF برای API جاوا شامل پشتیبانی از فرمت های مختلف فایل، از جمله HTML، XFA، TXT، PCL، XML، XPS و فرمت های فایل تصویری، پشتیبانی از نسخه های مختلف PDF و عملکرد گسترده هایپرلینک است.