استخراج متن از PDF در Java

نحوه استخراج متن از PDF با استفاده از Java

نحوه استخراج متن از PDF با استفاده از Aspose.PDF برای Java

آیا شما نیاز به استخراج متن از PDF دارید؟ اصلاح برنامه ای اسناد PDF بخش مهمی از گردش کار دیجیتال مدرن است. با کتابخانه های جاوا مانند Aspose.PDF، توسعه دهندگان می توانند متن را از PDF استخراج کنند. این کتابخانه ها راه حل های مستقلی هستند که به نرم افزارهای دیگر متکی نیستند و برای استفاده تجاری آماده هستند. آنها تمام نیازهای احتمالی توسعه دهندگان حرفه ای جاوا را پوشش می دهند.

استخراج متن از PDF
استخراج تصاویر از PDF
استخراج فونت از PDF
استخراج داده ها از فرم
استخراج متن از تمبرها
استخراج داده ها از جدول

به منظور استخراج متن از فایل PDF، ما از Aspose.PDF for Java API استفاده خواهیم کرد که یک API تبدیل غنی، قدرتمند و آسان برای استفاده برای پلت فرم جاوا است. شما می توانید آخرین نسخه آن را به طور مستقیم از Maven دانلود کنید و آن را در پروژه مبتنی بر Maven خود با اضافه کردن تنظیمات زیر به pom.xml نصب کنید.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

استخراج متن از PDF در Java

شما به Aspose.PDF for Java نیاز دارید تا کد را در محیط خود امتحان کنید.

۱. PDF را با یک نمونه از سند بارگذاری کنید. ۱. برای استخراج متن، شیء TextObsorber را ایجاد کنید. ۱. جذب کننده را برای تمام صفحات بپذیرید. ۱. متن استخراج شده را دریافت کنید ۱. یک نویسنده ایجاد کنید و فایل را باز کنید، یک خط متن را به فایل بنویسید

استخراج متن از PDF با Java

این کد نمونه نحوه استخراج متن از اسناد PDF را نشان می دهد

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

// Open document
com.aspose.pdf.Document pdfDocument = new Document(DATA_DIR.resolve("sample.pdf").toString());
// Create TextAbsorber object to extract text
com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
// Accept the absorber for all the pages
pdfDocument.getPages().accept(textAbsorber);
// Get the extracted text
String extractedText = textAbsorber.getText();
try {
    java.io.FileWriter writer = new java.io.FileWriter(DATA_DIR.resolve("extracted-text.txt").toString(), true);
    // Write a line of text to the file
    writer.write(extractedText);
    // Close the stream
    writer.close();
} catch (java.io.IOException e) {
    System.out.println(e.getMessage());
}

درباره Aspose.PDF for Java API

Aspose.PDF برای Java API یک کتابخانه است که توسعه دهندگان را قادر می سازد قابلیت پردازش PDF را به برنامه های خود اضافه کنند. می توان از آن برای ساخت هر نوع برنامه های 32 بیتی و 64 بیتی برای تولید یا خواندن، تبدیل و دستکاری فایل های PDF بدون استفاده از Adobe Acrobat استفاده کرد. Aspose.PDF برای جاوا به توسعه دهندگان اجازه می دهد تا جداول، گرافها، تصاویر، هایپرلینک ها، فونت های سفارشی - و موارد دیگر - را در اسناد PDF وارد کنند. علاوه بر این، فشرده سازی فایل های PDF نیز امکان پذیر است. Aspose.PDF برای جاوا ویژگی های امنیتی عالی را برای توسعه فایل های PDF امن فراهم می کند.

شما می توانید اطلاعات بیشتری در مورد Aspose.PDF برای API جاوا در مستندات و مثال در مورد نحوه استفاده از API پیدا کنید. برخی از ویژگی های مهم Aspose.PDF برای API جاوا شامل پشتیبانی از فرمت های مختلف فایل، از جمله HTML، XFA، TXT، PCL، XML، XPS و فرمت های فایل تصویری، پشتیبانی از نسخه های مختلف PDF و عملکرد گسترده هایپرلینک است.