تبدیل سند PDF از طریق Java

صادرات PDF به مایکروسافت آفیس® ورد، اکسل، پاورپوینت ارائه، تصاویر، HTML و فرمت های طرح ثابت

بررسی اجمالی

موارد کمی وجود دارد که نیاز به دستکاری اسناد دیگر پس از آن PDF در حالی که داشتن داده های تجزیه در دسترس در فرمت های PDF وجود دارد. بنابراین برای چنین برنامه هایی دو سناریو وجود خواهد داشت یا آنها قابلیت تجزیه PDF را در راه حل خود اضافه می کنند یا قابلیت تبدیل PDF را برای دستکاری داده ها به عنوان فرمت های پشتیبانی شده اضافه می کنند. برای سناریوی دوم برای تبدیل PDF به ورد**، اکسل، HTML، تصاویر و یا هر فرمت مورد نیاز، پیاده سازی کد C# PDF خوان و مبدل در دات نت ساده است. ما در اینجا چند مورد بحث می کنیم تا برنامه نویسان بتوانند این قطعه کد تبدیل را به عنوان مورد نیاز خود تغییر دهند.

تبدیل پی دی اف به مایکروسافت ورد 2003-2019

مثال: C# کد برای تبدیل PDF به کلمه

// فایل PDF منبع را بارگیری کنید
Document pdfFile = new Document("Source-PDF-File.pdf");

// صرفه جویی با استفاده از گزینه های ذخیره
// ایجاد آبجکت DocsaveOptions
DocSaveOptions saveOptions = new DocSaveOptions();

// حالت تشخیص را به عنوان Flow به معنای حالت تشخیص کامل تنظیم کنید
saveOptions.setMode(DocSaveOptions.RecognitionMode.Flow);

// دو حالت دیگر هستند شناساییMode.textbox و recognationmode.EnhancedFlow

// تنظیم مجاورت افقی به عنوان 2.5
saveOptions.setRelativeHorizontalProximity(2.5f);

// مقدار را برای تشخیص گلوله ها در طی فرآیند تبدیل فعال کنید
saveOptions.setRecognizeBullets(true);

// فایل DOC حاصل را ذخیره کنید
pdfDocument.save(docFile.toString(), saveOptions);

کتابخانه Aspose.PDF for .NET از تمام تبدیل های PDF به Word پشتیبانی می کند. در صورتی که ما فقط تبدیل اسناد مایکروسافت ورد بدون هیچ گونه تنظیمات خاص، ما فقط فایل PDF را با استفاده از روش ذخیره از کلاس سند بارگذاری می کنیم و با مسیر سند خروجی Word و SaveFormat به عنوان پارامترها استفاده می کنیم. برای موارد خاصی که نیاز به افزایش فاصله خطوط، وضوح تصویر و تنظیمات بیشتر وجود دارد، API دارای کلاس DocSaveOptions است که تمام این تنظیمات را در معرض نمایش قرار می دهد.

ذخیره PDF به عنوان فایل های اکسل

ذخیره PDF به عنوان فایل های اکسل

// بارگذاری سند پی دی اف
Document pdfDoc = new Document("sample-file.pdf");
// مقداردهی اولیه اکسلSaveOptions
ExcelSaveOptions excelSave = new ExcelSaveOptions();
// فرمت XLSX اکسل خروجی را تنظیم کنید
excelSave.setFormat(ExcelSaveOptions.ExcelFormat.XLSX);
// به حداقل رساندن تعداد برگه ها
excelsave.setMinimizeTheNumberOfWorksheets(true);
// تبدیل PDF به فایل خروجی اکسل
pdfDoc.Save("pdf-to-excel-output.xlsx", excelSave);

تخصصی SaveFormat.excel شمارش در دسترس برای ذخیره PDF به فرمت های خاص خروجی مایکروسافت اکسل XLS XLSX. علاوه بر این، .NET PDF Library همچنین دارای کلاس ExcelSaveOptions است که نه تنها به صرفه جویی در فرمت های اکسل می پردازد بلکه توابع و ویژگی های مختلفی را برای تنظیم ویژگی های مختلف مانند فرمت خروجی دقیق، به حداقل رساندن تعداد برگه ها و موارد دیگر فراهم می کند.

تبدیل PDF به ارائه پاورپوینت

مثال: C# کد PDF به پاورپوینت تبدیل

// بارگذاری سند پی دی اف
Document pdfDocument = new Document("document.pdf");
PptxSaveOptions pptxOptions = new PptxSaveOptions();
pptxOptions.setSlidesAsImages(true);
// ذخیرۀ پروندۀ خروجی
pdfDocument.save("PDF to PPT.pptx", pptxOptions);

NET PDF API از تبدیل صفحات PDF به اسلایدهای ارائه پاورپوینت با متن یا تصاویر قابل انتخاب با ارائه اسلایدها به عنوان تصویر پشتیبانی می کند. الگوی صرفه جویی در فرمت سند قابل حمل به پاورپوینت تقریبا یکسان است، بارگذاری فایل با استفاده از کلاس سند و سپس فراخوانی روش ذخیره با مسیر فایل خروجی و SaveFormat به عنوان پارامترها. در صورت ارائه با گزینه های ویژه ارائه، برنامه نویسان می توانند از PPTXSaveOptions class با هر گزینه رندر خاص مربوطه استفاده کنند. تماس با روش ذخیره و انتقال گزینه ها به عنوان پارامتر.

تبدیل فرمت سند قابل حمل PDF به HTML

مثال: کد C# برای تبدیل PDF به HTML

// سند PDF منبع را بارگیری کنید
Document doc = new Document("source-input-file.pdf");

// نمونه HTML ذخیره شی گزینه ها
HtmlSaveOptions conversionOptions = new HtmlSaveOptions();

// فعال کردن گزینه ای برای جاسازی تمام منابع در داخل HTML
conversionOptions.PartsEmbeddingMode = HtmlSaveOptions.PartsEmbeddingModes.EmbedAllIntoHtml;

// مشخص کردن پوشه جداگانه برای PDF به HTML با تصاویر
conversionOptions.SpecialFolderForAllImages = "ImagesFolder";

// مشخص کردن گزینه تقسیم برای HTML حاصل به چندین صفحه
conversionOptions.setSplitIntoPages(true);

doc.save("converted-pdf-to.html", conversionOptions);

کتابخانه تجزیه PDF از ذخیره PDF به HTML به طور کامل و همچنین با منابع جاسازی شده از جمله تصاویر پشتیبانی می کند. روش تبدیل همانند PDF به فرمت های دیگر برای موارد عمومی است، مانند بارگذاری سند منبع و فراخوانی روش ذخیره با مسیر فایل HTML خروجی و SaveFormat.Html به عنوان پارامترها. در صورت صرفه جویی در منابع جاسازی شده، یک کلاس HtmlSaveOptions وجود دارد که دارای گزینه های متعدد مانند ذخیره تصاویر به یک پوشه خاص در طول تبدیل، تقسیم HTML حاصل به چندین صفحه و موارد دیگر است.

تبدیل PDF به تصاویر

مثال: کد C# برای تبدیل PDF به تصاویر

// سند را بارگیری کنید
Document srcFile = new Document("pdf-pages-to-image.pdf");

java.io.OutputStream outputBinImageFile = new java.io.FileOutputStream(
                    _dataDir + "image" + pageCount + "_out." + ext);

// ایجاد شیء رزولوشن
Resolution resolution = new Resolution(300);

// ایجاد دستگاه تصویر با ویژگی های مشخص شده
// عرض، ارتفاع، وضوح
JpegDevice renderToImages = new JpegDevice(500, 700, resolution);
// برای BMP، PNG، TIFF به ترتیب BMpDevice، PNGDevice، TIFF خواهد بود

// تبدیل یک صفحه خاص و ذخیره تصویر به جریان
renderToImages.Process(srcFile.Pages[1], outputBinImageFile);

// بستن جریان
outputBinImageFile.Close();

تبدیل صفحات PDF به تصاویر از جمله PNG، JPEG، TIFF، BMP و غیره در برنامه های مبتنی بر دات نت با استفاده از قطعه کدهای فهرست شده در زیر آسان است. توسعه دهندگان می توانند پس از بارگیری فایل، صفحات PDF را حلقه زده و صفحه به صفحه را به فرمت تصویر مورد نیاز تبدیل کنند. توسعه دهندگان می توانند وضوح افقی و عمودی تصاویر را با استفاده از آن تنظیم کنند Resolution class