การแปลงเอกสาร PDF ผ่านทาง Java

ส่งออก PDF ไปยัง Microsoft Office® Word, Excel, งานนำเสนอ PowerPoint, รูปภาพ, HTML และรูปแบบเค้าโครงคงที่

ภาพรวม

มีไม่กี่กรณีเมื่อมีความจำเป็นต้องจัดการกับเอกสารอื่น ๆ แล้ว PDF ในขณะที่มีการแยกข้อมูลที่มีอยู่ในรูปแบบ PDF เป็นดังนั้นสำหรับการใช้งานดังกล่าวจะมีสองสถานการณ์ทั้งที่พวกเขาเพิ่มฟังก์ชันการทำงานของการแยกวิเคราะห์ PDF ภายในโซลูชั่นของตัวเองหรือเพิ่มฟังก์ชันการแปลงไฟล์ PDF เพื่อจัดการข้อมูลเป็นรูปแบบที่สนับสนุนสำหรับสถานการณ์ที่สองเพื่อแปลงไฟล์ PDF เป็น Word, Excel, HTML, รูปภาพหรือรูปแบบที่จำเป็นใด ๆ การดำเนินการC# อ่าน PDF และแปลง รหัสภายใน .NET ตามเป็นเรื่องง่ายเราจะคุยที่นี่ไม่กี่กรณีเพื่อให้โปรแกรมเมอร์สามารถปรับเปลี่ยนข้อมูลโค้ดแปลงเหล่านี้เป็นความต้องการของพวกเขา

รูปแบบไฟล์ PDF เป็น Microsoft Word 2003-2019 การแปลงไฟล์

ตัวอย่าง: รหัส C# สำหรับการแปลงไฟล์ PDF เป็น Word

// โหลดไฟล์ PDF ต้นฉบับ
Document pdfFile = new Document("Source-PDF-File.pdf");

// บันทึกโดยใช้ตัวเลือกการบันทึก
// สร้างวัตถุ DocSaveOptions
DocSaveOptions saveOptions = new DocSaveOptions();

// ตั้งค่าโหมดการรับรู้เป็น Flow หมายถึงโหมดการรับรู้แบบเต็ม
saveOptions.setMode(DocSaveOptions.RecognitionMode.Flow);

// อีกสองโหมดเป็น recognitionMode.TextBox และ การรับรู้Mode.EnhancedFlow

// ตั้งค่าความใกล้ชิดแนวนอนเป็น 2.5
saveOptions.setRelativeHorizontalProximity(2.5f);

// เปิดใช้งานค่าที่จะรับรู้สัญลักษณ์แสดงหัวข้อย่อยในระหว่างกระบวนการแปลง
saveOptions.setRecognizeBullets(true);

// บันทึกไฟล์ DOC ผลลัพธ์
pdfDocument.save(docFile.toString(), saveOptions);

Aspose.PDF สำหรับไลบรารี .NET สนับสนุนไฟล์ PDF ทั้งหมดเพื่อแปลง Wordในกรณีที่เราเป็นเพียงการแปลงเอกสาร Microsoft Word โดยไม่ต้องตั้งค่าพิเศษใด ๆ เราเพียงแค่โหลดไฟล์ PDF โดยใช้วิธีการบันทึกจากชั้นเอกสารและจะใช้กับเส้นทางเอกสาร Word เอาท์พุทและ SaveFormat เป็นพารามิเตอร์สำหรับกรณีพิเศษที่มีความจำเป็นเพื่อเพิ่มระยะทางเส้นความละเอียดของภาพและการตั้งค่าอื่น ๆ API มีระดับ DocSaveOptions ที่เปิดเผยการตั้งค่าดังกล่าวทั้งหมด

บันทึก PDF เป็นไฟล์ Excel

บันทึก PDF เป็นไฟล์ Excel

// โหลดเอกสาร PDF
Document pdfDoc = new Document("sample-file.pdf");
// เริ่มต้นตัวเลือก ExcelSaveOptions
ExcelSaveOptions excelSave = new ExcelSaveOptions();
// ตั้งค่ารูปแบบการส่งออกของ Excel XLSX
excelSave.setFormat(ExcelSaveOptions.ExcelFormat.XLSX);
// ลดจำนวนแผ่นงาน
excelsave.setMinimizeTheNumberOfWorksheets(true);
// แปลงไฟล์ PDF เป็นไฟล์เอาท์พุท Excel
pdfDoc.Save("pdf-to-excel-output.xlsx", excelSave);

เฉพาะ SaveFormat.excel การแจงนับใช้ได้สำหรับการบันทึกไฟล์ PDF ไปยังรูปแบบการส่งออก XLS XLSX ของ Microsoft Excel ที่เฉพาะเจาะจงนอกจากนี้**.NET PDF Library** ยังมี speicific ExcelSaveOptions class ที่ไม่เพียง แต่ข้อเสนอการบันทึกไปยังรูปแบบ Excel แต่ยังมีฟังก์ชั่นที่แตกต่างกันและคุณสมบัติสำหรับการตั้งค่าแอตทริบิวต์ที่แตกต่างกันเช่นรูปแบบการส่งออกที่แน่นอนลดจำนวนแผ่นงานและอื่น ๆ

แปลงไฟล์ PDF เป็นงานนำเสนอ PowerPoint

ตัวอย่าง: C# รหัส PDF เพื่อการแปลง PowerPoint

// โหลดเอกสาร PDF
Document pdfDocument = new Document("document.pdf");
PptxSaveOptions pptxOptions = new PptxSaveOptions();
pptxOptions.setSlidesAsImages(true);
// บันทึกแฟ้มที่ส่งออก
pdfDocument.save("PDF to PPT.pptx", pptxOptions);

.NET PDF API สนับสนุนการแปลงหน้า PDF เพื่อนำเสนอสไลด์ PowerPoint ด้วยข้อความที่เลือกหรือภาพโดยการแสดงผลภาพนิ่งเป็นภาพรูปแบบของการประหยัดรูปแบบเอกสารแบบพกพาไปยัง PowerPoint เกือบจะเหมือนกันโหลดไฟล์โดยใช้ระดับเอกสารแล้วเรียกวิธีการบันทึกด้วยเส้นทางไฟล์ที่ส่งออกและ SaveFormat เป็นพารามิเตอร์ในกรณีของการแสดงผลที่มีตัวเลือกการนำเสนอพิเศษ, โปรแกรมเมอร์สามารถใช้ ระดับ PPTXSaveOptions กับตัวเลือกการแสดงผลที่เฉพาะเจาะจงใด ๆ ที่เกี่ยวข้องเรียกวิธีการบันทึกและผ่านตัวเลือกเป็นพารามิเตอร์

รูปแบบเอกสารแบบพกพารูปแบบ PDF เป็น HTML แปลง

ตัวอย่าง: รหัส C# สำหรับการแปลงไฟล์ PDF เป็น HTML

// โหลดเอกสาร PDF ต้นฉบับ
Document doc = new Document("source-input-file.pdf");

// อินสแตนซ์วัตถุ HTML บันทึกตัวเลือก
HtmlSaveOptions conversionOptions = new HtmlSaveOptions();

// การเปิดใช้งานตัวเลือกที่จะฝังทรัพยากรทั้งหมดภายใน HTML
conversionOptions.PartsEmbeddingMode = HtmlSaveOptions.PartsEmbeddingModes.EmbedAllIntoHtml;

// การระบุโฟลเดอร์แยกต่างหากสำหรับ PDF เป็น HTML พร้อมรูปภาพ
conversionOptions.SpecialFolderForAllImages = "ImagesFolder";

// ระบุตัวเลือกการแยกสำหรับ HTML ผลลัพธ์ลงในหลายหน้า
conversionOptions.setSplitIntoPages(true);

doc.save("converted-pdf-to.html", conversionOptions);

PDF Parsing Library สนับสนุนการบันทึก PDF เป็น HTML โดยรวมเช่นเดียวกับทรัพยากรที่ฝังตัวรวมทั้งภาพขั้นตอนของการแปลงเป็นเช่นเดียวกับ PDF เป็นรูปแบบอื่น ๆ สำหรับกรณีทั่วไปเช่นการโหลดเอกสารต้นฉบับและเรียกวิธีการบันทึกด้วยเส้นทางไฟล์ที่ส่งออก HTML และ SaveFormat.Html เป็นพารามิเตอร์ในกรณีของการประหยัดกับทรัพยากรที่ฝังตัวมี ระดับ HtmlSaveOptions มีหลายตัวเลือกเช่นการบันทึกภาพไปยังโฟลเดอร์เฉพาะในระหว่างการแปลงแยก HTML ผลลัพธ์ลงในหลายหน้าและอื่น ๆ

แปลงไฟล์ PDF เป็นรูปภาพ

ตัวอย่าง: รหัส C# สำหรับการแปลงไฟล์ PDF เป็นรูปภาพ

// โหลดเอกสาร
Document srcFile = new Document("pdf-pages-to-image.pdf");

java.io.OutputStream outputBinImageFile = new java.io.FileOutputStream(
                    _dataDir + "image" + pageCount + "_out." + ext);

// สร้างวัตถุความละเอียด
Resolution resolution = new Resolution(300);

// สร้างอุปกรณ์ภาพที่มีแอตทริบิวต์ที่ระบุ
// ความกว้าง, ความสูง, ความละเอียด
JpegDevice renderToImages = new JpegDevice(500, 700, resolution);
// สำหรับ BMP, PNG, TIFF จะเป็น BMPDevice, PNGDevice, TiffDevice ตามลำดับ

// แปลงหน้าใดหน้าหนึ่งและบันทึกภาพเพื่อสตรีม
renderToImages.Process(srcFile.Pages[1], outputBinImageFile);

// ปิดสตรีม
outputBinImageFile.Close();

แปลงหน้า PDF เป็นภาพรวมทั้ง PNG, JPEG, TIFF, BMP ฯลฯ เป็นเรื่องง่ายในการใช้งานตาม .NET โดยใช้ข้อมูลโค้ดที่ระบุไว้ด้านล่างนักพัฒนาสามารถวนผ่านหน้า PDF หลังจากโหลดไฟล์และแปลงหน้าโดยหน้าเป็นรูปแบบภาพที่ต้องการผู้พัฒนาสามารถตั้งค่าความละเอียดขอบฟ้าและแนวตั้งของภาพโดยใช้ ระดับความละเอียด