ตัวแปลงรูปแบบ PDF ผ่าน Python for .NET

ส่งออก PDF ไปยัง Microsoft Office® Word, Excel, งานนำเสนอ PowerPoint, รูปภาพ, HTML และรูปแบบเค้าโครงคงที่

ภาพรวม

มีไม่กี่กรณีเมื่อมีความจำเป็นต้องจัดการกับเอกสารอื่น ๆ แล้ว PDF ในขณะที่มีการแยกข้อมูลที่มีอยู่ในรูปแบบ PDF เป็นดังนั้นสำหรับการใช้งานดังกล่าวจะมีสองสถานการณ์ทั้งที่พวกเขาเพิ่มฟังก์ชันการทำงานของการแยกวิเคราะห์ PDF ภายในโซลูชั่นของตัวเองหรือเพิ่มฟังก์ชันการแปลงไฟล์ PDF เพื่อจัดการข้อมูลเป็นรูปแบบที่สนับสนุนสำหรับสถานการณ์ที่สองเพื่อแปลงไฟล์ PDF เป็น Word, Excel, HTML, รูปภาพหรือรูปแบบที่จำเป็นใด ๆ การดำเนินการC# อ่าน PDF และแปลง รหัสภายใน .NET ตามเป็นเรื่องง่ายเราจะคุยที่นี่ไม่กี่กรณีเพื่อให้โปรแกรมเมอร์สามารถปรับเปลี่ยนข้อมูลโค้ดแปลงเหล่านี้เป็นความต้องการของพวกเขา

รูปแบบไฟล์ PDF เป็น Microsoft Word 2003-2019 การแปลงไฟล์

ตัวอย่าง: รหัส C# สำหรับการแปลงไฟล์ PDF เป็น Word

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc.doc"

// โหลดไฟล์ PDF ต้นฉบับ
document = ap.Document(input_pdf)

// บันทึกโดยใช้ตัวเลือกการบันทึก
// สร้างวัตถุ DocSaveOptions
 save_options = ap.DocSaveOptions()
save_options.format = ap.DocSaveOptions.DocFormat.DOCX

// ตั้งค่าโหมดการรับรู้เป็น Flow หมายถึงโหมดการรับรู้แบบเต็ม
save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW

// อีกสองโหมดเป็น recognitionMode.TextBox และ การรับรู้Mode.EnhancedFlow

// ตั้งค่าความใกล้ชิดแนวนอนเป็น 2.5
save_options.relative_horizontal_proximity = 2.5

// เปิดใช้งานค่าที่จะรับรู้สัญลักษณ์แสดงหัวข้อย่อยในระหว่างกระบวนการแปลง
save_options.recognize_bullets = True

// บันทึกไฟล์ DOC ผลลัพธ์
document.save(output_pdf, save_options)

Aspose.PDF สำหรับไลบรารี .NET สนับสนุนไฟล์ PDF ทั้งหมดเพื่อแปลง Wordในกรณีที่เราเป็นเพียงการแปลงเอกสาร Microsoft Word โดยไม่ต้องตั้งค่าพิเศษใด ๆ เราเพียงแค่โหลดไฟล์ PDF โดยใช้วิธีการบันทึกจากชั้นเอกสารและจะใช้กับเส้นทางเอกสาร Word เอาท์พุทและ SaveFormat เป็นพารามิเตอร์สำหรับกรณีพิเศษที่มีความจำเป็นเพื่อเพิ่มระยะทางเส้นความละเอียดของภาพและการตั้งค่าอื่น ๆ API มีระดับ DocSaveOptions ที่เปิดเผยการตั้งค่าดังกล่าวทั้งหมด

บันทึก PDF เป็นไฟล์ Excel

บันทึก PDF เป็นไฟล์ Excel

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_excel.xlsx"
// โหลดเอกสาร PDF
document = ap.Document(input_pdf)
// เริ่มต้นตัวเลือก ExcelSaveOptions
save_option = ap.ExcelSaveOptions()
// ตั้งค่ารูปแบบการส่งออกของ Excel XLSX
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
// ลดจำนวนแผ่นงาน
save_option.minimize_the_number_of_worksheets = True
// แปลงไฟล์ PDF เป็นไฟล์เอาท์พุท Excel
document.save(output_pdf, save_option)

เฉพาะ SaveFormat.excel การแจงนับใช้ได้สำหรับการบันทึกไฟล์ PDF ไปยังรูปแบบการส่งออก XLS XLSX ของ Microsoft Excel ที่เฉพาะเจาะจงนอกจากนี้**.NET PDF Library** ยังมี speicific ExcelSaveOptions class ที่ไม่เพียง แต่ข้อเสนอการบันทึกไปยังรูปแบบ Excel แต่ยังมีฟังก์ชั่นที่แตกต่างกันและคุณสมบัติสำหรับการตั้งค่าแอตทริบิวต์ที่แตกต่างกันเช่นรูปแบบการส่งออกที่แน่นอนลดจำนวนแผ่นงานและอื่น ๆ

แปลงไฟล์ PDF เป็นงานนำเสนอ PowerPoint

ตัวอย่าง: C# รหัส PDF เพื่อการแปลง PowerPoint

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_pptx.pptx
// โหลดเอกสาร PDF
document = ap.Document(input_pdf)
save_option = ap.PptxSaveOptions()
save_option.slides_as_images = True
// บันทึกแฟ้มที่ส่งออก
document.save(output_pdf, save_option)

.NET PDF API สนับสนุนการแปลงหน้า PDF เพื่อนำเสนอสไลด์ PowerPoint ด้วยข้อความที่เลือกหรือภาพโดยการแสดงผลภาพนิ่งเป็นภาพรูปแบบของการประหยัดรูปแบบเอกสารแบบพกพาไปยัง PowerPoint เกือบจะเหมือนกันโหลดไฟล์โดยใช้ระดับเอกสารแล้วเรียกวิธีการบันทึกด้วยเส้นทางไฟล์ที่ส่งออกและ SaveFormat เป็นพารามิเตอร์ในกรณีของการแสดงผลที่มีตัวเลือกการนำเสนอพิเศษ, โปรแกรมเมอร์สามารถใช้ ระดับ PPTXSaveOptions กับตัวเลือกการแสดงผลที่เฉพาะเจาะจงใด ๆ ที่เกี่ยวข้องเรียกวิธีการบันทึกและผ่านตัวเลือกเป็นพารามิเตอร์

รูปแบบเอกสารแบบพกพารูปแบบ PDF เป็น HTML แปลง

ตัวอย่าง: รหัส C# สำหรับการแปลงไฟล์ PDF เป็น HTML

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_html.html"

// โหลดเอกสาร PDF ต้นฉบับ
document = ap.Document(input_pdf)

// อินสแตนซ์วัตถุ HTML บันทึกตัวเลือก
save_options = ap.HtmlSaveOptions()

// การเปิดใช้งานตัวเลือกที่จะฝังทรัพยากรทั้งหมดภายใน HTML
save_options.parts_embedding_mode = ap.HtmlSaveOptions.PartsEmbeddingModes.EMBED_ALL_INTO_HTML

// การระบุโฟลเดอร์แยกต่างหากสำหรับ PDF เป็น HTML พร้อมรูปภาพ
save_options.special_folder_for_all_images = "ImagesFolder"

// ระบุตัวเลือกการแยกสำหรับ HTML ผลลัพธ์ลงในหลายหน้า
save_options.split_into_pages = True

document.save(output_pdf, save_options)

PDF Parsing Library สนับสนุนการบันทึก PDF เป็น HTML โดยรวมเช่นเดียวกับทรัพยากรที่ฝังตัวรวมทั้งภาพขั้นตอนของการแปลงเป็นเช่นเดียวกับ PDF เป็นรูปแบบอื่น ๆ สำหรับกรณีทั่วไปเช่นการโหลดเอกสารต้นฉบับและเรียกวิธีการบันทึกด้วยเส้นทางไฟล์ที่ส่งออก HTML และ SaveFormat.Html เป็นพารามิเตอร์ในกรณีของการประหยัดกับทรัพยากรที่ฝังตัวมี ระดับ HtmlSaveOptions มีหลายตัวเลือกเช่นการบันทึกภาพไปยังโฟลเดอร์เฉพาะในระหว่างการแปลงแยก HTML ผลลัพธ์ลงในหลายหน้าและอื่น ๆ

แปลงไฟล์ PDF เป็นรูปภาพ

ตัวอย่าง: รหัส C# สำหรับการแปลงไฟล์ PDF เป็นรูปภาพ

import aspose.pdf as ap

input_pdf = DIR_INPUT + "many_pages.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_jpeg"
imageStream = io.FileIO(output_pdf + "_page_1_out.jpeg", "x")

// โหลดเอกสาร
document = ap.Document(input_pdf)

// สร้างวัตถุความละเอียด
resolution = ap.devices.Resolution(300)

// สร้างอุปกรณ์ภาพที่มีแอตทริบิวต์ที่ระบุ
// ความกว้าง, ความสูง, ความละเอียด
device = ap.devices.JpegDevice(resolution)
// สำหรับ BMP, PNG, TIFF จะเป็น BMPDevice, PNGDevice, TiffDevice ตามลำดับ

// แปลงหน้าใดหน้าหนึ่งและบันทึกภาพเพื่อสตรีม
device.process(document.pages[i + 1], imageStream)

// ปิดสตรีม
imageStream.close()

แปลงหน้า PDF เป็นภาพรวมทั้ง PNG, JPEG, TIFF, BMP ฯลฯ เป็นเรื่องง่ายในการใช้งานตาม .NET โดยใช้ข้อมูลโค้ดที่ระบุไว้ด้านล่างนักพัฒนาสามารถวนผ่านหน้า PDF หลังจากโหลดไฟล์และแปลงหน้าโดยหน้าเป็นรูปแบบภาพที่ต้องการผู้พัฒนาสามารถตั้งค่าความละเอียดขอบฟ้าและแนวตั้งของภาพโดยใช้ ระดับความละเอียด