Konversi Dokumen PDF melalui Python for .NET

Ekspor PDF ke Microsoft Office® Word, Excel, Presentasi PowerPoint, Gambar, HTML, dan format tata letak tetap

Ringkasan

Ada beberapa kasus ketika ada kebutuhan untuk memanipulasi dokumen lain kemudian PDF sementara memiliki data parsing tersedia dalam format PDF. Jadi untuk aplikasi semacam itu akan ada dua skenario baik mereka menambahkan fungsionalitas parsing PDF dalam solusi mereka sendiri atau menambahkan fungsionalitas konversi PDF untuk memanipulasi data pada format yang didukung. Untuk skenario kedua untuk mengkonversi PDF ke Word**, Excel, HTML, Gambar atau format yang diperlukan, menerapkan ** C# PDF reader dan converter** kode dalam .NET berbasis sederhana. Kami membahas di sini beberapa kasus sehingga programmer dapat memodifikasi cuplikan kode konversi ini sesuai kebutuhan mereka.

Konversi PDF ke Microsoft Word 2003-2019

Contoh: Kode C# untuk Konversi PDF ke Word

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc.doc"

// Muat file PDF sumber
document = ap.Document(input_pdf)

// Simpan menggunakan opsi simpan
// Buat objek DocSaveOptions
 save_options = ap.DocSaveOptions()
save_options.format = ap.DocSaveOptions.DocFormat.DOCX

// Atur mode pengenalan sebagai Flow berarti mode pengenalan penuh
save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW

// Dua mode lainnya adalah RecognitionMode.textBox dan RecognitionMode.EnhancedFlow

// Atur kedekatan Horizontal sebagai 2.5
save_options.relative_horizontal_proximity = 2.5

// Aktifkan nilai untuk mengenali peluru selama proses konversi
save_options.recognize_bullets = True

// Simpan file DOC yang dihasilkan
document.save(output_pdf, save_options)

Aspose.PDF untuk pustaka .NET mendukung semua konversi PDF ke Word. Jika kita hanya mengonversi dokumen Microsoft Word tanpa pengaturan khusus, kita cukup memuat file PDF menggunakan metode Simpan dari kelas Dokumen dan akan digunakan dengan jalur dokumen Word keluaran dan saveFormat sebagai parameter. Untuk kasus khusus di mana ada kebutuhan untuk meningkatkan jarak garis, resolusi gambar, dan pengaturan lainnya, API memiliki kelas DocSaveOptions yang mengekspos semua pengaturan tersebut.

Simpan PDF sebagai File Excel

Simpan PDF sebagai File Excel

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_excel.xlsx"
// Muat dokumen PDF
document = ap.Document(input_pdf)
// Inisialisasi ExcelSaveOptions
save_option = ap.ExcelSaveOptions()
// Atur format Excel XLSX keluaran
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
// Minimalkan jumlah Lembar Kerja
save_option.minimize_the_number_of_worksheets = True
// Konversi PDF ke file keluaran Excel
document.save(output_pdf, save_option)

Khusus SaveFormat.excel Pencacahan tersedia untuk menyimpan PDF ke format output Microsoft Excel XLS XLSX tertentu. Selain itu, .NET PDF Library juga memiliki speicific ExcelSaveOptions kelas yang tidak hanya transaksi menyimpan ke format Excel tetapi juga menyediakan fungsi yang berbeda dan properti untuk pengaturan atribut yang berbeda seperti format output yang tepat, meminimalkan jumlah lembar kerja dan banyak lagi.

Konversi PDF ke Presentasi PowerPoint

Contoh: C# Kode PDF ke Konversi PowerPoint

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_pptx.pptx
// Muat dokumen PDF
document = ap.Document(input_pdf)
save_option = ap.PptxSaveOptions()
save_option.slides_as_images = True
// Simpan berkas keluaran
document.save(output_pdf, save_option)

.NET PDF API mendukung konversi halaman PDF ke Slide Presentasi PowerPoint dengan teks atau gambar yang dapat dipilih dengan merender slide sebagai gambar. Pola menyimpan Portable Document Format ke PowerPoint hampir sama, Memuat file menggunakan kelas Document dan kemudian memanggil metode Simpan dengan path file output dan saveFormat sebagai parameter. Dalam hal rendering dengan opsi presentasi khusus, Programmer dapat menggunakan kelas pptxsaveOptions dengan opsi rendering spesifik yang relevan. Memanggil metode save dan meneruskan opsi sebagai parameter.

Format Dokumen Portabel Konversi PDF ke HTML

Contoh: Kode C# untuk Konversi PDF ke HTML

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_html.html"

// Memuat dokumen PDF sumber
document = ap.Document(input_pdf)

// Instantiate HTML Simpan pilihan objek
save_options = ap.HtmlSaveOptions()

// Mengaktifkan opsi untuk menanamkan semua sumber daya di dalam HTML
save_options.parts_embedding_mode = ap.HtmlSaveOptions.PartsEmbeddingModes.EMBED_ALL_INTO_HTML

// Menentukan folder terpisah untuk PDF ke HTML dengan Images
save_options.special_folder_for_all_images = "ImagesFolder"

// Menentukan opsi pemisahan untuk HTML yang dihasilkan menjadi beberapa halaman
save_options.split_into_pages = True

document.save(output_pdf, save_options)

PDF Parsing Library mendukung penyimpanan PDF ke HTML secara keseluruhan serta dengan sumber daya tertanam termasuk gambar. Prosedur konversi sama dengan PDF ke format lain untuk kasus generik, seperti memuat dokumen sumber dan memanggil metode Simpan dengan jalur file HTML keluaran dan SaveFormat.Html sebagai parameter. Dalam kasus menyimpan dengan sumber daya tertanam, ada HTMLSaveOptions kelas memiliki beberapa pilihan seperti menyimpan gambar ke folder tertentu selama konversi, membagi HTML yang dihasilkan menjadi beberapa halaman dan banyak lagi.

Konversi PDF ke Gambar

Contoh: Kode C# untuk konversi PDF ke Gambar

import aspose.pdf as ap

input_pdf = DIR_INPUT + "many_pages.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_jpeg"
imageStream = io.FileIO(output_pdf + "_page_1_out.jpeg", "x")

// Memuat dokumen
document = ap.Document(input_pdf)

// Buat objek Resolusi
resolution = ap.devices.Resolution(300)

// Buat perangkat Image dengan atribut tertentu
// Lebar, Tinggi, Resolusi
device = ap.devices.JpegDevice(resolution)
// Untuk BMP, PNG, TIFF itu akan menjadi BMPDevice, PNGDevice, TiffDevice masing-masing

// Konversi halaman tertentu dan simpan gambar ke streaming
device.process(document.pages[i + 1], imageStream)

// Tutup aliran
imageStream.close()

Mengkonversi halaman PDF menjadi gambar termasuk PNG, JPEG, TIFF, BMP dll mudah dalam aplikasi berbasis .NET menggunakan cuplikan kode yang tercantum di bawah ini. Pengembang dapat loop melalui halaman PDF setelah memuat file dan mengkonversi Page by Page ke format gambar yang diperlukan. Pengembang dapat mengatur resolusi horizontal dan vertikal gambar menggunakan Resolution class