Konversi Dokumen PDF melalui .NET

Ekspor PDF ke Microsoft Office® Word, Excel, Presentasi PowerPoint, Gambar, HTML, dan format tata letak tetap

Ringkasan

Ada beberapa kasus ketika ada kebutuhan untuk memanipulasi dokumen lain kemudian PDF sementara memiliki data parsing tersedia dalam format PDF. Jadi untuk aplikasi semacam itu akan ada dua skenario baik mereka menambahkan fungsionalitas parsing PDF dalam solusi mereka sendiri atau menambahkan fungsionalitas konversi PDF untuk memanipulasi data pada format yang didukung. Untuk skenario kedua untuk mengkonversi PDF ke Word**, Excel, HTML, Gambar atau format yang diperlukan, menerapkan ** C# PDF reader dan converter** kode dalam .NET berbasis sederhana. Kami membahas di sini beberapa kasus sehingga programmer dapat memodifikasi cuplikan kode konversi ini sesuai kebutuhan mereka.

Konversi PDF ke Microsoft Word 2003-2019

Contoh: Kode C# untuk Konversi PDF ke Word

// Muat file PDF sumber
Document pdfFile = new Document("Source-PDF-File.pdf");

// Hanya untuk Konversi PDF ke Word yang sederhana

// pdfFile.Save("PDF-To-Word.doc", SaveFormat.Doc);

// Simpan menggunakan opsi simpan
// Buat objek DocSaveOptions
DocSaveOptions saveOpts = new DocSaveOptions();

// Atur mode pengenalan sebagai Flow berarti mode pengenalan penuh
saveOpts.Mode = DocSaveOptions.RecognitionMode.Flow;

// Dua mode lainnya adalah RecognitionMode.textBox dan RecognitionMode.EnhancedFlow

// Atur kedekatan Horizontal sebagai 2.5
saveOpts.RelativeHorizontalProximity = 2.5f;

// Aktifkan nilai untuk mengenali peluru selama proses konversi
saveOpts.RecognizeBullets = true;

// Simpan file DOC yang dihasilkan
pdfFile.Save("PDF-To-Word.doc", saveOpts);

Aspose.PDF untuk pustaka .NET mendukung semua konversi PDF ke Word. Jika kita hanya mengonversi dokumen Microsoft Word tanpa pengaturan khusus, kita cukup memuat file PDF menggunakan metode Simpan dari kelas Dokumen dan akan digunakan dengan jalur dokumen Word keluaran dan saveFormat sebagai parameter. Untuk kasus khusus di mana ada kebutuhan untuk meningkatkan jarak garis, resolusi gambar, dan pengaturan lainnya, API memiliki kelas DocSaveOptions yang mengekspos semua pengaturan tersebut.

Simpan PDF sebagai File Excel

Simpan PDF sebagai File Excel

// Muat dokumen PDF
Document pdfDoc = new Document("sample-file.pdf");
// Inisialisasi ExcelSaveOptions
ExcelSaveOptions opts = new ExcelSaveOptions();
// Atur format Excel XLSX keluaran
opts.Format = ExcelSaveOptions.ExcelFormat.XLSX;
// Minimalkan jumlah Lembar Kerja
opts.MinimizeTheNumberOfWorksheets = true;
// Konversi PDF ke file keluaran Excel
pdfDoc.Save("pdf-to-excel-output.xlsx", opts);

Khusus SaveFormat.excel Pencacahan tersedia untuk menyimpan PDF ke format output Microsoft Excel XLS XLSX tertentu. Selain itu, .NET PDF Library juga memiliki speicific ExcelSaveOptions kelas yang tidak hanya transaksi menyimpan ke format Excel tetapi juga menyediakan fungsi yang berbeda dan properti untuk pengaturan atribut yang berbeda seperti format output yang tepat, meminimalkan jumlah lembar kerja dan banyak lagi.

Konversi PDF ke Presentasi PowerPoint

Contoh: C# Kode PDF ke Konversi PowerPoint

// Muat dokumen PDF
Document pdfDocument = new Document("document.pdf");
PptxSaveOptions pptxOptions = new PptxSaveOptions();
pptxOptions.SlidesAsImages = true;
// Simpan berkas keluaran
pdfDocument.Save("PDF to PPT.ppt", pptxOptions);

.NET PDF API mendukung konversi halaman PDF ke Slide Presentasi PowerPoint dengan teks atau gambar yang dapat dipilih dengan merender slide sebagai gambar. Pola menyimpan Portable Document Format ke PowerPoint hampir sama, Memuat file menggunakan kelas Document dan kemudian memanggil metode Simpan dengan path file output dan saveFormat sebagai parameter. Dalam hal rendering dengan opsi presentasi khusus, Programmer dapat menggunakan kelas pptxsaveOptions dengan opsi rendering spesifik yang relevan. Memanggil metode save dan meneruskan opsi sebagai parameter.

Format Dokumen Portabel Konversi PDF ke HTML

Contoh: Kode C# untuk Konversi PDF ke HTML

// Memuat dokumen PDF sumber
Document doc = new Document("source-input-file.pdf");

// Instantiate HTML Simpan pilihan objek
HtmlSaveOptions conversionOptions = new HtmlSaveOptions();

// Mengaktifkan opsi untuk menanamkan semua sumber daya di dalam HTML
conversionOptions.PartsEmbeddingMode = HtmlSaveOptions.PartsEmbeddingModes.EmbedAllIntoHtml;

// Menentukan folder terpisah untuk PDF ke HTML dengan Images
conversionOptions.SpecialFolderForAllImages = "ImagesFolder";

// Menentukan opsi pemisahan untuk HTML yang dihasilkan menjadi beberapa halaman
conversionOptions.SplitIntoPages = true;

doc.Save("converted-pdf-to.html", conversionOptions);

PDF Parsing Library mendukung penyimpanan PDF ke HTML secara keseluruhan serta dengan sumber daya tertanam termasuk gambar. Prosedur konversi sama dengan PDF ke format lain untuk kasus generik, seperti memuat dokumen sumber dan memanggil metode Simpan dengan jalur file HTML keluaran dan SaveFormat.Html sebagai parameter. Dalam kasus menyimpan dengan sumber daya tertanam, ada HTMLSaveOptions kelas memiliki beberapa pilihan seperti menyimpan gambar ke folder tertentu selama konversi, membagi HTML yang dihasilkan menjadi beberapa halaman dan banyak lagi.

Konversi PDF ke Gambar

Contoh: Kode C# untuk konversi PDF ke Gambar

// Memuat dokumen
Document srcFile = new Document("pdf-pages-to-image.pdf");

using (FileStream streamObj = new FileStream("pdf-to-image.jpeg", FileMode.Create)){

// Buat objek Resolusi
Resolution resolution = new Resolution(300);

// Buat perangkat Image dengan atribut tertentu
// Lebar, Tinggi, Resolusi
JpegDevice renderToImages = new JpegDevice(500, 700, resolution);
// Untuk BMP, PNG, TIFF itu akan menjadi BMPDevice, PNGDevice, TiffDevice masing-masing

// Konversi halaman tertentu dan simpan gambar ke streaming
renderToImages.Process(srcFile.Pages[1], streamObj);

// Tutup aliran
streamObj.Close();
}

Mengkonversi halaman PDF menjadi gambar termasuk PNG, JPEG, TIFF, BMP dll mudah dalam aplikasi berbasis .NET menggunakan cuplikan kode yang tercantum di bawah ini. Pengembang dapat loop melalui halaman PDF setelah memuat file dan mengkonversi Page by Page ke format gambar yang diperlukan. Pengembang dapat mengatur resolusi horizontal dan vertikal gambar menggunakan Resolution class