Python for .NET 経由の PDF ドキュメント変換

PDF を Microsoft Office® Word、Excel、PowerPoint プレゼンテーション、画像、HTML、および固定レイアウト形式にエクスポート

C# Java C++ Python

概要

解析データをPDF形式で利用できるようにしながら、PDF以外の文書を操作する必要があるケースはほとんどありません。したがって、そのようなアプリケーションには、独自のソリューション内にPDF解析の機能を追加するか、サポートされている形式のデータを操作するPDF変換機能を追加する2つのシナリオがあります。PDFをWordに変換、Excel、HTML、画像、または必要な形式にする2番目のシナリオでは、C# PDFリーダーおよびコンバーターコードを.NETベースで実装するのは簡単です。ここでは、プログラマがこれらの変換コードスニペットを要件に応じて変更できるように、いくつかのケースについて説明します。

PDF からマイクロソフトワード 2003-2019 への変換

例:PDF から Word への変換用の C# コード

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc.doc"

// ソース PDF ファイルを読み込む
document = ap.Document(input_pdf)

// 保存オプションを使用して保存する
// docSaveOptions オブジェクトの作成
 save_options = ap.DocSaveOptions()
save_options.format = ap.DocSaveOptions.DocFormat.DOCX

// 認識モードを「フロー」は完全認識モードを意味するように設定します
save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW

// 他の2つのモードは、認識モード.テキストボックスと認識モードです。EnhancedFlow

// [水平方向の近さ] を 2.5 に設定します
save_options.relative_horizontal_proximity = 2.5

// 変換プロセス中に値が箇条書きを認識できるようにする
save_options.recognize_bullets = True

// 結果の DOC ファイルを保存する
document.save(output_pdf, save_options)

.NET ライブラリ用 Aspose.PDF はすべての PDF から Word への変換をサポートしています。特別な設定を行わずに Microsoft Word ドキュメントを変換するだけの場合は、Document クラスの Save メソッドを使用して PDF ファイルをロードし、出力 Word ドキュメントパスと SaveFormat をパラメータとして使用します。線の距離、画像の解像度などの設定を強化する必要がある特別なケースのために、APIにはそのような設定をすべて公開するDocSaveOptionsクラスがあります。

PDF to WORD PDF to DOC PDF to DOCX

PDF を Excel ファイルとして保存

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_excel.xlsx"
// PDF ドキュメントを読み込む
document = ap.Document(input_pdf)
// Excel の保存オプションを初期化する
save_option = ap.ExcelSaveOptions()
// 出力 Excel XLSX フォーマットの設定
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
// ワークシートの数を最小限に抑える
save_option.minimize_the_number_of_worksheets = True
// PDF を Excel 出力ファイルに変換
document.save(output_pdf, save_option)

特殊な SaveFormat.Excel PDF を特定のマイクロソフトエクセル XLS XLSX 出力フォーマットに保存するための列挙型です。さらに、.NET PDFライブラリには、Excel形式への保存を処理するだけでなく、正確な出力形式、最小化などのさまざまな属性を設定するためのさまざまな関数とプロパティを提供する特定の [ExcelSaveOptionsクラス](https://apireference.aspose.com/pdf/net/aspose.pdf/excelsaveoptions）もあります。ワークシートの数など。

PDF to EXCEL PDF to XLS PDF to XLSX

PDF をパワーポイントプレゼンテーションに変換

例:C# コード PDF からパワーポイントへの変換

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_pptx.pptx
// PDF ドキュメントを読み込む
document = ap.Document(input_pdf)
save_option = ap.PptxSaveOptions()
save_option.slides_as_images = True
// 出力ファイルを保存する
document.save(output_pdf, save_option)

.NET PDF API では、スライドを画像としてレンダリングすることで、PDF ページを選択可能なテキストまたは画像を含む PowerPoint プレゼンテーションスライドに変換できます。ポータブルドキュメントフォーマットをPowerPointに保存するパターンは、Documentクラスを使用してファイルをロードし、出力ファイルパスとSaveFormatをパラメータとしてSaveメソッドを呼び出すというパターンとほぼ同じです。特別な表示オプションを使用してレンダリングする場合、プログラマは pptxSaveOptions クラスを関連する特定のレンダリングオプションとともに使用できます。save メソッドを呼び出し、オプションをパラメータとして渡します。

ポータブルドキュメントフォーマット PDF から HTML への変換

例:PDF から HTML への変換のための C# コード

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_html.html"

// ソース PDF ドキュメントを読み込む
document = ap.Document(input_pdf)

// HTML 保存オプションオブジェクトのインスタンス化
save_options = ap.HtmlSaveOptions()

// HTML内にすべてのリソースを埋め込むオプションを有効にする
save_options.parts_embedding_mode = ap.HtmlSaveOptions.PartsEmbeddingModes.EMBED_ALL_INTO_HTML

// 画像付きPDFからHTMLへの別フォルダの指定
save_options.special_folder_for_all_images = "ImagesFolder"

// 結果の HTML を複数のページに分割するオプションを指定する
save_options.split_into_pages = True

document.save(output_pdf, save_options)

PDF解析ライブラリは、画像を含む埋め込みリソースだけでなく、PDFからHTMLへの保存もサポートしています。変換の手順は、ソースドキュメントをロードし、出力 HTML ファイルパスと SaveFormat.Html をパラメータとして Save メソッドを呼び出すなど、一般的な場合の PDF から他の形式への変換手順と同じです。埋め込みリソースで保存する場合、HtmlSaveOptions クラスがあり、変換中に特定のフォルダーに画像を保存したり、結果のHTMLを複数のページに分割したりするなど、複数のオプションがあります。

PDF to HTML PDF to TEXT PDF to SVG

PDFを画像に変換

例:PDF から画像への変換用の C# コード

import aspose.pdf as ap

input_pdf = DIR_INPUT + "many_pages.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_jpeg"
imageStream = io.FileIO(output_pdf + "_page_1_out.jpeg", "x")

// ドキュメントをロード
document = ap.Document(input_pdf)

// Resolution オブジェクトの作成
resolution = ap.devices.Resolution(300)

// 指定した属性でイメージデバイスを作成する
// 幅、高さ、解像度
device = ap.devices.JpegDevice(resolution)
// BMP、PNG、TIFFの場合は、それぞれbmpDevice、PNGDevice、TIFFDeviceになります

// 特定のページを変換し、画像をストリームに保存する
device.process(document.pages[i + 1], imageStream)

// ストリームを閉じる
imageStream.close()

.NETベースのアプリケーションでは、以下のコードスニペットを使用して、PDFページをPNG、JPEG、TIFF、BMPなどの画像に簡単に変換できます。開発者は、ファイルをロードした後にPDFページをループし、ページごとに必要な画像形式に変換できます。開発者は、解像度クラスを使用して画像の水平解像度と垂直解像度を設定できます

PDF to TIFF PDF to PNG PDF to GIF