Java 経由の PDF ドキュメント変換

PDF を Microsoft Office® Word、Excel、PowerPoint プレゼンテーション、画像、HTML、および固定レイアウト形式にエクスポート

概要

解析データをPDF形式で利用できるようにしながら、PDF以外の文書を操作する必要があるケースはほとんどありません。したがって、そのようなアプリケーションには、独自のソリューション内にPDF解析の機能を追加するか、サポートされている形式のデータを操作するPDF変換機能を追加する2つのシナリオがあります。PDFをWordに変換、Excel、HTML、画像、または必要な形式にする2番目のシナリオでは、C# PDFリーダーおよびコンバーターコードを.NETベースで実装するのは簡単です。ここでは、プログラマがこれらの変換コードスニペットを要件に応じて変更できるように、いくつかのケースについて説明します。

PDF からマイクロソフトワード 2003-2019 への変換

例:PDF から Word への変換用の C# コード

// ソース PDF ファイルを読み込む
Document pdfFile = new Document("Source-PDF-File.pdf");

// 保存オプションを使用して保存する
// docSaveOptions オブジェクトの作成
DocSaveOptions saveOptions = new DocSaveOptions();

// 認識モードを「フロー」は完全認識モードを意味するように設定します
saveOptions.setMode(DocSaveOptions.RecognitionMode.Flow);

// 他の2つのモードは、認識モード.テキストボックスと認識モードです。EnhancedFlow

// [水平方向の近さ] を 2.5 に設定します
saveOptions.setRelativeHorizontalProximity(2.5f);

// 変換プロセス中に値が箇条書きを認識できるようにする
saveOptions.setRecognizeBullets(true);

// 結果の DOC ファイルを保存する
pdfDocument.save(docFile.toString(), saveOptions);

.NET ライブラリ用 Aspose.PDF はすべての PDF から Word への変換をサポートしています。特別な設定を行わずに Microsoft Word ドキュメントを変換するだけの場合は、Document クラスの Save メソッドを使用して PDF ファイルをロードし、出力 Word ドキュメントパスと SaveFormat をパラメータとして使用します。線の距離、画像の解像度などの設定を強化する必要がある特別なケースのために、APIにはそのような設定をすべて公開するDocSaveOptionsクラスがあります。

PDF を Excel ファイルとして保存

PDF を Excel ファイルとして保存

// PDF ドキュメントを読み込む
Document pdfDoc = new Document("sample-file.pdf");
// Excel の保存オプションを初期化する
ExcelSaveOptions excelSave = new ExcelSaveOptions();
// 出力 Excel XLSX フォーマットの設定
excelSave.setFormat(ExcelSaveOptions.ExcelFormat.XLSX);
// ワークシートの数を最小限に抑える
excelsave.setMinimizeTheNumberOfWorksheets(true);
// PDF を Excel 出力ファイルに変換
pdfDoc.Save("pdf-to-excel-output.xlsx", excelSave);

特殊な SaveFormat.Excel PDF を特定のマイクロソフトエクセル XLS XLSX 出力フォーマットに保存するための列挙型です。さらに、.NET PDFライブラリには、Excel形式への保存を処理するだけでなく、正確な出力形式、最小化などのさまざまな属性を設定するためのさまざまな関数とプロパティを提供する特定の [ExcelSaveOptionsクラス](https://apireference.aspose.com/pdf/net/aspose.pdf/excelsaveoptions)もあります。ワークシートの数など。

PDF をパワーポイントプレゼンテーションに変換

例:C# コード PDF からパワーポイントへの変換

// PDF ドキュメントを読み込む
Document pdfDocument = new Document("document.pdf");
PptxSaveOptions pptxOptions = new PptxSaveOptions();
pptxOptions.setSlidesAsImages(true);
// 出力ファイルを保存する
pdfDocument.save("PDF to PPT.pptx", pptxOptions);

.NET PDF API では、スライドを画像としてレンダリングすることで、PDF ページを選択可能なテキストまたは画像を含む PowerPoint プレゼンテーションスライドに変換できます。ポータブルドキュメントフォーマットをPowerPointに保存するパターンは、Documentクラスを使用してファイルをロードし、出力ファイルパスとSaveFormatをパラメータとしてSaveメソッドを呼び出すというパターンとほぼ同じです。特別な表示オプションを使用してレンダリングする場合、プログラマは pptxSaveOptions クラス を関連する特定のレンダリングオプションとともに使用できます。save メソッドを呼び出し、オプションをパラメータとして渡します。

ポータブルドキュメントフォーマット PDF から HTML への変換

例:PDF から HTML への変換のための C# コード

// ソース PDF ドキュメントを読み込む
Document doc = new Document("source-input-file.pdf");

// HTML 保存オプションオブジェクトのインスタンス化
HtmlSaveOptions conversionOptions = new HtmlSaveOptions();

// HTML内にすべてのリソースを埋め込むオプションを有効にする
conversionOptions.PartsEmbeddingMode = HtmlSaveOptions.PartsEmbeddingModes.EmbedAllIntoHtml;

// 画像付きPDFからHTMLへの別フォルダの指定
conversionOptions.SpecialFolderForAllImages = "ImagesFolder";

// 結果の HTML を複数のページに分割するオプションを指定する
conversionOptions.setSplitIntoPages(true);

doc.save("converted-pdf-to.html", conversionOptions);

PDF解析ライブラリは、画像を含む埋め込みリソースだけでなく、PDFからHTMLへの保存もサポートしています。変換の手順は、ソースドキュメントをロードし、出力 HTML ファイルパスと SaveFormat.Html をパラメータとして Save メソッドを呼び出すなど、一般的な場合の PDF から他の形式への変換手順と同じです。埋め込みリソースで保存する場合、HtmlSaveOptions クラス があり、変換中に特定のフォルダーに画像を保存したり、結果のHTMLを複数のページに分割したりするなど、複数のオプションがあります。

PDFを画像に変換

例:PDF から画像への変換用の C# コード

// ドキュメントをロード
Document srcFile = new Document("pdf-pages-to-image.pdf");

java.io.OutputStream outputBinImageFile = new java.io.FileOutputStream(
                    _dataDir + "image" + pageCount + "_out." + ext);

// Resolution オブジェクトの作成
Resolution resolution = new Resolution(300);

// 指定した属性でイメージデバイスを作成する
// 幅、高さ、解像度
JpegDevice renderToImages = new JpegDevice(500, 700, resolution);
// BMP、PNG、TIFFの場合は、それぞれbmpDevice、PNGDevice、TIFFDeviceになります

// 特定のページを変換し、画像をストリームに保存する
renderToImages.Process(srcFile.Pages[1], outputBinImageFile);

// ストリームを閉じる
outputBinImageFile.Close();

.NETベースのアプリケーションでは、以下のコードスニペットを使用して、PDFページをPNG、JPEG、TIFF、BMPなどの画像に簡単に変換できます。開発者は、ファイルをロードした後にPDFページをループし、ページごとに必要な画像形式に変換できます。開発者は、解像度クラス を使用して画像の水平解像度と垂直解像度を設定できます