C#でPDFをSearchable PDFに変換します

PDFドキュメントで光学式文字認識を実行し、.NETライブラリのAspose.OCRを使用してテキストをPDFドキュメントとして保存します。

C#を使用してPDFをSearchable PDFに変換する方法

Aspose.OCR for .NETは、PDF画像をSearchable PDFドキュメントに変換するための、強力でありながら使いやすく、費用対効果の高いライブラリです。ラテン語、キリル文字、中国語に基づく26の言語をサポートする、最先端の光学式文字認識エンジンは、数式、ニューラルネットワーク、その他の複雑な技術的詳細からユーザーを隔離しながら、優れた認識速度と精度を提供します。これにより、10行未満のコードで.NETアプリケーションにOCR機能を追加できます。

[Aspose.OCR for .NET]（https://products.aspose.com/ocr/net）スキャンした画像やスマートフォンの写真をPDF形式で処理し、認識されたテキストを含むPDFドキュメントを作成します。プロジェクトに追加するには、Aspose.OCRをインストールするだけです。 [NuGet]（https://www.nuget.org/packages/aspose.ocr）次のコマンドを使用してプロジェクトにパッケージ化します。

Package Manager Console Command
  PM> Install-Package Aspose.OCR

PDFをSearchable PDFに変換する手順

.NET OCRと数行のコードを使用して、PDF画像をSearchable PDFドキュメントに変換するフル機能のアプリケーションを作成できます。

+AsposeOcrクラスのインスタンスを作成します +AsposeOCR.RecognizeImageメソッドを呼び出します +PDFファイルパスをパラメータとして渡します

AsposeOCR.RecognizeImageは、Searchable PDFタイプの文字列またはファイルを返します

システム要求

例を実行する前に、NET Standard2.0仕様と互換性のある.NETAPIがシステムとすべての[外部依存関係]（https://docs.aspose.com/ocr/net/system-requirements/#external-）にインストールされていることを確認してください。 Aspose.OCRパッケージの依存関係）がプロジェクトで参照されます。

-NETStandard2.0+互換ソリューション -プロジェクトで参照されているAspose.OCRfor.NET。

このサンプルコードは、PDFからSearchable PDF.NETへの変換を示しています
// initialize an instance of AsposeOcr
AsposeOcr ocr = new AsposeOcr();
// recognize image
string riText = ocr.RecognizeImage("template.PDF");
// print text
File. File.WriteAllText("document.Searchable PDF", riText);

PDF とは PDF ファイル形式

Portable Document Format（PDF）は、1990年代にAdobeによって作成されたドキュメントの一種です。このファイル形式の目的は、アプリケーションソフトウェア、ハードウェア、およびオペレーティングシステムに依存しない形式で、ドキュメントやその他の参照資料を表現するための標準を導入することでした。 PDFファイル形式には、テキスト、画像、ハイパーリンク、フォームフィールド、リッチメディア、デジタル署名、添付ファイル、メタデータ、地理空間機能、ソースドキュメントの一部として使用できる3Dオブジェクトなどの情報を含めることができます。

Searchable PDF とは Searchable PDF ファイル形式

検索可能なPDFファイルは、元のスキャン画像を表示用に保持します。また、ドキュメント内の全文検索やコピーアンドペースト操作用のテキストの強調表示に使用できる非表示レイヤーのOCRテキストも保持します。元の画像を含まない完全なOCRからPDFへの変換では、特にドキュメントに多くの画像や複雑なレイアウトがある場合、元のフォーマットが100％保持されることはありません。

その他のサポートされている変換

C#を使用すると、を含むさまざまな形式を簡単に変換できます。

TXT (テキストドキュメントファイル)

Text (テキストドキュメントファイル)

DOC (MicrosoftWordによって生成されたドキュメント)

DOCX (MicrosoftWordドキュメント)

XLS (MicrosoftExcelバイナリファイル形式)

XLSX (MicrosoftExcelドキュメント)

PDF (ポータブルドキュメントフォーマット（PDF）)

Searchable PDF (検索可能なポータブルネットワークグラフィックス)

XML (拡張マークアップ言語)

JSON (JavaScriptオブジェクト表記)

C#でPDFをSearchable PDFに変換します

PDFドキュメントで光学式文字認識を実行し、.NETライブラリのAspose.OCRを使用してテキストをPDFドキュメントとして保存します。

Aspose.OCR .NETの場合

Overview