C# 経由で PDF を抽出

.NET ライブラリを使用して PDF からテキストと画像を抽出する方法

C# Java C++ Python

Parser で最もよく使われるアクション

テキストを抽出

画像を抽出

フォントを抽出

.NET ライブラリで PDF を解析する方法

PDF を抽出する必要がありますか?プログラムによる PDF 文書の修正は、現代のデジタルワークフローに欠かせないものです。Aspose.PDF のような.NET ライブラリを使用すると、開発者は PDF からテキストを抽出したり、PDF から画像を取得したりできます。これらのライブラリは、他のソフトウェアに依存しないスタンドアロンソリューションであり、すぐに商用利用が可能です。プロの C# 開発者のあらゆるニーズをカバーしています。

PDF データ (テキスト、画像、フォーム、フィールドなど) を抽出します。
PDF からテキストを抽出
PDF から画像を抽出
PDF からフォントを抽出
フォームからデータを抽出
スタンプからテキストを抽出
テーブルからデータを抽出

PDF ファイルを抽出するには、Aspose.PDF for .NET API を使用します。これは net プラットフォーム向けの機能が豊富で強力で使いやすいドキュメント操作 API です。NuGet パッケージマネージャーを開き、Aspose.PDF を検索してインストールします。パッケージマネージャーコンソールから次のコマンドを使用することもできます。

Package Manager Console

PM > Install-Package Aspose.PDF

C# 経由で PDF を解析

お使いの環境でコードを試すには、Aspose.PDF for .NET が必要です。

PDF に Document のインスタンスをロードします。
TextAbsorber オブジェクトを作成してテキストを抽出します。
すべてのページのアブソーバーを受け入れます。
抽出したテキストを取得
ライターを作成してファイルを開き、ファイルに 1 行のテキストを書き込む

PDF ファイルの抽出-C#

このサンプルコードは、PDF ドキュメントを抽出する方法を示しています。

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

var inputFile = Path.Combine(dataDir, "ExtractTextAll.pdf");
var outputFile = Path.Combine(dataDir, "ExtractedText.txt");
var pdfDocument = new Aspose.Pdf.Document(inputFile);
var textAbsorber = new Aspose.Pdf.Text.TextAbsorber();
pdfDocument.Pages.Accept(textAbsorber);
File.WriteAllText(outputFile, textAbsorber.Text);

Aspose.PDF for .NET API について

Aspose.PDF for .NET API には、PDF ファイルを操作するためのさまざまな機能が用意されています。機能には次のものが含まれます。

PDF 文書を一から作成することも、HTML、XML、画像から PDF 文書を作成することもできます。
ページ、テキスト、画像、その他のコンテンツを追加または削除して、既存の PDF 文書を編集します。
PDF ドキュメントを HTML、XML、画像などの他の形式に変換します。
PDF ドキュメントを画像または XPS 形式にレンダリングします。
PDF ドキュメントをアプリケーションから直接印刷できます。
PDF 文書にデジタル署名できます。

Aspose.PDF for C# API の詳細については、この Aspose ドキュメントを参照してください。