C# の PDF からテキストを抽出

.NET を使って PDF からテキストを抽出する方法

C# Java C++ Python

.NET の Aspose.PDF を使って PDF からテキストを抽出する方法

PDFからテキストを抽出する必要がありますか？PDF 文書のプログラムによる変更は、現代のデジタルワークフローに欠かせない要素です。Aspose.PDF のような.NET ライブラリを使用すると、開発者は PDF からテキストを抽出できます。これらのライブラリは他のソフトウェアに依存しないスタンドアロンソリューションであり、すぐに商用利用が可能です。プロの C# 開発者のあらゆるニーズに応えます。

PDF からテキストを抽出
PDF から画像を抽出
PDF からフォントを抽出
フォームからデータを抽出
スタンプからテキストを抽出
テーブルからデータを抽出

PDF ファイルからテキストを抽出するには、net プラットフォーム向けの機能豊富で強力で使いやすいドキュメント操作 API である Aspose.PDF for .NET API を使用します。NuGet パッケージマネージャーを開き、Aspose.PDF を検索してインストールします。パッケージマネージャーコンソールから以下のコマンドを使用することもできます。

Package Manager Console

PM > Install-Package Aspose.PDF

C# の PDF からテキストを抽出

ご使用の環境でコードを試すには、Aspose.PDF for .NET が必要です。

PDF に Document のインスタンスをロードします。
TextAbSorber オブジェクトを作成してテキストを抽出します。
すべてのページにアブソーバーを取り付けてください。
抽出したテキストを取得
ライターを作成してファイルを開き、そのファイルにテキストを 1 行書き込む

C# を使って PDF からテキストを抽出する

このサンプルコードは、PDF ドキュメントからテキストを抽出する方法を示しています。

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

var inputFile = Path.Combine(dataDir, "ExtractTextAll.pdf");
var outputFile = Path.Combine(dataDir, "ExtractedText.txt");
var pdfDocument = new Aspose.Pdf.Document(inputFile);
var textAbsorber = new Aspose.Pdf.Text.TextAbsorber();
textAbsorber.TextSearchOptions.LimitToPageBounds = true;
textAbsorber.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
pdfDocument.Pages.Accept(textAbsorber);
File.WriteAllText(outputFile, textAbsorber.Text);

Aspose.PDF for .NET API について

Aspose.PDF for .NET API には、PDF ファイルを操作するためのさまざまな機能が用意されています。機能には次のものが含まれます。

PDF 文書を一から作成することも、HTML、XML、画像から PDF 文書を作成することもできます。
ページ、テキスト、画像、その他のコンテンツを追加または削除して、既存の PDF 文書を編集します。
PDF ドキュメントを HTML、XML、画像などの他の形式に変換します。
PDF ドキュメントを画像または XPS 形式にレンダリングします。
PDF ドキュメントをアプリケーションから直接印刷できます。
PDF 文書にデジタル署名できます。

Aspose.PDF for C# API の詳細については、この Aspose ドキュメントを参照してください。