C# 経由で PDF を抽出

.NET ライブラリを使用して PDF からテキストと画像を抽出する方法

Parser で最もよく使われるアクション

.NET ライブラリで PDF を解析する方法

PDF を抽出する必要がありますか?プログラムによる PDF 文書の修正は、現代のデジタルワークフローに欠かせないものです。Aspose.PDF のような.NET ライブラリを使用すると、開発者は PDF からテキストを抽出したり、PDF から画像を取得したりできます。これらのライブラリは、他のソフトウェアに依存しないスタンドアロンソリューションであり、すぐに商用利用が可能です。プロの C# 開発者のあらゆるニーズをカバーしています。

  • PDF データ (テキスト、画像、フォーム、フィールドなど) を抽出します。
  • PDF からテキストを抽出
  • PDF から画像を抽出
  • PDF からフォントを抽出
  • フォームからデータを抽出
  • スタンプからテキストを抽出
  • テーブルからデータを抽出

PDF ファイルを抽出するには、Aspose.PDF for .NET API を使用します。これは net プラットフォーム向けの機能が豊富で強力で使いやすいドキュメント操作 API です。NuGet パッケージマネージャーを開き、Aspose.PDF を検索してインストールします。パッケージマネージャーコンソールから次のコマンドを使用することもできます。

Package Manager Console

PM > Install-Package Aspose.PDF

C# 経由で PDF を解析


お使いの環境でコードを試すには、(https://releases.aspose.com/pdf/net) が必要です。

1。PDF に Document のインスタンスをロードします。 1.TextAbsorber オブジェクトを作成してテキストを抽出します。 1.すべてのページのアブソーバーを受け入れます。 1.抽出したテキストを取得 1.ライターを作成してファイルを開き、ファイルに 1 行のテキストを書き込む

PDF ファイルの抽出-C#

このサンプルコードは、PDF ドキュメントを抽出する方法を示しています。

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

    // Create TextAbsorber object to extract text
    TextAbsorber textAbsorber = new TextAbsorber();
    // Accept the absorber for all the pages
    pdfDocument.Pages.Accept(textAbsorber);
    // Get the extracted text
    string extractedText = textAbsorber.Text;
    // Create a writer and open the file
    TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
    // Write a line of text to the file
    tw.WriteLine(extractedText);
    // Close the stream
    tw.Close();

.NET API の Aspose.PDF について

Aspose.PDF for .NET API には、PDF ファイルを操作するためのさまざまな機能が用意されています。機能には次のものが含まれます。

  • PDF 文書を一から作成することも、HTML、XML、画像から PDF 文書を作成することもできます。
  • ページ、テキスト、画像、その他のコンテンツを追加または削除して、既存の PDF 文書を編集します。
  • PDF ドキュメントを HTML、XML、画像などの他の形式に変換します。
  • PDF ドキュメントを画像または XPS 形式にレンダリングします。
  • PDF ドキュメントをアプリケーションから直接印刷できます。
  • PDF 文書にデジタル署名できます。

Aspose.PDF for C# API の詳細については、この Aspose ドキュメント を参照してください。