C++ で PDF を抽出

C++ ライブラリを使用して PDF からテキストと画像を抽出する方法

Parser で最もよく使われるアクション

C++ ライブラリを使用して PDF を抽出する方法

PDF を抽出する必要がありますか?プログラムによる PDF 文書の修正は、現代のデジタルワークフローに欠かせない要素です。Aspose.PDF のような C++ ライブラリを使用すると、開発者は PDF からテキストを抽出したり、PDF から画像を抽出したりできます。これらのライブラリは他のソフトウェアに依存しないスタンドアロンソリューションであり、すぐに商用利用が可能です。プロの C++ 開発者のあらゆるニーズに応えます。

  • PDF データ (テキスト、画像、フォーム、フィールドなど) を抽出
  • PDF からテキストを抽出
  • PDF から画像を抽出
  • PDF からフォントを抽出
  • フォームからデータを抽出
  • スタンプからテキストを抽出
  • テーブルからデータを抽出

PDF ファイルを抽出するには、cpp プラットフォーム向けの機能豊富で強力で使いやすいドキュメント操作 API である Aspose.PDF for C++ API を使用します。NuGet パッケージマネージャーを開き、Aspose.PDF を検索してインストールします。パッケージマネージャーコンソールから以下のコマンドを使用することもできます。

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

C++ 経由で PDF を解析


ご使用の環境でコードを試すには Aspose.PDF for C++ が必要です。

1。Document のインスタンスを持つ PDF を読み込みます。 1。テキストを抽出する TextAbsorber オブジェクトを作成します。 1。すべてのページの吸収材を受け入れます。 1。抽出したテキストを取得する 1。ライターを作成してファイルを開き、ファイルにテキスト行を書き込みます

PDF ファイルの抽出-C++

このサンプルコードは、PDF ドキュメントを抽出する方法を示しています。

Input file:

File not added

Output format:

PDF

Output file:


    void ExtractTextFromAllThePages() {

    std::clog << __func__ << ": Start" << std::endl;
    // String for path name
    String _dataDir("C:\\Samples\\Parsing\\");

    // String for file name
    String infilename("sample-4pages.pdf");
    String outfilename("extracted-text.txt");

    // Open document
    auto document = MakeObject<Document>(_dataDir + infilename);

    // Create TextAbsorber object to extract text
    auto textAbsorber = MakeObject<TextAbsorber>();
    // Accept the absorber for all the pages
    document->get_Pages()->Accept(textAbsorber);
    // Get the extracted text
    auto extractedText = textAbsorber->get_Text();

    System::IO::File::WriteAllText(_dataDir + outfilename, extractedText);
    std::clog << __func__ << ": Finish" << std::endl;
}

C++ API の Aspose.PDF について

Aspose.PDF for C++ は、開発者が Adobe Acrobat を使用せずに PDF ドキュメントを作成、読み取り、操作できるようにする強力な処理ライブラリです。フォームの作成、テキストの追加/編集、PDF ページの操作、注釈の追加、カスタムフォントの処理など、さまざまな機能を備えています。

Aspose.PDF for C++ は、開発者がアプリケーションに PDF 処理機能を追加できるようにするライブラリです。API を使用すると、Adobe Acrobat を使用せずに PDF ファイルを生成、読み取り、変換、操作するためのあらゆるタイプの 32 ビットおよび 64 ビットアプリケーションを構築できます。

すべてのクラスとメソッドの詳細な説明と例は、API リファレンスの C++ ライブラリ用 Aspose.PDF にあります。また、ドキュメンテーション を見ることもお勧めします。