PHP 経由で PDF を抽出

PHP via Java ライブラリを使用して PDF からテキストと画像を抽出する方法

Parser で最もよく使われるアクション

PHP via Java ライブラリで PDF を解析する方法

PDF ファイルを抽出するには、Aspose.PDF for .NET API を使用します。これは php-java プラットフォーム向けの機能が豊富で強力で使いやすいドキュメント操作 API です。NuGet パッケージマネージャーを開き、Aspose.PDF を検索してインストールします。パッケージマネージャーコンソールから次のコマンドを使用することもできます。

PHP 経由で PDF を解析


ご使用の環境でコードを試すには Aspose.PDF library が必要です。

  1. PDF に Document のインスタンスをロードします。
  2. TextAbsorber オブジェクトを作成してテキストを抽出します。
  3. すべてのページのアブソーバーを受け入れます。
  4. 抽出したテキストを取得
  5. ライターを作成してファイルを開き、ファイルに 1 行のテキストを書き込む

PDF ファイルの抽出-PHP

このサンプルコードは、PDF ドキュメントを抽出する方法を示しています。

Input file:

File not added

Output format:

PDF

Output file:


    // Create a new Document object from the input PDF file.
    $document = new Document($inputFile);

    // Create a new TextAbsorber object to extract text from the document.
    $textAbsorber = new TextAbsorber();

    // Extract text from the document.
    $textAbsorber->visit($document);

    // Get the extracted text content.
    $content = $textAbsorber->getText();

    // Save the extracted text to the output file.
    file_put_contents($outputFile, $content);

    $document->close();

Aspose.PDF for PHP via Java API について

.NET ライブラリでは、サポートされている任意のダウンロード形式のドキュメントを、サポートされている任意の保存形式に結合できます。Aspose.PDF for .NET ライブラリには、文書結合のタスクを解決するのに役立つ、かなり汎用的なソリューションが用意されています。Aspose.PDF は、ロードと保存の両方で、最も一般的なドキュメントフォーマットを多数サポートしています。現在のセクションでは一般的なマージについてのみ説明していることに注意してください。現在のページには、{{FILETYPE}} から {{FILERESULT}} へのマージに関する情報が掲載されています。ただし、ファイルのマージにはさまざまな組み合わせがあります。サポートされている形式の完全なリストについては、サポートされているファイル形式 のセクションを参照してください。