PHP の PDF からテキストを抽出

{{製品名}} を使って PDF からテキストを抽出する方法

PHP via Java の Aspose.PDF を使って PDF からテキストを抽出する方法

テキスト PDF ファイルを抽出するには、php-java プラットフォーム向けの機能豊富で強力で使いやすいドキュメント操作 API である Aspose.PDF for .NET API を使用します。NuGet パッケージマネージャーを開き、Aspose.PDF を検索してインストールします。パッケージマネージャーコンソールから以下のコマンドを使用することもできます。

PHP の PDF からテキストを抽出


ご使用の環境でコードを試すには Aspose.PDF ライブラリ が必要です。

  1. PDF に Document のインスタンスをロードします。
  2. TextAbSorber オブジェクトを作成してテキストを抽出します。
  3. すべてのページにアブソーバーを取り付けてください。
  4. 抽出したテキストを取得
  5. ライターを作成してファイルを開き、そのファイルにテキストを 1 行書き込む

PHP を使って PDF からテキストを抽出する

このサンプルコードは、PDF ドキュメントからテキストを抽出する方法を示しています。

Input file:

File not added

Output format:

PDF

Output file:


    // Create a new Document object from the input PDF file.
    $document = new Document($inputFile);

    // Create a new TextAbsorber object to extract text from the document.
    $textAbsorber = new TextAbsorber();

    // Extract text from the document.
    $textAbsorber->visit($document);

    // Get the extracted text content.
    $content = $textAbsorber->getText();

    // Save the extracted text to the output file.
    file_put_contents($outputFile, $content);

    $document->close();

Aspose.PDF for PHP via Java API について

.NET ライブラリでは、サポートされている任意のダウンロード形式のドキュメントを、サポートされている任意の保存形式に結合できます。Aspose.PDF for .NET ライブラリには、文書結合のタスクを解決するのに役立つ、かなり汎用的なソリューションが用意されています。Aspose.PDF は、ロードと保存の両方で、最も一般的なドキュメントフォーマットを多数サポートしています。現在のセクションでは一般的なマージについてのみ説明していることに注意してください。現在のページには、TEXT から {{FILERESULT}} へのマージに関する情報が掲載されています。ただし、ファイルのマージにはさまざまな組み合わせがあります。サポートされている形式の完全なリストについては、サポートされているファイル形式 のセクションを参照してください。