Python の PDF からテキストを抽出

Python を使って PDF からテキストを抽出する方法

C# Java C++ Python

Python for .NET の Aspose.PDF を使って PDF からテキストを抽出する方法

PDFからテキストを抽出する必要がありますか？PDF 文書のプログラムによる変更は、現代のデジタルワークフローに欠かせない要素です。Aspose.PDF のような Python ライブラリを使用すると、開発者は PDF からテキストを抽出できます。これらのライブラリは他のソフトウェアに依存しないスタンドアロンソリューションであり、すぐに商用利用が可能です。プロの Python 開発者のあらゆるニーズに応えます。

PDF からテキストを抽出
PDF から画像を抽出
PDF からフォントを抽出
フォームからデータを抽出
スタンプからテキストを抽出
テーブルからデータを抽出

PDF ファイルからテキストを抽出するには、python-net プラットフォーム向けの機能豊富で強力で使いやすいドキュメント操作 API である Aspose.PDF for .NET API を使用します。NuGet パッケージマネージャーを開き、Aspose.PDF を検索してインストールします。パッケージマネージャーコンソールから以下のコマンドを使用することもできます。

Console

pip install aspose-pdf

Python の PDF からテキストを抽出

ご使用の環境でコードを試すには、Aspose.PDF for Python が必要です。

PDF に Document のインスタンスをロードします。
TextAbSorber オブジェクトを作成してテキストを抽出します。
すべてのページにアブソーバーを取り付けてください。
抽出したテキストを取得
ライターを作成してファイルを開き、そのファイルにテキストを 1 行書き込む

Python を使って PDF からテキストを抽出する

このサンプルコードは、PDF ドキュメントからテキストを抽出する方法を示しています。

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

import aspose.pdf as apdf
from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

document = apdf.Document(path_infile)
# Create TextAbsorber object to extract text
textAbsorber = apdf.text.TextAbsorber()
document.pages.accept(textAbsorber)
extractedText = textAbsorber.text

with open(path_outfile, 'w') as f:
    f.write(extractedText)

Aspose.PDF for Python for .NET API について

.NET API 経由の Python 用 Aspose.PDF は、確立されている PDF 標準と PDF 仕様のほとんどをサポートしています。開発者は表、グラフ、画像、ハイパーリンク、カスタムフォントなどを PDF ドキュメントに挿入できます。さらに、PDF 文書を圧縮することもできます。.NET 経由の Python 用 Aspose.PDF は、安全な PDF 文書を開発するための優れたセキュリティ機能を備えています。.NET API 経由の Aspose.PDF for Python の重要な機能には、次のようなものがあります。

BMP、GIF、JPEG、PNG を含む複数のイメージフォーマットで PDF を読み取ったりエクスポートしたりすることができます。
PDF ドキュメントの基本情報 (作成者、作成者など) を設定します。
変換機能:PDF をワード、エクセル、パワーポイントに変換します。PDF を画像形式に変換します。PDF ファイルを HTML 形式に、またはその逆に変換します。PDF を EPUB、テキスト、XPS などに変換します。

API の使用については、.NET API 経由の Aspose.PDF for Python に関する詳細情報を当社のドキュメントで確認できます。