Python 経由で PDF を抽出

Python for .NET ライブラリを使用して PDF からテキストと画像を抽出する方法

C# Java C++ Python

Parser で最もよく使われるアクション

テキストを抽出

画像を抽出

フォントを抽出

Python for .NET ライブラリで PDF を解析する方法

PDF を抽出する必要がありますか?プログラムによる PDF 文書の修正は、現代のデジタルワークフローに欠かせない要素です。Aspose.PDF のような Python ライブラリを使用すると、開発者は PDF からテキストを抽出したり、PDF から画像を抽出したりできます。これらのライブラリは他のソフトウェアに依存しないスタンドアロンソリューションであり、すぐに商用利用が可能です。プロの Python 開発者のあらゆるニーズに応えます。

PDF データ (テキスト、画像、フォーム、フィールドなど) を抽出
PDF からテキストを抽出
PDF から画像を抽出
PDF からフォントを抽出
フォームからデータを抽出
スタンプからテキストを抽出
テーブルからデータを抽出

PDF ファイルを抽出するには、python-net プラットフォーム向けの機能豊富で強力で使いやすいドキュメント操作 API である Aspose.PDF for .NET API を使用します。NuGet パッケージマネージャーを開き、Aspose.PDF を検索してインストールします。パッケージマネージャーコンソールから以下のコマンドを使用することもできます。

Console

pip install aspose-pdf

Python 経由で PDF を解析

お使いの環境でコードを試すには、Aspose.PDF for Python が必要です。

PDF に Document のインスタンスをロードします。
TextAbsorber オブジェクトを作成してテキストを抽出します。
すべてのページのアブソーバーを受け入れます。
抽出したテキストを取得
ライターを作成してファイルを開き、ファイルに 1 行のテキストを書き込む

PDF ファイルの抽出-Python

このサンプルコードは、PDF ドキュメントを抽出する方法を示しています。

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

document = apdf.Document(path_infile)
textAbsorber = apdf.text.TextAbsorber()

document.pages.accept(textAbsorber)
extractedText = textAbsorber.text

with open(path_outfile, 'w') as f:
    f.write(extractedText)

Aspose.PDF for Python for .NET API について

.NET API 経由の Python 用 Aspose.PDF は、確立されている PDF 標準と PDF 仕様のほとんどをサポートしています。開発者は表、グラフ、画像、ハイパーリンク、カスタムフォントなどを PDF ドキュメントに挿入できます。さらに、PDF 文書を圧縮することもできます。.NET 経由の Python 用 Aspose.PDF は、安全な PDF 文書を開発するための優れたセキュリティ機能を備えています。.NET API 経由の Aspose.PDF for Python の重要な機能には、次のようなものがあります。

BMP、GIF、JPEG、PNG を含む複数のイメージフォーマットで PDF を読み取ったりエクスポートしたりすることができます。
PDF ドキュメントの基本情報 (作成者、作成者など) を設定します。
変換機能:PDF をワード、エクセル、パワーポイントに変換します。PDF を画像形式に変換します。PDF ファイルを HTML 形式に、またはその逆に変換します。PDF を EPUB、テキスト、XPS などに変換します。

API の使用については、.NET API 経由の Aspose.PDF for Python に関する詳細情報を当社のドキュメントで確認できます。