Python 経由で PDF を抽出

Python for .NET ライブラリを使用して PDF からテキストと画像を抽出する方法

Parser で最もよく使われるアクション

Python for .NET ライブラリで PDF を解析する方法

PDF を抽出する必要がありますか?プログラムによる PDF 文書の修正は、現代のデジタルワークフローに欠かせない要素です。Aspose.PDF のような Python ライブラリを使用すると、開発者は PDF からテキストを抽出したり、PDF から画像を抽出したりできます。これらのライブラリは他のソフトウェアに依存しないスタンドアロンソリューションであり、すぐに商用利用が可能です。プロの Python 開発者のあらゆるニーズに応えます。

  • PDF データ (テキスト、画像、フォーム、フィールドなど) を抽出
  • PDF からテキストを抽出
  • PDF から画像を抽出
  • PDF からフォントを抽出
  • フォームからデータを抽出
  • スタンプからテキストを抽出
  • テーブルからデータを抽出

PDF ファイルを抽出するには、python-net プラットフォーム向けの機能豊富で強力で使いやすいドキュメント操作 API である Aspose.PDF for .NET API を使用します。NuGet パッケージマネージャーを開き、Aspose.PDF を検索してインストールします。パッケージマネージャーコンソールから以下のコマンドを使用することもできます。

Python Package Manager Console

pip install aspose-pdf

Python 経由で PDF を解析


お使いの環境でコードを試すには、(https://releases.aspose.com/pdf/net) が必要です。

1。PDF に Document のインスタンスをロードします。 1.TextAbsorber オブジェクトを作成してテキストを抽出します。 1.すべてのページのアブソーバーを受け入れます。 1.抽出したテキストを取得 1.ライターを作成してファイルを開き、ファイルに 1 行のテキストを書き込む

PDF ファイルの抽出-Python

このサンプルコードは、PDF ドキュメントを抽出する方法を示しています。

Input file:

File not added

Output format:

PDF

Output file:

import aspose.pdf as ap 
# Open document
dataDir = "..."
document = ap.Document(dataDir + "sample.pdf")

# Create TextAbsorber object to extract text
textAbsorber = ap.text.TextAbsorber()
# Accept the absorber for all the pages
document.pages.accept(textAbsorber)
# Get the extracted text
extractedText = textAbsorber.text

with open('sample.txt', 'w') as f:
    f.write(extractedText)

Python for .NET API の Aspose.PDF について

.NET API 経由の Python 用 Aspose.PDF は、確立されている PDF 標準と PDF 仕様のほとんどをサポートしています。開発者は表、グラフ、画像、ハイパーリンク、カスタムフォントなどを PDF ドキュメントに挿入できます。さらに、PDF 文書を圧縮することもできます。.NET 経由の Python 用 Aspose.PDF は、安全な PDF 文書を開発するための優れたセキュリティ機能を備えています。.NET API 経由の Aspose.PDF for Python の重要な機能には、次のようなものがあります。

  • BMP、GIF、JPEG、PNG を含む複数のイメージフォーマットで PDF を読み取ったりエクスポートしたりすることができます。
  • PDF ドキュメントの基本情報 (作成者、作成者など) を設定します。
  • 変換機能:PDF をワード、エクセル、パワーポイントに変換します。PDF を画像形式に変換します。PDF ファイルを HTML 形式に、またはその逆に変換します。PDF を EPUB、テキスト、XPS などに変換します。

API の使用については、.NET API 経由の Aspose.PDF for Python に関する詳細情報を当社の ドキュメント で確認できます。