Python の PDF からテキストを抽出

Python for .NET ライブラリを使用して PDF からテキストを抽出する方法

Python for .NET ライブラリを使用して PDF からテキストを抽出する方法

PDFからテキストを抽出する必要がありますか?PDF 文書のプログラムによる変更は、現代のデジタルワークフローに欠かせない要素です。Aspose.PDF のような Python ライブラリを使用すると、開発者は PDF からテキストを抽出できます。これらのライブラリは他のソフトウェアに依存しないスタンドアロンソリューションであり、すぐに商用利用が可能です。プロの Python 開発者のあらゆるニーズに応えます。

  • PDF からテキストを抽出
  • PDF から画像を抽出
  • PDF からフォントを抽出
  • フォームからデータを抽出
  • スタンプからテキストを抽出
  • テーブルからデータを抽出

PDF ファイルからテキストを抽出するには、python-net プラットフォーム向けの機能豊富で強力で使いやすいドキュメント操作 API である Aspose.PDF for .NET API を使用します。NuGet パッケージマネージャーを開き、Aspose.PDF を検索してインストールします。パッケージマネージャーコンソールから以下のコマンドを使用することもできます。

Python Package Manager Console

pip install aspose-pdf

Python の PDF からテキストを抽出


ご使用の環境でコードを試すには、Aspose.PDF for Python が必要です。

1。PDF に Document のインスタンスをロードします。 1.TextAbSorber オブジェクトを作成してテキストを抽出します。 1.すべてのページにアブソーバーを取り付けてください。 1.抽出したテキストを取得 1。ライターを作成してファイルを開き、そのファイルにテキストを 1 行書き込む

PDF からテキストを抽出-Python

このサンプルコードは、PDF ドキュメントからテキストを抽出する方法を示しています。

Input file:

File not added

Output format:

PDF

Output file:

import aspose.pdf as ap 
# Open document
dataDir = "..."
document = ap.Document(dataDir + "sample.pdf")

# Create TextAbsorber object to extract text
textAbsorber = ap.text.TextAbsorber()
# Accept the absorber for all the pages
document.pages.accept(textAbsorber)
# Get the extracted text
extractedText = textAbsorber.text

with open('sample.txt', 'w') as f:
    f.write(extractedText)

Python for .NET API の Aspose.PDF について

.NET API 経由の Python 用 Aspose.PDF は、確立されている PDF 標準と PDF 仕様のほとんどをサポートしています。開発者は表、グラフ、画像、ハイパーリンク、カスタムフォントなどを PDF ドキュメントに挿入できます。さらに、PDF 文書を圧縮することもできます。.NET 経由の Python 用 Aspose.PDF は、安全な PDF 文書を開発するための優れたセキュリティ機能を備えています。.NET API 経由の Aspose.PDF for Python の重要な機能には、次のようなものがあります。

  • BMP、GIF、JPEG、PNG を含む複数のイメージフォーマットで PDF を読み取ったりエクスポートしたりすることができます。
  • PDF ドキュメントの基本情報 (作成者、作成者など) を設定します。
  • 変換機能:PDF をワード、エクセル、パワーポイントに変換します。PDF を画像形式に変換します。PDF ファイルを HTML 形式に、またはその逆に変換します。PDF を EPUB、テキスト、XPS などに変換します。

API の使用については、.NET API 経由の Aspose.PDF for Python に関する詳細情報を当社の ドキュメント で確認できます。