Python で PDF を抽出

Python for .NET ライブラリを使用して PDF からテキストと画像を抽出する方法

Parser で最もよく使われるアクション

Python for .NET ライブラリを使用して PDF を抽出する方法

PDF を抽出する必要がありますか?プログラムによる PDF 文書の修正は、現代のデジタルワークフローに欠かせない要素です。Aspose.PDF のような Python ライブラリを使用すると、開発者は PDF からテキストを抽出したり、PDF から画像を抽出したりできます。これらのライブラリは他のソフトウェアに依存しないスタンドアロンソリューションであり、すぐに商用利用が可能です。プロの Python 開発者のあらゆるニーズに応えます。

  • PDF データ (テキスト、画像、フォーム、フィールドなど) を抽出
  • PDF からテキストを抽出
  • PDF から画像を抽出
  • PDF からフォントを抽出
  • フォームからデータを抽出
  • スタンプからテキストを抽出
  • テーブルからデータを抽出

PDF ファイルを抽出するには、python-net プラットフォーム向けの機能豊富で強力で使いやすいドキュメント操作 API である Aspose.PDF for .NET API を使用します。NuGet パッケージマネージャーを開き、Aspose.PDF を検索してインストールします。パッケージマネージャーコンソールから以下のコマンドを使用することもできます。

Python Package Manager Console

pip install aspose-pdf

Python 経由で PDF を解析


お使いの環境でコードを試すには、(https://releases.aspose.com/pdf/net) が必要です。

1。Document のインスタンスを持つ PDF を読み込みます。 1。テキストを抽出する TextAbsorber オブジェクトを作成します。 1。すべてのページの吸収材を受け入れます。 1。抽出したテキストを取得する 1。ライターを作成してファイルを開き、ファイルにテキスト行を書き込みます

PDF ファイルの抽出-Python

このサンプルコードは、PDF ドキュメントを抽出する方法を示しています。

Input file:

File not added

Output format:

PDF

Output file:

    # Open document
    document = Document(dataDir + "ExtractTextAll.pdf")

    # Create TextAbsorber object to extract text
    textAbsorber = TextAbsorber()
    # Accept the absorber for all the pages
    document.Pages.Accept(textAbsorber)
    # Get the extracted text
    extractedText = textAbsorber.Text
    # Create a writer and open the file
    tw = new StreamWriter(dataDir + "extracted-text.txt")
    # Write a line of text to the file
    tw.WriteLine(extractedText)
    # Close the stream
    tw.Close()

Python for .NET API の Aspose.PDF について

.NET API 経由の Aspose.PDF for Python は、最も確立されている PDF 標準と PDF 仕様をサポートしています。これにより、開発者は表、グラフ、画像、ハイパーリンク、カスタムフォントなどを PDF 文書に挿入できます。さらに、PDF 文書を圧縮することもできます。.NET 経由の Python 用 Aspose.PDF は、安全な PDF ドキュメントを作成するための優れたセキュリティ機能を提供します。.NET API 経由の Python 用 Aspose.PDF の主な機能には、次のようなものがあります。

  • BMP、GIF、JPEG、PNG など、複数の画像形式で PDF を読み込んだり、書き出すことができます。
  • PDF ドキュメントの基本情報 (作成者、作成者など) を設定します。
  • 変換機能:PDF をワード、エクセル、パワーポイントに変換します。PDF を画像形式に変換します。PDF ファイルを HTML 形式に、またはその逆に変換します。PDF を EPUB、テキスト、XPS などに変換します。

.NET API 経由の Python 用 Aspose.PDF の詳細については、API の使用方法に関する当社の ドキュメント を参照してください。