ODT ファイルをオンラインで解析し、Python 経由でテキストや画像を抽出します

強力な Python ベースの ODT ドキュメントパーサーユーティリティアプリケーションを開発します。ODT ドキュメント画像と Python によるテキスト抽出用のコードがリストされています。

ダウンロード

オンラインアプリ経由でODTドキュメントを解析

解析するODTファイルをアップロードしてインポートします。
これを行うには、パーサーアプリのドラッグアンドドロップでドロップ領域内をクリックします。
ODT ファイルのサイズとインターネット速度に応じて、数秒待ちます。
「今すぐ解析」ボタンをクリックしてドキュメントを解析します。
解析されたファイルをダウンロードすると、すぐに表示されます。

Python 経由で ODT ファイルからテキストを抽出する

PyPI ( Aspose.Words ) からプロジェクト内の API を直接参照する
テキスト抽出プロセスに含めるノードを定義する
最初と最後のノードを含めるか除外する
指定したノードのコンテンツを抽出する
抽出されたテキスト用に別の ODT ドキュメントを作成する
extract_content 関数にリストされたコード.

ODT ドキュメントテキストを抽出する Python のコード例

Python 経由で ODT ファイルから画像を抽出する

PyPI ( Aspose.Words ) からプロジェクト内の API を直接参照する
Document オブジェクトの Shape ノードに保存された画像
すべての Shape ノードを選択するには、Document.get_child_nodes メソッドを使用します。
結果として得られるノードコレクションをループします。
Shape.has_image が true を返す場合。
画像データを抽出するには、Shape.image_data プロパティを使用します。
画像データをファイルに保存する

ODT ドキュメント画像を抽出するための Python のコード例

Python による ODT ファイルパーサーアプリケーションの開発

ODT パーサーアプリまたはユーティリティを開発する必要がありますか? Aspose.Total for Python via .NET の子 API である Aspose.Words for Python via .NET を使用すると、Python 開発者は上記の API コードをドキュメントパーサーアプリケーション内に統合できます。強力な Python ライブラリを使用すると、テキストだけでなく画像も抽出するドキュメント解析ソリューションをプログラミングできます。さらに、ODT 形式を含む多くの一般的な形式をサポートできます。

パーサーアプリ用に ODT ファイルを処理する Python ユーティリティ

「 Aspose.Words for Python via .NET 」または「 Aspose.Total for Python via .NET 」をシステムにインストールする別のオプションもあります。ニーズに近いものを選択し、ステップバイステップの指示に従ってください。

PyPI から Aspose.Words for Python via .NET をインストール
または、次の pip コマンド pip install aspose.words を使用します。

システム要求

Python 3.5以降がインストールされていること
GCC-6 ランタイムライブラリ (またはそれ以降)。
.NET Core ランタイムの依存関係。 .NET Core ランタイム自体をインストールする必要はありません。
Python 3.5 ～ 3.7 の場合: Python の pymalloc ビルドが必要です。

詳細については製品ドキュメントを参照してください。

よくある質問

上記の Python コードをアプリケーションで使用できますか?
はい、このコードをダウンロードして、Python ベースのドキュメントパーサーアプリケーションを開発する目的で利用しても構いません。このコードは、ノードの読み取りや、テキストや画像を抽出するためのドキュメントのロードなど、バックエンドドキュメント処理のドメインでプロジェクトの機能と機能を強化するための貴重なリソースとして機能します。
このオンラインドキュメントパーサーアプリは Windows 上でのみ動作しますか?
Windows、Linux、Mac OS、Android など、実行されているオペレーティングシステムに関係なく、任意のデバイスでドキュメントの解析を開始できる柔軟性があります。必要なのは、最新の Web ブラウザとアクティブなインターネット接続だけです。
ODT ドキュメントの解析にオンラインアプリを使用しても安全ですか?
もちろん！当社のサービスを通じて生成された出力ファイルは、24 時間以内に当社のサーバーから安全かつ自動的に削除されます。その結果、これらのファイルに関連付けられた表示リンクは、この期間を過ぎると機能しなくなります。
アプリを使用するにはどのブラウザが必要ですか?
オンライン ODT ドキュメントパーサーには、Google Chrome、Firefox、Opera、Safari などの最新の Web ブラウザーを使用できます。ただし、デスクトップアプリケーションを開発している場合は、効率的な管理のために Aspose.Total ドキュメント処理 API を使用することをお勧めします。

探検ファイルパーサー Python のオプション

解析する DOC ファイル」 (Microsoft Wordバイナリ形式)

解析する DOCX ファイル」 (Office 2007以降のWord文書)

解析する DOT ファイル」 (Microsoft Wordテンプレートファイル)

解析する DOTX ファイル」 (Microsoft Wordテンプレートファイル)

解析する ODP ファイル」 (OpenDocument プレゼンテーション形式)

解析する ODT ファイル」 (OpenDocument テキストファイル形式)

解析する OTT ファイル」 (OpenDocument テンプレート)

解析する PDF ファイル」 (ポータブルドキュメントフォーマット)

解析する POWERPOINT ファイル」 (プレゼンテーションファイル)

解析する PPT ファイル」 (パワーポイントによるプレゼンテーション)

解析する PPTX ファイル」 (オープン XML プレゼンテーション形式)

解析する RTF ファイル」 (リッチテキスト形式)

解析する WORD ファイル」 (ワープロのファイル形式)