ODT ファイルをオンラインで解析し、Python 経由でテキストや画像を抽出します
強力な Python ベースの ODT ドキュメント パーサー ユーティリティ アプリケーションを開発します。ODT ドキュメント画像と Python によるテキスト抽出用のコードがリストされています。
オンラインアプリ経由でODTドキュメントを解析
- 解析するODTファイルをアップロードしてインポートします。
- これを行うには、パーサー アプリのドラッグ アンド ドロップでドロップ領域内をクリックします。
- ODT ファイルのサイズとインターネット速度に応じて、数秒待ちます。
- 「今すぐ解析」ボタンをクリックしてドキュメントを解析します。
- 解析されたファイルをダウンロードすると、すぐに表示されます。
Python 経由で ODT ファイルからテキストを抽出する
- PyPI ( Aspose.Words ) からプロジェクト内の API を直接参照する
- テキスト抽出プロセスに含めるノードを定義する
- 最初と最後のノードを含めるか除外する
- 指定したノードのコンテンツを抽出する
- 抽出されたテキスト用に別の ODT ドキュメントを作成する
- extract_content 関数にリストされたコード.
ODT ドキュメント テキストを抽出する Python のコード例
def extract_content(startNode : aw.Node, endNode : aw.Node, isInclusive : bool): | |
verify_parameter_nodes(startNode, endNode) | |
nodes = [] | |
if (endNode.node_type == aw.NodeType.COMMENT_RANGE_END and isInclusive) : | |
node = find_next_node(aw.NodeType.COMMENT, endNode.next_sibling) | |
if (node != None) : | |
endNode = node | |
originalStartNode = startNode | |
originalEndNode = endNode | |
startNode = get_ancestor_in_body(startNode) | |
endNode = get_ancestor_in_body(endNode) | |
isExtracting = True | |
isStartingNode = True | |
currNode = startNode | |
while (isExtracting) : | |
cloneNode = currNode.clone(True) | |
isEndingNode = currNode == endNode | |
if (isStartingNode or isEndingNode) : | |
if (isEndingNode) : | |
process_marker(cloneNode, nodes, originalEndNode, currNode, isInclusive, False, not isStartingNode, False) | |
isExtracting = False | |
if (isStartingNode) : | |
process_marker(cloneNode, nodes, originalStartNode, currNode, isInclusive, True, True, False) | |
isStartingNode = False | |
else : | |
nodes.append(cloneNode) | |
if (currNode.next_sibling == None and isExtracting) : | |
nextSection = currNode.get_ancestor(aw.NodeType.SECTION).next_sibling.as_section() | |
currNode = nextSection.body.first_child | |
else : | |
currNode = currNode.next_sibling | |
if (isInclusive and originalEndNode == endNode and not originalEndNode.is_composite) : | |
include_next_paragraph(endNode, nodes) | |
return nodes |
Python 経由で ODT ファイルから画像を抽出する
- PyPI ( Aspose.Words ) からプロジェクト内の API を直接参照する
- Document オブジェクトの Shape ノードに保存された画像
- すべての Shape ノードを選択するには、Document.get_child_nodes メソッドを使用します。
- 結果として得られるノード コレクションをループします。
- Shape.has_image が true を返す場合。
- 画像データを抽出するには、Shape.image_data プロパティを使用します。
- 画像データをファイルに保存する
ODT ドキュメント画像を抽出するための Python のコード例
doc = aw.Document(docs_base.my_dir + "sourcefile.docx") | |
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True) | |
imageIndex = 0 | |
for shape in shapes : | |
shape = shape.as_shape() | |
if (shape.has_image) : | |
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}" | |
shape.image_data.save(docs_base.artifacts_dir + imageFileName) | |
imageIndex += 1 |
Python による ODT ファイル パーサー アプリケーションの開発
ODT パーサー アプリまたはユーティリティを開発する必要がありますか?
Aspose.Total for Python via .NET
の子 API である
Aspose.Words for Python via .NET
を使用すると、Python 開発者は上記の API コードをドキュメント パーサー アプリケーション内に統合できます。強力な Python ライブラリを使用すると、テキストだけでなく画像も抽出するドキュメント解析ソリューションをプログラミングできます。さらに、ODT 形式を含む多くの一般的な形式をサポートできます。
パーサー アプリ用に ODT ファイルを処理する Python ユーティリティ
「
Aspose.Words for Python via .NET
」または「
Aspose.Total for Python via .NET
」をシステムにインストールする別のオプションもあります。ニーズに近いものを選択し、ステップバイステップの指示に従ってください。
- PyPI から Aspose.Words for Python via .NET をインストール
- または、次の pip コマンド
pip install aspose.words
を使用します。
システム要求
- Python 3.5以降がインストールされていること
- GCC-6 ランタイム ライブラリ (またはそれ以降)。
- .NET Core ランタイムの依存関係。 .NET Core ランタイム自体をインストールする必要はありません。
- Python 3.5 ~ 3.7 の場合: Python の pymalloc ビルドが必要です。
詳細については 製品ドキュメント を参照してください。
よくある質問
- 上記の Python コードをアプリケーションで使用できますか?はい、このコードをダウンロードして、Python ベースのドキュメント パーサー アプリケーションを開発する目的で利用しても構いません。このコードは、ノードの読み取りや、テキストや画像を抽出するためのドキュメントのロードなど、バックエンド ドキュメント処理のドメインでプロジェクトの機能と機能を強化するための貴重なリソースとして機能します。
- このオンライン ドキュメント パーサー アプリは Windows 上でのみ動作しますか?Windows、Linux、Mac OS、Android など、実行されているオペレーティング システムに関係なく、任意のデバイスでドキュメントの解析を開始できる柔軟性があります。必要なのは、最新の Web ブラウザとアクティブなインターネット接続だけです。
- ODT ドキュメントの解析にオンライン アプリを使用しても安全ですか?もちろん!当社のサービスを通じて生成された出力ファイルは、24 時間以内に当社のサーバーから安全かつ自動的に削除されます。その結果、これらのファイルに関連付けられた表示リンクは、この期間を過ぎると機能しなくなります。
- アプリを使用するにはどのブラウザが必要ですか?オンライン ODT ドキュメント パーサーには、Google Chrome、Firefox、Opera、Safari などの最新の Web ブラウザーを使用できます。ただし、デスクトップ アプリケーションを開発している場合は、効率的な管理のために Aspose.Total ドキュメント処理 API を使用することをお勧めします。