オンラインでWordファイルを解析し、Java経由でテキストを抽出します
強力な Java ベースの Word ドキュメント パーサー ユーティリティ アプリケーションを開発します。Java を介した Word ドキュメント テキスト抽出用のコード リスト。
オンラインアプリ経由でWordドキュメントを解析
- 解析するWordファイルをアップロードしてインポートします。
- これを行うには、パーサー アプリのドラッグ アンド ドロップでドロップ領域内をクリックします。
- Word ファイルのサイズとインターネット速度に応じて、数秒待ちます。
- 「今すぐ解析」ボタンをクリックしてドキュメントを解析します。
- 解析されたファイルをダウンロードすると、すぐに表示されます。
Java経由でWordファイルからテキストを抽出する
- Java プロジェクトにライブラリ参照を追加する
- Documentクラスオブジェクトを使用してWordファイルをロードします
- 関連するタイプの getLastSection().getChild を使用してノードを定義します
- 関連するノードをポストして ArrayList を定義する
- コレクションを定義し、反復して情報を抽出する
Word ドキュメントのテキストを抽出する Java コード
Document doc = new Document("sourceFile.doc"); | |
Paragraph startPara = (Paragraph) doc.getLastSection().getChild(NodeType.PARAGRAPH, 2, true); | |
Table endTable = (Table) doc.getLastSection().getChild(NodeType.TABLE, 0, true); | |
ArrayList extractedNodes = extractContent(startPara, endTable, true); | |
Collections.reverse(extractedNodes); | |
while (extractedNodes.size() > 0) { | |
endTable.getParentNode().insertAfter((Node) extractedNodes.get(0), endTable); | |
extractedNodes.remove(0); | |
} | |
doc.save("output.doc"); |
Java 経由で Word ファイル パーサー アプリケーションを開発する
Word パーサー アプリケーションまたはソフトウェアを開発する必要がありますか?
Aspose.Total for Java
の子 API である
Aspose.Words for Java
を使用すると、Java 開発者は上記の API コードをドキュメント パーサー アプリケーション内に統合できます。強力な Java ライブラリを使用すると、テキストだけでなく画像も抽出するドキュメント解析ソリューションをプログラミングできます。さらに、Word 形式を含む多くの一般的な形式をサポートできます。
パーサー アプリケーション用に Word ファイルを処理する Java ユーティリティ
「
Aspose.Words for Java
」または「
Aspose.Total for Java
」をシステムにインストールするための代替オプションがあります。当社の Java パッケージはクロスプラットフォームになるように設計されており、Microsoft Windows、Linux、macOS、Android、iOS などのさまざまなオペレーティング システム上の JVM 実装と互換性があります。ニーズに近いものを選択し、ステップバイステップの指示に従ってください。
- Aspose.Words for Java をインストールする
- または Maven から
- ステップバイステップ 説明書
システム要求
- Java SE 7 または最新の Java バージョン
- この古い JRE をお持ちの場合は、Java SE 6 用の別個のパッケージが必要です。
JogAmp JOGL、Harfbuzz フォント エンジン、および Java Advanced Imaging JAI の詳細については、[製品ドキュメント](https://docs.aspose.com/words/java/system-requirements/#optional-dependencies) を参照してください。
よくある質問
- 上記の Java コードをアプリケーションで使用できますか?はい、このコードをダウンロードして、Java ベースのドキュメント パーサー アプリケーションを開発する目的で利用することはできます。このコードは、ノードの読み取りや、テキストや画像を抽出するためのドキュメントのロードなど、バックエンド ドキュメント処理のドメインでプロジェクトの機能と機能を強化するための貴重なリソースとして機能します。
- このオンライン ドキュメント パーサー アプリは Windows 上でのみ動作しますか?Windows、Linux、Mac OS、Android など、実行されているオペレーティング システムに関係なく、任意のデバイスでドキュメントの解析を開始できる柔軟性があります。必要なのは、最新の Web ブラウザとアクティブなインターネット接続だけです。
- Word ドキュメントの解析にオンライン アプリを使用しても安全ですか?もちろん!当社のサービスを通じて生成された出力ファイルは、24 時間以内に当社のサーバーから安全かつ自動的に削除されます。その結果、これらのファイルに関連付けられた表示リンクは、この期間を過ぎると機能しなくなります。
- アプリを使用するにはどのブラウザが必要ですか?オンライン Word ドキュメント パーサーには、Google Chrome、Firefox、Opera、Safari などの最新の Web ブラウザーを使用できます。ただし、デスクトップ アプリケーションを開発している場合は、効率的な管理のために Aspose.Total ドキュメント処理 API を使用することをお勧めします。