Aspose.Total for Java を使用すると、JavaアプリケーションでMHTMLからTXTへの変換機能を2段階のプロセスで統合できます。まず、 Aspose.PDF for Java を使用して、MHTMLをXLSXにレンダリングできます。 2番目のステップでは、Spreadsheet Programming API Aspose.Cells for Java を使用してXLSXをTXTに変換できます。
Java経由でMHTMLファイルをTXTに変換する
変換要件
Maven ベースのプロジェクトから直接Aspose.Total for Javaを簡単に使用できます Aspose.PDF for Java と Aspose.Cells for Java あなたのpom.xmlの。
変換要件
MHTMLドキュメントがパスワードで保護されている場合、パスワードなしでTXTに変換することはできません。 APIを使用すると、最初に有効なパスワードを使用して保護されたドキュメントを開き、その後変換することができます。暗号化されたファイルを開くために、の新しいインスタンスを初期化できます Document クラスを作成し、ファイル名とパスワードを引数として渡します。
保護されたMHTMLをJava経由でTXTに変換する
MHTMLファイルをTXTに変換するときに、出力TXTファイル形式に透かしを追加することもできます。透かしを追加するには、新しいワークブックを作成して、変換されたXLSXファイルを開きます。インデックスからワークシートを選択し、図形を作成してそのaddTextEffect関数を使用し、色や透明度などを設定します。その後、透かしを使用してXLSXドキュメントをTXTとして保存できます。
主な使用用途
オフラインでの読書用にWebコンテンツをプレーンテキストとしてアーカイブ化。
MHTMLページからのテキストレポートの抽出による分析。
オンライン記事やチュートリアルをTXTに変換して迅速な参照用に準備。
テキストベースの処理、NLP、またはAIツール向けのコンテンツの準備。
自動化シナリオ
大規模なWebアーカイブ用のバッチMHTMLからTXTへの変換。
分析用にWebページからのテキストデータの定期的な抽出。
自動化されたテキスト処理のためのAI/MLパイプラインとの統合。
リアルタイムのWebコンテンツの監視とレポートのためのトリガー変換。