Python経由でMHTMLをTXTに変換

MHTML から TXT への Python 変換。プログラマーはこのサンプルコードを使用して、COM 相互運用機能を介して任意の.NET フレームワーク、.NET Core、PHP、VBScript、C++ 内の MHTML を TXT にエクスポートできます。

Python via .NET の MHTML を TXT に変換

MHTML を TXT に変換するにはどうすればよいでしょうか? 最新のドキュメント処理 Python API を使えば、プログラムで簡単に MHTML 形式から TXT 形式へのドキュメント変換が可能です。わずか数行のコードで、高品質なファイル変換が可能です。Aspose.PDF ライブラリを使えば、Python を使用して MHTML から TXT 形式への変換を簡単に行うことができます。

コード スニペットやその他の変換形式の詳細については、ドキュメント ページをご覧ください。また、ライブラリでサポートされているその他の 変換 形式についてもご確認ください。

Aspose.PDF for Python via .NET ライブラリを使えば、プログラムで MHTML を TXT 形式に変換できます。 AsposeのPDFソフトウェアは、個人、中小企業、大企業に最適です。大量の情報を処理し、迅速かつ効率的に変換し、データを保護します。Aspose.PDFの特徴的な機能は、MHTMLをTXTに変換するためのAPIです。このアプローチの特徴は、PyPIパッケージマネージャーを開き、aspose-pdfを検索してインストールするだけで、特別な複雑な設定は必要ありません。このライブラリのメリットを確認するには、MHTMLからTXTへの変換コードスニペットを試してみてください。コンソールまたはターミナルから次のコマンドを使用することもできます。

Console

pip install aspose-pdf

MHTML を TXT に変換する方法


Python via .NET 開発者は、わずか数行のコードで MHTML ファイルを TXT に簡単にロードして変換できます。

  1. PDFファイルをロードするためのDocumentクラスを含むaspose.pdfライブラリから必要なモジュールをインポートします。続行する前に、必要なライブラリがインストールされ、インポートされていることを確認してください。
  2. 入力PDFドキュメントへのパスを指定するには、indirとinfileを結合し、ディレクトリ構造が正しいことを確認します。この手順は、指定されたディレクトリツリー内で入力ファイルを正しく見つけるために重要です。
  3. MhtLoadOptionsクラスのインスタンスを作成して、ドキュメントを保存するための出力形式を指定します。これらのオプションは、変換された HTML ファイルの特性を制御します。MhtLoadOptions は、変換プロセスの動作を構成するために使用されます。
  4. apdf を使用して、入力 PDF ドキュメントを Document オブジェクトに読み込みます。document() です。読み込まれたドキュメントは、他の形式への処理と保存に使用されます。変換プロセスを続行する前に、PDFファイルが正しくロードされていることを確認してください。
  5. len()関数を使用して、ロードされたPDFドキュメントの合計ページ数を取得します。この手順では、入力ファイルの内容とレイアウトに関する重要な情報を提供します。
  6. TextDevice クラスのインスタンスを作成して、ドキュメントの処理に使用するデバイスのタイプ (解像度、色深度、その他の設定など) を指定します。選択したデバイスは、生成される出力ファイルの品質と外観に影響します。
  7. 定義されたデバイスを使用して、ロードされたPDFドキュメントから1ページを処理し、変換された画像を指定された出力パスに保存します。この手順では、指定した形式で新しい出力ファイルが生成されます。
  8. 変換されたドキュメントを保存した後、変換が完了したことを示す成功メッセージを印刷します。この手順では、変換プロセスが成功し、指定したパスに出力ファイルが見つかることを確認します。

Python で MHTML を TXT に変換する方法を示す例を次に示します。MHTML ファイルを TXT 形式に変換するには、以下の簡単な手順に従ってください。まず MHTML ファイルをアップロードしてから、TXT ファイルとして保存します。MHTML の読み取りと TXT の書き込みの両方に完全修飾ファイル名を使用できます。出力される TXT の内容とフォーマットは、元の MHTML ドキュメントと同じになります。

例:Python を使用して MHTML を TXT に変換します

このサンプルコードは MHTML から TXT Python への変換を示しています

Input file:

File not added

Output format:

TXT

Output file:

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

load_options = apdf.MhtLoadOptions()
document = apdf.Document(path_infile, load_options)
print(len(document.pages))
device = apdf.devices.TextDevice()
device.process(document.pages[1], path_outfile)

print(infile + " converted into " + outfile)

{{PRODUCTName}} を使用して MHTML を TXT に変換する

.NET API 経由の Python 用 Aspose.PDF は、確立されている PDF 標準と PDF 仕様のほとんどをサポートしています。開発者は表、グラフ、画像、ハイパーリンク、カスタムフォントなどを PDF ドキュメントに挿入できます。さらに、PDF 文書を圧縮することもできます。.NET 経由の Python 用 Aspose.PDF は、安全な PDF 文書を開発するための優れたセキュリティ機能を備えています。.NET API 経由の Aspose.PDF for Python の主な機能には次のものがあります。

  • BMP、GIF、JPEG、PNG を含む複数のイメージフォーマットで PDF を読み取ったりエクスポートしたりすることができます。
  • PDF ドキュメントの基本情報 (作成者、作成者など) を設定します。
  • 変換機能:PDF をワード、エクセル、パワーポイントに変換します。PDF を画像形式に変換します。PDF ファイルを HTML 形式に、またはその逆に変換します。PDF を EPUB、テキスト、XPS などに変換します。

.NET API 経由の Aspose.PDF for Python の詳細については、API の使用方法に関する当社の ドキュメント を参照してください。