Python経由でHTMLをTXTに変換

HTML から TXT への Python 変換。プログラマーはこのサンプルコードを使用して、COM 相互運用機能を介して任意の.NET フレームワーク、.NET Core、PHP、VBScript、C++ 内の HTML を TXT にエクスポートできます。

Python via .NET の HTML を TXT に変換

HTML を TXT に変換するにはどうすればよいでしょうか? 最新のドキュメント処理 Python API を使えば、プログラムで簡単に HTML 形式から TXT 形式へのドキュメント変換が可能です。わずか数行のコードで、高品質なファイル変換が可能です。Aspose.PDF ライブラリを使えば、Python を使用して HTML から TXT 形式への変換を簡単に行うことができます。

コード スニペットやその他の変換形式の詳細については、ドキュメント ページをご覧ください。また、ライブラリでサポートされているその他の 変換 形式についてもご確認ください。

Aspose.PDF for Python via .NET ライブラリを使えば、プログラムで HTML を TXT 形式に変換できます。 AsposeのPDFソフトウェアは、個人、中小企業、大企業に最適です。大量の情報を処理し、迅速かつ効率的に変換し、データを保護します。Aspose.PDFの特徴的な機能は、HTMLをTXTに変換するためのAPIです。このアプローチの特徴は、PyPIパッケージマネージャーを開き、aspose-pdfを検索してインストールするだけで、特別な複雑な設定は必要ありません。このライブラリのメリットを確認するには、HTMLからTXTへの変換コードスニペットを試してみてください。コンソールまたはターミナルから次のコマンドを使用することもできます。

Console

pip install aspose-pdf

HTML を TXT に変換する方法


Python via .NET 開発者は、わずか数行のコードで HTML ファイルを TXT に簡単にロードして変換できます。

  1. 入力PDFファイルへのパスを指定するには、indirとinfileを結合し、ディレクトリ構造が正しいことを確認します。
  2. ライブラリから HtmlLoadOptions のインスタンスを作成してaspose.pdf入力 PDF ファイルの読み込みと処理の設定を指定しますが、特定のオプションは設定しないでください。
  3. ライブラリのDocumentクラスを使用してaspose.pdf出力ファイルの生成と保存に使用する新しいオブジェクトを作成し、入力ファイルへのパスとロード・オプションを渡します。
  4. 処理するページのインデックスを指定するには、ドキュメントオブジェクトの pages 属性にアクセスします (通常は 0 から始まる数値を使用します)。
  5. aspose.pdfライブラリから TextDevice のインスタンスを作成します。このインスタンスは、PDF/A-1a などのテキストベースの出力形式の処理と生成に使用されます。
  6. テキストデバイスインスタンスの process メソッドを使用して、指定したページを定義されたパスの出力ファイルに適用します。
  7. TextDevice を使用して元のドキュメントの 1 ページを処理すると、ASCII エンコード ファイルとして保存できるテキストベースの表現が得られます。

Python で HTML を TXT に変換する方法を示す例を次に示します。HTML ファイルを TXT 形式に変換するには、以下の簡単な手順に従ってください。まず HTML ファイルをアップロードしてから、TXT ファイルとして保存します。HTML の読み取りと TXT の書き込みの両方に完全修飾ファイル名を使用できます。出力される TXT の内容とフォーマットは、元の HTML ドキュメントと同じになります。

例:Python を使用して HTML を TXT に変換します

このサンプルコードは HTML から TXT Python への変換を示しています

Input file:

File not added

Output format:

TXT

Output file:

import aspose.pdf as apdf

from os import path
path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

load_options = apdf.HtmlLoadOptions()
document = apdf.Document(path_infile, load_options)

device = apdf.devices.TextDevice()
device.process(document.pages[1], path_outfile)

print(infile + " converted into " + outfile)

{{PRODUCTName}} を使用して HTML を TXT に変換する

.NET API 経由の Python 用 Aspose.PDF は、確立されている PDF 標準と PDF 仕様のほとんどをサポートしています。開発者は表、グラフ、画像、ハイパーリンク、カスタムフォントなどを PDF ドキュメントに挿入できます。さらに、PDF 文書を圧縮することもできます。.NET 経由の Python 用 Aspose.PDF は、安全な PDF 文書を開発するための優れたセキュリティ機能を備えています。.NET API 経由の Aspose.PDF for Python の主な機能には次のものがあります。

  • BMP、GIF、JPEG、PNG を含む複数のイメージフォーマットで PDF を読み取ったりエクスポートしたりすることができます。
  • PDF ドキュメントの基本情報 (作成者、作成者など) を設定します。
  • 変換機能:PDF をワード、エクセル、パワーポイントに変換します。PDF を画像形式に変換します。PDF ファイルを HTML 形式に、またはその逆に変換します。PDF を EPUB、テキスト、XPS などに変換します。

.NET API 経由の Aspose.PDF for Python の詳細については、API の使用方法に関する当社の ドキュメント を参照してください。