通过 Python 将 HTML 转换为 TXT

HTML 到 TXT 的 Python 转换。程序员可以使用此示例代码通过 COM Interop 将 HTML 导出到任何 .NET 框架、.NET Core 以及 PHP、VBScript、C++ 中的 TXT。

在 Python via .NET 中将 HTML 转换为 TXT

如何将 HTML 转换为 TXT?您可以使用现代文档处理 Python API,轻松地以编程方式将文档从 HTML 转换为 TXT 格式。只需几行代码即可高质量地转换文件。Aspose.PDF 库允许任何开发人员使用 Python 轻松完成 HTML 到 TXT 的转换任务。

有关代码片段和其他可能的转换格式的更详细说明,请参阅文档页面。此外,您还可以查看我们库支持的其他格式转换

使用 Aspose.PDF for Python via .NET 库,您可以通过编程方式将 HTML 转换为 TXT。 Aspose 的 PDF 软件非常适合个人、小型企业和大型企业。它能够处理大量信息,快速高效地执行转换并保护您的数据。Aspose.PDF 的一个独特功能是提供将 HTML 转换为 TXT 的 API。此方法的特点是,您只需打开 PyPI 包管理器,搜索aspose-pdf,然后安装即可,无需任何复杂的特殊设置。为了验证该库的优势,请尝试使用将 HTML 转换为 TXT 的代码片段。您也可以从控制台或终端使用以下命令:

Console

pip install aspose-pdf

如何将 HTML 转换为 TXT


Python via .NET 开发人员只需几行代码即可轻松加载 HTML 个文件并将其转换为 TXT。

  1. 通过将 indir 与 infile 连接来指定输入 PDF 文件的路径,确保正确的目录结构。
  2. 从 aspose.pdf 库中创建 HtmlLoadOptions 实例来指定加载和处理输入 PDF 文件的设置,但不要设置任何特定选项。
  3. 使用 aspose.pdf 库中的 Document 类创建一个新对象,该对象将用于生成和保存输出文件,传递输入文件路径和加载选项。
  4. 通过访问文档对象的 pages 属性(通常使用从 0 开始的数字)来指定要处理的页面的索引。
  5. 从 aspose.pdf 库中创建 TextDevice 实例,该实例用于处理和生成基于文本的输出格式,例如 PDF/A-1a。
  6. 使用文本设备实例的处理方法将指定的一个或多个页面应用于定义路径的输出文件。
  7. 使用 TextDevice 处理原始文档的单页,从而生成可另存为 ASCII 编码文件的基于文本的表示形式。

以下示例演示了如何在 Python 中将 HTML 转换为 TXT。你可以按照以下简单步骤将你的 HTML 文件转换为 TXT 格式。首先,上传你的 HTML 文件,然后将其保存为 TXT 文件。您可以使用完全限定的文件名进行 HTML 读取和 TXT 写入。输出 TXT 的内容和格式将与原始 HTML 文档相同。

示例:通过 Python 将 HTML 转换为 TXT

此示例代码显示 HTML 到 TXT Python 的转换

Input file:

File not added

Output format:

TXT

Output file:

import aspose.pdf as apdf

from os import path
path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

load_options = apdf.HtmlLoadOptions()
document = apdf.Document(path_infile, load_options)

device = apdf.devices.TextDevice()
device.process(document.pages[1], path_outfile)

print(infile + " converted into " + outfile)

使用 Python via .NET 将 HTML 转换为 TXT

通过.NET API 的 Python Aspose.PDF 支持大多数成熟的 PDF 标准和 PDF 规范。它允许开发人员在 PDF 文档中插入表格、图表、图像、超链接、自定义字体等。此外,也可以压缩 PDF 文档。通过.NET 的 Python Aspose.PDF 为开发安全的 PDF 文档提供了出色的安全功能。通过.NET API 为 Python 开发的 Aspose.PDF 的一些关键功能包括:

  • 能够以多种图像格式读取和导出 PDF,包括 BMP、GIF、JPEG 和 PNG。
  • 设置 PDF 文档的基本信息(例如作者、创建者)。
  • 转换功能:将 PDF 转换为 Word、Excel 和 PowerPoint。将 PDF 转换为图像格式。将 PDF 文件转换为 HTML 格式,反之亦然。将 PDF 转换为 EPUB、文本、XPS 等。

你可以在我们关于如何使用 API 的 文档 上通过.NET API 找到有关 Aspose.PDF for Python 的更多信息。