在 Python 中将 HTML s 转换为 TXT。快速。简单。没有外部依赖关系。

HTML 到 TXT 的 Python 转换。程序员可以使用此示例代码通过 COM Interop 将 HTML 导出到任何 .NET 框架、.NET Core 以及 PHP、VBScript、C++ 中的 TXT。

在 Aspose.PDF 中将 Python via .NET 的 HTML 转换为 TXT

如何将 HTML 转换为 TXT?您可以使用现代文档处理 Python API 轻松地以编程方式将文档从 HTML 转换为 TXT 格式。只需几行代码即可转换高质量的文件。Aspose.PDF 库将允许任何开发人员轻松解决使用 Python 将 HTML 转换为 TXT 的任务。

有关代码片段和其他可能的转换格式的更详细描述,请参阅 文档 页面。此外,您还可以查看我们的库支持的其他 转换 格式。

通过 .NET 的 Aspose.PDF for Python 库,你可以通过编程方式将 HTML 转换为 TXT。Aspose 的 PDF 软件非常适合个人、小型或大型企业。由于它能够处理大量信息,因此可以快速高效地进行转换并保护您的数据。Aspose.PDF 的一个特殊功能是用于将 HTML 转换为 TXT 的 API。这种方法的特点是,你只需要打开 PyPI 包管理器,搜索 aspose-pdf,然后安装它,无需任何特殊的复杂设置。要验证该库的好处,请尝试使用将 HTML 转换为 TXT 的代码片段。您也可以使用控制台或终端中的以下命令:

Console

pip install aspose-pdf

如何将 HTML 转换为 TXT


Python 开发人员只需几行代码即可轻松加载并将 HTML 文件转换为 TXT。

  1. 通过将 indir 与 infile 连接来指定输入 PDF 文件的路径,确保正确的目录结构。
  2. 从 aspose.pdf 库中创建 HtmlLoadOptions 实例来指定加载和处理输入 PDF 文件的设置,但不要设置任何特定选项。
  3. 使用 aspose.pdf 库中的 Document 类创建一个新对象,该对象将用于生成和保存输出文件,传递输入文件路径和加载选项。
  4. 通过访问文档对象的 pages 属性(通常使用从 0 开始的数字)来指定要处理的页面的索引。
  5. 从 aspose.pdf 库中创建 TextDevice 实例,该实例用于处理和生成基于文本的输出格式,例如 PDF/A-1a。
  6. 使用文本设备实例的处理方法将指定的一个或多个页面应用于定义路径的输出文件。
  7. 使用 TextDevice 处理原始文档的单页,从而生成可另存为 ASCII 编码文件的基于文本的表示形式。

以下示例演示了如何在 Python 中将 HTML 转换为 TXT。您可以按照以下简单步骤将 HTML 文件转换为 TXT 格式。首先,上传您的 HTML 文件,然后将其保存为 TXT 文件即可。你可以使用完全限定的文件名进行 HTML 读取和 TXT 写入。输出 TXT 的内容和格式将与原始 HTML 文档相同。

示例:通过 Python 将 HTML 转换为 TXT

此示例代码显示了 HTML 到 TXT Python 的转换

Input file:

File not added

Output format:

TXT

Output file:

import aspose.pdf as apdf

from os import path
path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

load_options = apdf.HtmlLoadOptions()
document = apdf.Document(path_infile, load_options)

device = apdf.devices.TextDevice()
device.process(document.pages[1], path_outfile)

print(infile + " converted into " + outfile)

使用 Aspose.PDF for Python via .NET 将 HTML 转换为 TXT

通过 .NET API for Python 的 Aspose.PDF 支持大多数既定的 PDF 标准和 PDF 规范。它允许开发人员将表格、图表、图像、超链接、自定义字体等插入到 PDF 文档中。此外,还可以压缩 PDF 文档。通过.NET for Python 的 Aspose.PDF 为开发安全的 PDF 文档提供了出色的安全功能。通过 .NET API 实现的 Aspose.PDF for Python 的一些关键功能包括:

  • 能够读取和导出多种图像格式的 PDF,包括 BMP、GIF、JPEG 和 PNG。
  • 设置 PDF 文档的基本信息(例如作者、创建者)。
  • 转换功能:将 PDF 转换为 Word、Excel 和 PowerPoint。将 PDF 转换为图像格式。将 PDF 文件转换为 HTML 格式,反之亦然。将 PDF 转换为 EPUB、文本、XPS 等

你可以在我们关于如何使用 API 的 文档 中通过 .NET API 找到有关 Aspose.PDF for Python 的更多信息。