在 Python 中将 MHT s 转换为 TXT。快速。简单。没有外部依赖关系。

MHT 到 TXT 的 Python 转换。程序员可以使用此示例代码通过 COM Interop 将 MHT 导出到任何 .NET 框架、.NET Core 以及 PHP、VBScript、C++ 中的 TXT。

在 Aspose.PDF 中将 Python via .NET 的 MHT 转换为 TXT

如何将 MHT 转换为 TXT?您可以使用现代文档处理 Python API 轻松地以编程方式将文档从 MHT 转换为 TXT 格式。只需几行代码即可转换高质量的文件。Aspose.PDF 库将允许任何开发人员轻松解决使用 Python 将 MHT 转换为 TXT 的任务。

有关代码片段和其他可能的转换格式的更详细描述,请参阅 文档 页面。此外,您还可以查看我们的库支持的其他 转换 格式。

通过 .NET 的 Aspose.PDF for Python 库,你可以通过编程方式将 MHT 转换为 TXT。Aspose 的 PDF 软件非常适合个人、小型或大型企业。由于它能够处理大量信息,因此可以快速高效地进行转换并保护您的数据。Aspose.PDF 的一个特殊功能是用于将 MHT 转换为 TXT 的 API。这种方法的特点是,你只需要打开 PyPI 包管理器,搜索 aspose-pdf,然后安装它,无需任何特殊的复杂设置。要验证该库的好处,请尝试使用将 MHT 转换为 TXT 的代码片段。您也可以使用控制台或终端中的以下命令:

Console

pip install aspose-pdf

如何将 MHT 转换为 TXT


Python 开发人员只需几行代码即可轻松加载并将 MHT 文件转换为 TXT。

  1. 从 aspose.pdf 库中导入所需的模块,包括 FileIO 和路径类。这些库用于与 PDF 文件交互并将其保存为其他格式。
  2. 通过将 indir 与 infile 连接来指定输入 PDF 文件的路径,确保正确的目录结构。
  3. 创建 MhtLoadOptions 类的实例来指定保存文档的输出格式。这些选项控制转换后的 MHT 文件的特性。
  4. 使用 apdf.Document () 将输入的 PDF 文件加载到文档对象中。加载的文档将用于处理和保存为其他格式。
  5. 打印加载的 PDF 文档中的页数。此信息对于验证已加载文档的准确性非常有用。
  6. 创建 TextDevice 类的实例来处理 PDF 文档以进行文本提取。这些设备用于从 PDF 文件中提取特定数据,例如文本或图像。
  7. 使用 TextDevice 实例处理加载的 PDF 文档的第一页以进行文本提取。提取的文本将保存到 path_outfile 的指定输出文件中。
  8. 以 TIFF 格式保存文档后,打印一条成功消息,表明转换已完成。此步骤确认转换过程已成功并且可以在指定路径找到输出文件。

以下示例演示了如何在 Python 中将 MHT 转换为 TXT。您可以按照以下简单步骤将 MHT 文件转换为 TXT 格式。首先,上传您的 MHT 文件,然后将其保存为 TXT 文件即可。你可以使用完全限定的文件名进行 MHT 读取和 TXT 写入。输出 TXT 的内容和格式将与原始 MHT 文档相同。

示例:通过 Python 将 MHT 转换为 TXT

此示例代码显示了 MHT 到 TXT Python 的转换

Input file:

File not added

Output format:

TXT

Output file:

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

load_options = apdf.MhtLoadOptions()
document = apdf.Document(path_infile, load_options)
print(len(document.pages))
device = apdf.devices.TextDevice()
device.process(document.pages[1], path_outfile)

print(infile + " converted into " + outfile)

使用 Aspose.PDF for Python via .NET 将 MHT 转换为 TXT

通过 .NET API for Python 的 Aspose.PDF 支持大多数既定的 PDF 标准和 PDF 规范。它允许开发人员将表格、图表、图像、超链接、自定义字体等插入到 PDF 文档中。此外,还可以压缩 PDF 文档。通过.NET for Python 的 Aspose.PDF 为开发安全的 PDF 文档提供了出色的安全功能。通过 .NET API 实现的 Aspose.PDF for Python 的一些关键功能包括:

  • 能够读取和导出多种图像格式的 PDF,包括 BMP、GIF、JPEG 和 PNG。
  • 设置 PDF 文档的基本信息(例如作者、创建者)。
  • 转换功能:将 PDF 转换为 Word、Excel 和 PowerPoint。将 PDF 转换为图像格式。将 PDF 文件转换为 HTML 格式,反之亦然。将 PDF 转换为 EPUB、文本、XPS 等

你可以在我们关于如何使用 API 的 文档 中通过 .NET API 找到有关 Aspose.PDF for Python 的更多信息。