使用 Python 将 PDF 转换为 MHTML

在您的 Python 应用程序中将 PDF 转换为 MHTML、HtmlFixed 和 HTML,而无需安装 Microsoft Word®

 

对于尝试添加 PDF 到 MHTML(Web 存档格式)转换功能或 HtmlFixed 的 Python 开发人员来说,他们希望使用应用程序中的绝对定位元素将文档保存为 HTML 格式。 Aspose.Total for Python via .NET API 可以帮助自动化转换过程。它是处理不同格式的各种 API 的完整包。

我们使用 Aspose.Total for Python via .NET 包中的 Aspose.Words for Python via .NET API 来添加 PDF 到 MHTML 的转换功能。 如果 PDF 文件很简单,那么它只有两行代码。 加载 PDF 文件并使用适当的文件路径以及作为 MHTML 或 HTML_FIXED 的 SaveFormat 枚举调用 save 方法。 但是,如果需要将文档模型恢复为接近原始模型,则需要在结果文档中保存一些额外的信息,称为往返信息。

如何 在 Python 中将 PDF 转换为 MHTML

  • 使用 Document 类加载源 PDF 文件
  • 创建 HtmlSaveOptions 的实例。
  • 将 export_roundtrip_information 设置为 True
  • SaveFormat 指定为 MHTML
  • 在指定输出文件路径和 SaveFormat 作为参数时调用 save 方法。 因此,您的 PDF 文件将在指定路径转换为 MHTML。

转换要求

  • 对于 PDF 到 MHTML 或 HtmlFixed 格式的转换,需要 Python 3.5 或更高版本
  • 直接从 PyPI ( Aspose.Words ) 引用项目中的 API
  • 或者使用以下 pip 命令 pip install aspose.words
  • 此外,基于 Microsoft Windows 或 Linux 的操作系统(请参阅 Words 的更多信息)和 Linux 检查 gcc 和 libpython 的附加要求,并按照 INSTALL 的分步说明进行操作。
 

在 Python 中将 PDF 保存为 MHTML - 简单

import aspose.words as aw
pdfDoc = aw.Document(dataDir + "sourceFile.pdf")
pdfDoc.save(dataDir + "output.mhtml", aw.SaveFormat.MHTML)
 
 

Python 中的 PDF 到 MHTML 转换

import aspose.words as aw
pdfDoc = aw.Document(dataDir + "sourcefile.pdf")
saveOptions = aw.saving.HtmlSaveOptions()
saveOptions.save_format = aw.SaveFormat.MHTML
saveOptions.export_roundtrip_information = True
saveOptions.export_fonts_as_base64 = True
pdfDoc.save(dataDir + "pdfto.mhtml", saveOptions)
 

探索 PDF Python 的转换选项

将PDF转换为EMAIL (电子邮件文件)
将PDF转换为EML (电子邮件信息)
将PDF转换为EMLX (Apple 邮件消息)
将PDF转换为ICS (日历文件)
将PDF转换为MBOX (电子邮件邮箱文件)
将PDF转换为MSG (Outlook 邮件项目文件)
将PDF转换为OFT (Outlook 文件模板)
将PDF转换为OST (Outlook 离线存储表)
将PDF转换为PST (Outlook 个人存储表)
将PDF转换为VCF (电子名片档案)