使用 Python 将 DOC 转换为 MHTML

在您的 Python 应用程序中将 DOC 转换为 MHTML、HtmlFixed 和 HTML,而无需安装 Microsoft Word®

 

对于尝试添加 DOC 到 MHTML(Web 存档格式)转换功能或 HtmlFixed 的 Python 开发人员来说,他们希望使用应用程序中的绝对定位元素将文档保存为 HTML 格式。 Aspose.Total for Python via .NET API 可以帮助自动化转换过程。它是处理不同格式的各种 API 的完整包。

我们使用 Aspose.Total for Python via .NET 包中的 Aspose.Words for Python via .NET API 来添加 DOC 到 MHTML 的转换功能。 如果 DOC 文件很简单,那么它只有两行代码。 加载 DOC 文件并使用适当的文件路径以及作为 MHTML 或 HTML_FIXED 的 SaveFormat 枚举调用 save 方法。 但是,如果需要将文档模型恢复为接近原始模型,则需要在结果文档中保存一些额外的信息,称为往返信息。

如何 在 Python 中将 DOC 转换为 MHTML

  • 使用 Document 类加载源 DOC 文件
  • 创建 HtmlSaveOptions 的实例。
  • 将 export_roundtrip_information 设置为 True
  • SaveFormat 指定为 MHTML
  • 在指定输出文件路径和 SaveFormat 作为参数时调用 save 方法。 因此,您的 DOC 文件将在指定路径转换为 MHTML。

转换要求

  • 对于 DOC 到 MHTML 或 HtmlFixed 格式的转换,需要 Python 3.5 或更高版本
  • 直接从 PyPI ( Aspose.Words ) 引用项目中的 API
  • 或者使用以下 pip 命令 pip install aspose.words
  • 此外,基于 Microsoft Windows 或 Linux 的操作系统(请参阅 Words 的更多信息)和 Linux 检查 gcc 和 libpython 的附加要求,并按照 INSTALL 的分步说明进行操作。
 

在 Python 中将 DOC 保存为 MHTML - 简单

 
 

Python 中的 DOC 到 MHTML 转换

 

探索 DOC Python 的转换选项

将DOC转换为CSV (逗号分隔值)
将DOC转换为DIF (数据交换格式)
将DOC转换为EXCEL (电子表格文件格式)
将DOC转换为FODS (OpenDocument 平面 XML 电子表格)
将DOC转换为ODS (OpenDocument电子表格)
将DOC转换为SXC (StarSuite Calc 电子表格)
将DOC转换为TSV (制表符分隔值)
将DOC转换为XLAM (Excel 启用宏的加载项)
将DOC转换为XLS (Microsoft Excel 二进制格式)
将DOC转换为XLSB (Excel 二进制工作簿)
将DOC转换为XLSM (启用宏的电子表格)
将DOC转换为XLSX (打开 XML 工作簿)
将DOC转换为XLT (Excel 97 - 2003 模板)
将DOC转换为XLTM (Excel 启用宏的模板)
将DOC转换为XLTX (Excel模板)
将DOC转换为EMAIL (电子邮件文件)
将DOC转换为EML (电子邮件信息)
将DOC转换为EMLX (Apple 邮件消息)
将DOC转换为ICS (日历文件)
将DOC转换为MBOX (电子邮件邮箱文件)
将DOC转换为MSG (Outlook 邮件项目文件)
将DOC转换为ODP (OpenDocument 演示文稿格式)
将DOC转换为OFT (Outlook 文件模板)
将DOC转换为OST (Outlook 离线存储表)
将DOC转换为POT (Microsoft PowerPoint 模板文件)
将DOC转换为POTM (Microsoft PowerPoint 模板文件)
将DOC转换为POTX (Microsoft PowerPoint 模板演示)
将DOC转换为PPS (PowerPoint 幻灯片放映)
将DOC转换为PPSM (启用宏的幻灯片放映)
将DOC转换为PPSX (PowerPoint 幻灯片放映)
将DOC转换为PPT (PowerPoint演示文稿)
将DOC转换为PPTM (启用宏的演示文稿文件)
将DOC转换为PPTX (打开 XML 表示格式)
将DOC转换为PST (Outlook 个人存储表)
将DOC转换为VCF (电子名片档案)

什么是DOC文件格式

Microsoft Word 二进制文件格式 (DOC) 是 Microsoft Office Word 使用的专有文档文件格式。它表示独立于任何特定计算机体系结构或操作系统的文档结构。 DOC 格式作为一个容器文件,利用二进制格式存储各种类型的数据,包括格式化文本、图像、图表等。 DOC 格式的二进制性质使其无法被人类阅读,但存在一些程序,例如 Microsoft Word 和 LibreOffice,可以读取和写入 DOC 文件。

DOC 格式最初是早在 1987 年就在 Word for Windows 2.0 中引入。此后经历了多次修订,最近一次迭代是 Office 2007 中引入的 Office Open XML 格式。DOC 格式的主要优势之一在于它与 Microsoft Word 的兼容性,全球使用最广泛的文字处理应用程序之一。这种兼容性允许用户使用 Microsoft Word 创建和修改文档,并方便地与也使用该应用程序的其他人共享它们。此外,许多其他文字处理应用程序具有读取和写入 DOC 格式的能力,使其成为文档共享目的的多功能选择。

DOC 格式的广泛采用源于它与 Microsoft Word 的集成,为用户提供了一个强大且功能丰富的环境来创建和管理文档。该格式的灵活性超越了 Microsoft Word,使用户能够使用其他文字处理软件处理 DOC 文件。这种多功能性确保了用户之间的无缝文档协作和互换性,无论他们选择何种文字处理应用程序。

什么是MHTML文件格式

MHTML 是 MIME HTML 的缩写,是一种将 HTML 代码及其相关资源组合到单个文件中的文件格式。它代表多用途 Internet 邮件扩展 HTML。 MHTML 文件通常用于将网页(包括其所有内容,例如图像、CSS 样式表和 JavaScript)保存到单个文件中。

MHTML 文件通常是在用户保存网页以供离线使用时由网络浏览器创建的查看或存档目的。通过将所有必要的资源捆绑到一个文件中,MHTML 确保即使没有互联网连接或无法访问原始服务器,也可以准确地查看和呈现网页。

MHTML 格式遵循 MIME 标准,用于通过 Internet 编码和交换各种类型的数据。它使用多部分 MIME 编码将 HTML 代码和相关资源打包到一个文件中。该文件通常具有 .mht 或 .mhtml 文件扩展名。

MHTML 文件可以通过支持该格式的网络浏览器打开和查看,例如 Internet Explorer、Microsoft Edge 和 Opera。一些文本编辑器和专用软件还提供打开和编辑 MHTML 文件的功能。

MHTML 格式在便携性和便利性方面具有优势,因为它允许用户将网页保存和共享为单个文件,确保页面布局、格式和链接资源的保存。然而,值得注意的是,MHTML 不像 HTML 或 PDF 等其他网络格式那样广泛使用,并且兼容性可能因不同的软件和平台而异。