该软件库为 Python 开发人员提供了一组将 DOCX 文件拆分为多个部分的函数。将 DOCX 文档拆分为单独的文件可以更轻松地并行处理文档的各个部分。例如,如果几个人同时处理一个 DOCX 文档,则拆分该文档将使他们能够加快工作速度。 DOCX 文档分割可以是从 DOCX 文件中提取文本并将数据集成到自动化信息系统或数据库中的技术的一部分。
我们的库为 Python 开发人员提供了将 DOCX 文件拆分为多个部分并根据指定模式提取页面的所有必要功能。这是一个独立的 Python via .NET 解决方案,不需要安装 Microsoft Word、Acrobat Reader 或其他应用程序。
在 Python 代码中使用不同的标准拆分 DOCX 内容。您可以对 DOCX 文档使用以下页面提取模式:"按标题拆分"、"按部分拆分"、"逐页拆分"、"按页面范围拆分"。
将 DOCX 文件拆分为多个部分后,您可以使用"Document.Save"方法将结果导出为所需的文件格式。您还可以使用"DocumentPartSavingCallback"属性控制如何将 DOCX 文档部分导出为 HTML 或 EPUB,这将允许您重定向输出流。
使用我们的 Python via .NET 解决方案轻松拆分 DOCX 文档。以下示例显示如何使用 Python 拆分 DOCX 文档:
pip install aspose-words
复制
import aspose.words as aw
doc = aw.Document("Input.docx")
for page in range(0, doc.page_count):
extractedPage = doc.extract_pages(page, 1)
extractedPage.save(f"Output_{page + 1}.docx")
我们在PyPi存储库中托管我们的 Python 请按照有关如何 "Aspose.Words for Python via .NET" 安装到您的开发人员环境的分步说明进行操作。
这个包与 Python ≥3.5 和 <3.12 兼容。如果您为 Linux 开发软件,请查看产品文档中对 gcc 和 libpython 的附加要求。