該軟件庫為 Python 開發人員提供了一組函數來將文件 HTML 拆分為多個部分。將 HTML 拆分為單獨的文件可用於更輕鬆地並行處理文檔的各個部分。例如,如果幾個人同時在一個 HTML 上工作,那麼拆分 HTML 可以讓他們加快工作速度。拆分 HTML 可能是從文件 HTML 中提取文本並將數據集成到自動化信息系統或數據庫中的技術的一部分。
我們的庫為 Python 開發人員提供了將 HTML 拆分為多個部分並根據指定模式提取頁面所需的所有功能。這是一個獨立的 Python via .NET 解決方案,不需要安裝 Microsoft Word、Acrobat Reader 或其他應用程序。
使用 Python 代碼中的不同標準拆分 HTML 內容。您可以對 HTML 文件使用以下頁面提取模式:"按標題拆分"、"按節拆分"、"按頁拆分"、"按頁面範圍拆分"。
將文件 HTML 為多個部分後,您可以使用 'Document.Save' 方法將結果導出為所需的文件格式。您還可以使用 'DocumentPartSavingCallback' 屬性控制 HTML 部分如何導出到 HTML 或 EPUB,這將允許您重定向輸出流。
使用我們的 Python via .NET 解決方案輕鬆拆分文檔 HTML Python via .NET 。以下示例顯示如何使用 Python 拆分 HTML Python:
pip install aspose-words
複製
import aspose.words as aw
doc = aw.Document("Input.html")
for page in range(0, doc.page_count):
extractedPage = doc.extract_pages(page, 1)
extractedPage.save(f"Output_{page + 1}.html")
我們在PyPi存儲庫中託管我們的 Python 請按照有關如何 "Aspose.Words for Python via .NET" 安裝到您的開發人員環境的分步說明進行操作。
這個包與 Python ≥3.5 和 <3.12 兼容。如果您為 Linux 開發軟件,請查看產品文檔中對 gcc 和 libpython 的附加要求。