Chia tài liệu thành các phần trong Python

Thư viện Python nhanh chóng để chia tài liệu thành một nhóm tệp nhỏ hơn theo tiêu chí đã cho

Sử dụng thư viện Python để chia tài liệu thành nhiều phần. Bạn có thể tích hợp các trang được trích xuất với dữ liệu khác và kết quả là bạn nhận được các tài liệu có hình thức và nội dung mà bạn yêu cầu. Chia tài liệu thành nhiều phần giúp cộng tác trên chúng dễ dàng hơn.

Xem đoạn mã

Tách Word, PDF bằng Python

Thư viện phần mềm này cung cấp cho nhà phát triển Python một bộ chức năng để chia Word tài liệu, PDF, EPUB, HTML, DOCX thành nhiều phần. Chia văn bản thành các tệp riêng biệt có thể được sử dụng để làm việc với các phần của tài liệu dễ dàng hơn. Quy trình tách tài liệu có thể là một phần của công nghệ tích hợp dữ liệu vào hệ thống thông tin hoặc cơ sở dữ liệu tự động.

Thư viện của chúng tôi cung cấp cho các nhà phát triển Python tất cả các chức năng cần thiết cho tài liệu và trích xuất các trang tài liệu theo chế độ được chỉ định. Đây là giải pháp Python via .NET độc lập không cần cài đặt Microsoft Word, Acrobat Reader hoặc các ứng dụng khác.

Chia tài liệu thành các phần bằng Python

Tách nội dung tài liệu bằng các tiêu chí khác nhau trong mã Python. Bạn có thể sử dụng các chế độ trích xuất trang sau: 'chia theo tiêu đề', 'chia theo phần', 'chia trang theo trang', 'chia theo phạm vi trang'.

Sau khi chia nhỏ tài liệu, bạn có thể xuất kết quả sang định dạng tệp yêu cầu bằng phương pháp 'Document.Save'. Bạn cũng có thể kiểm soát cách các phần tài liệu được xuất sang HTML định dạng hoặc EPUB bằng cách sử dụng thuộc tính 'DocumentPartSavingCallback', cho phép bạn chuyển hướng các luồng đầu ra.

Tách tài liệu dễ dàng với giải pháp của chúng tôi cho Python via .NET. Ví dụ sau cho thấy cách chia tài liệu bằng Python:

Ví dụ về mã trong Python để chia tài liệu thành các phần
Tải lên tệp bạn muốn tách
Mã vận hành
Chọn định dạng mục tiêu từ danh sách
import aspose.words as aw

doc = aw.Document("Input.docx")
            
for page in range(0, doc.page_count):
    extractedPage = doc.extract_pages(page, 1)
    extractedPage.save(f"Output_{page + 1}.docx")
Mã vận hành

Cách tách các Word định dạng tệp, PDF, HTML và các định dạng tệp khác trong Python

  1. Cài đặt thư viện Python để phân chia tài liệu theo chương trình.
  2. Thêm tham chiếu thư viện (nhập thư viện) vào dự án Python của bạn.
  3. Mở tài liệu nguồn trong Python.
  4. Gọi phương thức extract_pages() để trích xuất các trang cụ thể từ tài liệu của bạn.
  5. Nhận kết quả của việc chia nhỏ tài liệu thành các tệp riêng biệt.

Python thư viện để chia nhỏ tệp

Chúng tôi lưu trữ các gói Python trong kho lưu trữ PyPi. Vui lòng làm theo hướng dẫn từng bước về cách cài đặt "Aspose.Words for Python via .NET" vào môi trường nhà phát triển của bạn.

yêu cầu hệ thống

Gói này tương thích với Python ≥3.5 và <3.12. Nếu bạn phát triển phần mềm cho Linux, vui lòng xem các yêu cầu bổ sung đối với gcc và libpython trong Tài liệu sản phẩm.

Các định dạng tệp phổ biến nhất để chia nhỏ

5%

Đăng ký cập nhật sản phẩm của Aspose

Nhận bản tin hàng tháng và ưu đãi gửi trực tiếp đến hộp thư của bạn.

© Aspose Pty Ltd 2001-2024. Đã đăng ký Bản quyền.