PPT
PPTX
ODP
POT
ppsx
PPT
Trích xuất văn bản và hình ảnh từ bản trình bày PPT bằng Python
Xây dựng các ứng dụng Python của riêng bạn để trích xuất các tệp văn bản, hình ảnh, video và âm thanh từ PowerPoint bằng API phía máy chủ.
Trích xuất văn bản từ bản trình bày PPT qua Python
Để quét văn bản từ toàn bộ bản trình bày, hãy sử dụng phương thức tĩnh GetAllTextFrames do lớp SlideUtil đưa ra. Mã bên dưới quét văn bản và thông tin định dạng từ bản trình bày, bao gồm các trang chiếu chính.
Trích xuất Văn bản từ Bản trình bày PPT bằng Python
import aspose.slides as slides
#Instatiate Presentation class that represents a PPT file
with slides.Presentation("pres.ppt") as pptxPresentation:
# Get an Array of ITextFrame objects from all slides in the PPT
textFramesPPTX = slides.util.SlideUtil.get_all_text_frames(pptxPresentation, True)
# Loop through the Array of TextFrames
for i in range(len(textFramesPPTX)):
# Loop through paragraphs in current ITextFrame
for para in textFramesPPTX[i].paragraphs:
# Loop through portions in the current IParagraph
for port in para.portions:
# Display text in the current portion
print(port.text)
# Display font height of the text
print(port.portion_format.font_height)
# Display font name of the text
if port.portion_format.latin_font != None:
print(port.portion_format.latin_font.font_name)
Cách trích xuất văn bản từ PPT qua Python
Đây là các bước để Phân tích tệp PPT.
Tải PPT với phiên bản Trình bày
Nhận một mảng các đối tượng TextFrame từ tất cả các trang chiếu trong PPT
Lặp qua Mảng TextFrames
Lặp qua các đoạn trong TextFrame hiện tại
Lặp qua các phần trong Đoạn văn hiện tại
Nhận văn bản trong phần hiện tại