PPT
PPTX
ODP
POT
ppsx
PPTX
使用 Python 從 PPTX 演示文稿中提取文本和圖像
構建您自己的 Python 應用程序,以使用服務器端 API 從 PowerPoint 中提取文本、圖像、視頻和音頻文件。
通過 Python 從 PPTX 演示文稿中提取文本
要掃描整個演示文稿中的文本,請使用 SlideUtil 類公開的 GetAllTextFrames 靜態方法。下面的代碼掃描演示文稿中的文本和格式信息,包括母版幻燈片。
使用 Python 從 PPTX 演示文稿中提取文本
import aspose.slides as slides
#Instatiate Presentation class that represents a PPTX file
with slides.Presentation("pres.pptx") as pptxPresentation:
# Get an Array of ITextFrame objects from all slides in the PPTX
textFramesPPTX = slides.util.SlideUtil.get_all_text_frames(pptxPresentation, True)
# Loop through the Array of TextFrames
for i in range(len(textFramesPPTX)):
# Loop through paragraphs in current ITextFrame
for para in textFramesPPTX[i].paragraphs:
# Loop through portions in the current IParagraph
for port in para.portions:
# Display text in the current portion
print(port.text)
# Display font height of the text
print(port.portion_format.font_height)
# Display font name of the text
if port.portion_format.latin_font != None:
print(port.portion_format.latin_font.font_name)
如何通過 Python 從 PPTX 中提取文本
這些是解析 PPTX 文件的步驟。
使用 Presentation 實例加載 PPTX
從 PPTX 中的所有幻燈片中獲取 TextFrame 對像數組
遍歷 TextFrames 數組
循環遍歷當前 TextFrame 中的段落
遍歷當前段落中的部分
獲取當前部分的文本