PPT PPTX ODP POT ppsx
Aspose.Slides  for Python via .NET
PPTX

使用 Python 从 PPTX 演示文稿中提取文本和图像

构建您自己的 Python 应用程序,以使用服务器端 API 从 PowerPoint 中提取文本、图像、视频和音频文件。

通过 Python 从 PPTX 演示文稿中提取文本

要扫描整个演示文稿中的文本,请使用 SlideUtil 类公开的 GetAllTextFrames 静态方法。下面的代码扫描演示文稿中的文本和格式信息,包括母版幻灯片。

使用 Python 从 PPTX 演示文稿中提取文本


import aspose.slides as slides

#Instatiate Presentation class that represents a PPTX file
with slides.Presentation("pres.pptx") as pptxPresentation:
    # Get an Array of ITextFrame objects from all slides in the PPTX
    textFramesPPTX = slides.util.SlideUtil.get_all_text_frames(pptxPresentation, True)
    
    # Loop through the Array of TextFrames
    for i in range(len(textFramesPPTX)):
	    # Loop through paragraphs in current ITextFrame
        for para in textFramesPPTX[i].paragraphs:
            # Loop through portions in the current IParagraph
            for port in para.portions:
			    # Display text in the current portion
                print(port.text)

    			# Display font height of the text
                print(port.portion_format.font_height)

			    # Display font name of the text
                if port.portion_format.latin_font != None:
                    print(port.portion_format.latin_font.font_name)

如何通过 Python 从 PPTX 中提取文本

这些是解析 PPTX 文件的步骤。

  1. 使用 Presentation 实例加载 PPTX

  2. 从 PPTX 中的所有幻灯片中获取 TextFrame 对象数组

  3. 遍历 TextFrame 数组

  4. 循环遍历当前 TextFrame 中的段落

  5. 遍历当前段落中的部分

  6. 获取当前部分的文本

其他支持的解析格式

使用Python,您还可以扫描以下格式: