PPT
PPTX
ODP
POT
ppsx
PPTX
Extraheer tekst en afbeeldingen uit PPTX presentatie met behulp van Python
Bouw uw eigen Python-apps voor het extraheren van tekst-, beeld-, video- en audiobestanden uit PowerPoint met behulp van server-side API’s.
Extraheer tekst uit PPTX presentatie via Python
Gebruik de statische methode GetAllTextFrames die wordt weergegeven door de klasse SlideUtil om de tekst van de hele presentatie te scannen. De onderstaande code scant de tekst en opmaakinformatie van een presentatie, inclusief de basisdia’s.
Tekst extraheren uit PPTX-presentatie met behulp van Python
import aspose.slides as slides
#Instatiate Presentation class that represents a PPTX file
with slides.Presentation("pres.pptx") as pptxPresentation:
    # Get an Array of ITextFrame objects from all slides in the PPTX
    textFramesPPTX = slides.util.SlideUtil.get_all_text_frames(pptxPresentation, True)
    
    # Loop through the Array of TextFrames
    for i in range(len(textFramesPPTX)):
	    # Loop through paragraphs in current ITextFrame
        for para in textFramesPPTX[i].paragraphs:
            # Loop through portions in the current IParagraph
            for port in para.portions:
			    # Display text in the current portion
                print(port.text)
    			# Display font height of the text
                print(port.portion_format.font_height)
			    # Display font name of the text
                if port.portion_format.latin_font != None:
                    print(port.portion_format.latin_font.font_name)
Tekst extraheren uit PPTX via Python
Dit zijn de stappen om PPTX bestanden te parseren.
- Laad PPTX met een instantie van Presentation 
- Krijg een reeks TextFrame-objecten van alle dia’s in de PPTX 
- Loop door de array van TextFrames 
- Doorloop alinea’s in het huidige TextFrame 
- Doorloop gedeelten in de huidige alinea 
- Krijg tekst in het huidige gedeelte