PPT
PPTX
ODP
POT
ppsx
PPTX
Extrahieren Sie Text und Bilder aus der PPTX-Präsentation mit Python
Erstellen Sie mithilfe serverseitiger APIs Ihre eigenen Python-Apps zum Extrahieren von Text-, Bild-, Video- und Audiodateien aus PowerPoint.
Text aus PPTX-Präsentation über Python extrahieren
Um den Text der gesamten Präsentation zu scannen, verwenden Sie die statische Methode GetAllTextFrames , die von der SlideUtil-Klasse verfügbar gemacht wird. Der folgende Code scannt den Text und die Formatierungsinformationen aus einer Präsentation, einschließlich der Masterfolien.
Extrahieren von Text aus PPTX-Präsentation mit Python
import aspose.slides as slides
#Instatiate Presentation class that represents a PPTX file
with slides.Presentation("pres.pptx") as pptxPresentation:
    # Get an Array of ITextFrame objects from all slides in the PPTX
    textFramesPPTX = slides.util.SlideUtil.get_all_text_frames(pptxPresentation, True)
    
    # Loop through the Array of TextFrames
    for i in range(len(textFramesPPTX)):
	    # Loop through paragraphs in current ITextFrame
        for para in textFramesPPTX[i].paragraphs:
            # Loop through portions in the current IParagraph
            for port in para.portions:
			    # Display text in the current portion
                print(port.text)
    			# Display font height of the text
                print(port.portion_format.font_height)
			    # Display font name of the text
                if port.portion_format.latin_font != None:
                    print(port.portion_format.latin_font.font_name)
So extrahieren Sie Text aus PPTX über Python
Dies sind die Schritte zum Analysieren von PPTX-Dateien.
- Laden Sie PPTX mit einer Präsentationsinstanz 
- Holen Sie sich ein Array von TextFrame-Objekten von allen Folien im PPTX 
- Durchlaufen Sie das Array von TextFrames 
- Absätze im aktuellen TextFrame durchlaufen 
- Teile im aktuellen Absatz durchlaufen 
- Holen Sie sich Text im aktuellen Teil