PPT PPTX ODP POT ppsx
Aspose.Slides  for Python via .NET
PPTX

Extraheer tekst en afbeeldingen uit PPTX presentatie met behulp van Python

Bouw uw eigen Python-apps voor het extraheren van tekst-, beeld-, video- en audiobestanden uit PowerPoint met behulp van server-side API’s.

Extraheer tekst uit PPTX presentatie via Python

Gebruik de statische methode GetAllTextFrames die wordt weergegeven door de klasse SlideUtil om de tekst van de hele presentatie te scannen. De onderstaande code scant de tekst en opmaakinformatie van een presentatie, inclusief de basisdia’s.

Tekst extraheren uit PPTX-presentatie met behulp van Python


import aspose.slides as slides

#Instatiate Presentation class that represents a PPTX file
with slides.Presentation("pres.pptx") as pptxPresentation:
    # Get an Array of ITextFrame objects from all slides in the PPTX
    textFramesPPTX = slides.util.SlideUtil.get_all_text_frames(pptxPresentation, True)
    
    # Loop through the Array of TextFrames
    for i in range(len(textFramesPPTX)):
	    # Loop through paragraphs in current ITextFrame
        for para in textFramesPPTX[i].paragraphs:
            # Loop through portions in the current IParagraph
            for port in para.portions:
			    # Display text in the current portion
                print(port.text)

    			# Display font height of the text
                print(port.portion_format.font_height)

			    # Display font name of the text
                if port.portion_format.latin_font != None:
                    print(port.portion_format.latin_font.font_name)

Tekst extraheren uit PPTX via Python

Dit zijn de stappen om PPTX bestanden te parseren.

  1. Laad PPTX met een instantie van Presentation

  2. Krijg een reeks TextFrame-objecten van alle dia’s in de PPTX

  3. Loop door de array van TextFrames

  4. Doorloop alinea’s in het huidige TextFrame

  5. Doorloop gedeelten in de huidige alinea

  6. Krijg tekst in het huidige gedeelte

Andere ondersteunde ontleedformaten

Met Python kunt u ook de volgende formaten scannen: