PPT PPTX ODP POT ppsx
Aspose.Slides  for Python via .NET
PPT

Extrahera text och bilder från presentationen PPT med Python

Bygg dina egna Python-appar för att extrahera text-, bild-, video- och ljudfiler från PowerPoint med API:er på serversidan.

Extrahera text från PPT presentation via Python

För att skanna texten från hela presentationen, använd den statiska metoden GetAllTextFrames som exponeras av SlideUtil-klassen. Koden nedan skannar text- och formateringsinformation från en presentation, inklusive huvudbilderna.

Extrahera text från PPT presentation med Python


import aspose.slides as slides

#Instatiate Presentation class that represents a PPT file
with slides.Presentation("pres.ppt") as pptxPresentation:
    # Get an Array of ITextFrame objects from all slides in the PPT
    textFramesPPTX = slides.util.SlideUtil.get_all_text_frames(pptxPresentation, True)
    
    # Loop through the Array of TextFrames
    for i in range(len(textFramesPPTX)):
	    # Loop through paragraphs in current ITextFrame
        for para in textFramesPPTX[i].paragraphs:
            # Loop through portions in the current IParagraph
            for port in para.portions:
			    # Display text in the current portion
                print(port.text)

    			# Display font height of the text
                print(port.portion_format.font_height)

			    # Display font name of the text
                if port.portion_format.latin_font != None:
                    print(port.portion_format.latin_font.font_name)

Så här extraherar du text från PPT via Python

Det här är stegen för att analysera PPT-filer.

  1. Ladda PPT med en instans av Presentation

  2. Få en uppsättning TextFrame-objekt från alla bilder i PPT

  3. Gå igenom arrayen av textramar

  4. Gå igenom stycken i nuvarande TextFrame

  5. Gå igenom delar i det aktuella stycket

  6. Hämta text i den aktuella delen

Andra parseformat som stöds

Med Python kan du även skanna följande format: