PPT PPTX ODP POT ppsx
Aspose.Slides  for Python via .NET
PPTX

Извлечение текста и изображений из презентации PPTX с помощью Python

Создавайте собственные приложения Python для извлечения текста, изображений, видео- и аудиофайлов из PowerPoint с помощью серверных API.

Извлечь текст из презентации PPTX через Python

Чтобы просмотреть текст всей презентации, используйте статический метод GetAllTextFrames , предоставляемый классом SlideUtil. Приведенный ниже код сканирует текст и информацию о форматировании из презентации, включая мастер-слайды.

Извлечение текста из презентации PPTX с использованием Python


import aspose.slides as slides

#Instatiate Presentation class that represents a PPTX file
with slides.Presentation("pres.pptx") as pptxPresentation:
    # Get an Array of ITextFrame objects from all slides in the PPTX
    textFramesPPTX = slides.util.SlideUtil.get_all_text_frames(pptxPresentation, True)
    
    # Loop through the Array of TextFrames
    for i in range(len(textFramesPPTX)):
	    # Loop through paragraphs in current ITextFrame
        for para in textFramesPPTX[i].paragraphs:
            # Loop through portions in the current IParagraph
            for port in para.portions:
			    # Display text in the current portion
                print(port.text)

    			# Display font height of the text
                print(port.portion_format.font_height)

			    # Display font name of the text
                if port.portion_format.latin_font != None:
                    print(port.portion_format.latin_font.font_name)

Как извлечь текст из PPTX через Python

Это шаги для разбора файлов PPTX.

  1. Загрузите PPTX с экземпляром Presentation

  2. Получите массив объектов TextFrame со всех слайдов в PPTX

  3. Перебрать массив TextFrames

  4. Перебирать абзацы в текущем TextFrame

  5. Перебирать части в текущем абзаце

  6. Получить текст в текущей части

Другие поддерживаемые форматы разбора

Используя Python, Вы также можете сканировать следующие форматы: