PPT
PPTX
ODP
POT
ppsx
PPT
Извлечение текста и изображений из презентации PPT с помощью Python
Создавайте собственные приложения Python для извлечения текста, изображений, видео- и аудиофайлов из PowerPoint с помощью серверных API.
Извлечь текст из презентации PPT через Python
Чтобы просмотреть текст всей презентации, используйте статический метод GetAllTextFrames , предоставляемый классом SlideUtil. Приведенный ниже код сканирует текст и информацию о форматировании из презентации, включая мастер-слайды.
Извлечение текста из презентации PPT с использованием Python
import aspose.slides as slides
#Instatiate Presentation class that represents a PPT file
with slides.Presentation("pres.ppt") as pptxPresentation:
# Get an Array of ITextFrame objects from all slides in the PPT
textFramesPPTX = slides.util.SlideUtil.get_all_text_frames(pptxPresentation, True)
# Loop through the Array of TextFrames
for i in range(len(textFramesPPTX)):
# Loop through paragraphs in current ITextFrame
for para in textFramesPPTX[i].paragraphs:
# Loop through portions in the current IParagraph
for port in para.portions:
# Display text in the current portion
print(port.text)
# Display font height of the text
print(port.portion_format.font_height)
# Display font name of the text
if port.portion_format.latin_font != None:
print(port.portion_format.latin_font.font_name)
Как извлечь текст из PPT через Python
Это шаги для разбора файлов PPT.
Загрузите PPT с экземпляром Presentation
Получите массив объектов TextFrame со всех слайдов в PPT
Перебрать массив TextFrames
Перебирать абзацы в текущем TextFrame
Перебирать части в текущем абзаце
Получить текст в текущей части