PPT
PPTX
ODP
POT
ppsx
PPTX
Extraire le texte et les images de la présentation PPTX à l’aide de Python
Créez vos propres applications Python pour extraire des fichiers texte, image, vidéo et audio de PowerPoint à l’aide d’API côté serveur.
Extraire le texte de la présentation PPTX via Python
Pour analyser le texte de toute la présentation, utilisez la méthode statique GetAllTextFrames exposée par la classe SlideUtil. Le code ci-dessous analyse le texte et les informations de mise en forme d’une présentation, y compris les diapositives principales.
Extraction de texte de la présentation PPTX à l'aide de Python
import aspose.slides as slides
#Instatiate Presentation class that represents a PPTX file
with slides.Presentation("pres.pptx") as pptxPresentation:
# Get an Array of ITextFrame objects from all slides in the PPTX
textFramesPPTX = slides.util.SlideUtil.get_all_text_frames(pptxPresentation, True)
# Loop through the Array of TextFrames
for i in range(len(textFramesPPTX)):
# Loop through paragraphs in current ITextFrame
for para in textFramesPPTX[i].paragraphs:
# Loop through portions in the current IParagraph
for port in para.portions:
# Display text in the current portion
print(port.text)
# Display font height of the text
print(port.portion_format.font_height)
# Display font name of the text
if port.portion_format.latin_font != None:
print(port.portion_format.latin_font.font_name)
Comment extraire du texte de PPTX via Python
Voici les étapes pour analyser les fichiers PPTX.
Charger PPTX avec une instance de Presentation
Obtenez un tableau d’objets TextFrame de toutes les diapositives dans le PPTX
Boucle à travers le tableau de TextFrames
Boucle à travers les paragraphes dans le TextFrame actuel
Boucle sur des parties du paragraphe actuel
Obtenir du texte dans la partie actuelle