PPT
PPTX
ODP
POT
ppsx
PPTX
Extraia texto e imagens da apresentação PPTX usando Python
Crie seus próprios aplicativos Python para extrair arquivos de texto, imagem, vídeo e áudio do PowerPoint usando APIs do lado do servidor.
Extrair texto da apresentação PPTX via Python
Para digitalizar o texto de toda a apresentação, use o método estático GetAllTextFrames exposto pela classe SlideUtil. O código abaixo verifica o texto e as informações de formatação de uma apresentação, incluindo os slides mestres.
Extraindo texto da apresentação PPTX usando Python
import aspose.slides as slides
#Instatiate Presentation class that represents a PPTX file
with slides.Presentation("pres.pptx") as pptxPresentation:
# Get an Array of ITextFrame objects from all slides in the PPTX
textFramesPPTX = slides.util.SlideUtil.get_all_text_frames(pptxPresentation, True)
# Loop through the Array of TextFrames
for i in range(len(textFramesPPTX)):
# Loop through paragraphs in current ITextFrame
for para in textFramesPPTX[i].paragraphs:
# Loop through portions in the current IParagraph
for port in para.portions:
# Display text in the current portion
print(port.text)
# Display font height of the text
print(port.portion_format.font_height)
# Display font name of the text
if port.portion_format.latin_font != None:
print(port.portion_format.latin_font.font_name)
Como extrair texto de PPTX via Python
Estas são as etapas para analisar arquivos PPTX.
Carregar PPTX com uma instância de Apresentação
Obtenha uma matriz de objetos TextFrame de todos os slides no PPTX
Percorra a matriz de TextFrames
Percorre os parágrafos no TextFrame atual
Percorrer partes do parágrafo atual
Obter texto na parte atual