PPT PPTX ODP POT ppsx
Aspose.Slides  for Python via .NET
PPTX

Python を使用して PPTX プレゼンテーションからテキストと画像を抽出する

サーバー側 API を使用して、PowerPoint からテキスト、画像、ビデオ、およびオーディオ ファイルを抽出する独自の Python アプリを構築します。

Python 経由で PPTX プレゼンテーションからテキストを抽出

プレゼンテーション全体からテキストをスキャンするには、SlideUtil クラスによって公開される GetAllTextFrames 静的メソッドを使用します。以下のコードは、マスター スライドを含むプレゼンテーションからテキストと書式設定情報をスキャンします。

Python を使用して PPTX プレゼンテーションからテキストを抽出しています


import aspose.slides as slides

#Instatiate Presentation class that represents a PPTX file
with slides.Presentation("pres.pptx") as pptxPresentation:
    # Get an Array of ITextFrame objects from all slides in the PPTX
    textFramesPPTX = slides.util.SlideUtil.get_all_text_frames(pptxPresentation, True)
    
    # Loop through the Array of TextFrames
    for i in range(len(textFramesPPTX)):
	    # Loop through paragraphs in current ITextFrame
        for para in textFramesPPTX[i].paragraphs:
            # Loop through portions in the current IParagraph
            for port in para.portions:
			    # Display text in the current portion
                print(port.text)

    			# Display font height of the text
                print(port.portion_format.font_height)

			    # Display font name of the text
                if port.portion_format.latin_font != None:
                    print(port.portion_format.latin_font.font_name)

Python 経由で PPTX からテキストを抽出する方法

PPTX ファイルを解析する手順は次のとおりです。

  1. プレゼンテーションのインスタンスで PPTX を読み込みます

  2. PPTX 内のすべてのスライドから TextFrame オブジェクトの配列を取得します

  3. TextFrames の配列をループする

  4. 現在の TextFrame の段落をループします

  5. 現在の段落の部分をループする

  6. 現在の部分のテキストを取得する

サポートされているその他の解析形式

Python を使用すると、次の形式もスキャンできます。