PPT
PPTX
ODP
POT
ppsx
ODP
Python を使用して ODP プレゼンテーションからテキストと画像を抽出する
サーバー側 API を使用して、PowerPoint からテキスト、画像、ビデオ、およびオーディオ ファイルを抽出する独自の Python アプリを構築します。
Python 経由で ODP プレゼンテーションからテキストを抽出
プレゼンテーション全体からテキストをスキャンするには、SlideUtil クラスによって公開される GetAllTextFrames 静的メソッドを使用します。以下のコードは、マスター スライドを含むプレゼンテーションからテキストと書式設定情報をスキャンします。
Python を使用して ODP プレゼンテーションからテキストを抽出しています
import aspose.slides as slides
#Instatiate Presentation class that represents a ODP file
with slides.Presentation("pres.odp") as pptxPresentation:
# Get an Array of ITextFrame objects from all slides in the ODP
textFramesPPTX = slides.util.SlideUtil.get_all_text_frames(pptxPresentation, True)
# Loop through the Array of TextFrames
for i in range(len(textFramesPPTX)):
# Loop through paragraphs in current ITextFrame
for para in textFramesPPTX[i].paragraphs:
# Loop through portions in the current IParagraph
for port in para.portions:
# Display text in the current portion
print(port.text)
# Display font height of the text
print(port.portion_format.font_height)
# Display font name of the text
if port.portion_format.latin_font != None:
print(port.portion_format.latin_font.font_name)
Python 経由で ODP からテキストを抽出する方法
ODP ファイルを解析する手順は次のとおりです。
プレゼンテーションのインスタンスで ODP を読み込みます
ODP 内のすべてのスライドから TextFrame オブジェクトの配列を取得します
TextFrames の配列をループする
現在の TextFrame の段落をループします
現在の段落の部分をループする
現在の部分のテキストを取得する