Parseer POWERPOINT-bestanden online en extraheer tekst of afbeeldingen via Python
Ontwikkel een krachtige, op Python gebaseerde POWERPOINT-hulpprogramma voor documentparser.Code vermeld voor POWERPOINT-afbeeldingen en tekstextractie via Python.
Parseer het POWERPOINT-document via de online app
- Importeer het POWERPOINT-bestand om het te parseren door het te uploaden.
- Doe dit door in het neerzetgebied te klikken via slepen en neerzetten van de parser-app.
- Wacht enkele seconden, afhankelijk van de grootte van het POWERPOINT-bestand en de internetsnelheid.
- Klik op de knop ‘Nu parseren’ om het document te parseren.
- Download de geparseerde bestanden om ze direct te bekijken.
Extraheer tekst uit POWERPOINT-bestand via Python
- Referentie-API’s binnen het project rechtstreeks vanuit PyPI ( Aspose.Slides )
- Gebruik PresentationFactory().get_presentation_text(string, TextExtractionArrangingMode) voor alle soorten tekst in de presentatie
- Laad de presentatie in een Presentation-klasseobject
- Loop door alle dia’s in de presentatie
- Extraheer tekst uit elke dia met behulp van de array slides_text
Codevoorbeeld in Python om POWERPOINT-tekst te extraheren
import aspose.slides as slides | |
text = slides.PresentationFactory().get_presentation_text("powerpoint-presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED) | |
with slides.Presentation("presentation.pptx") as ppt: | |
for index in range(ppt.slides.length): | |
print(text.slides_text[index].text) | |
print(text.slides_text[index].layout_text) | |
print(text.slides_text[index].master_text) | |
print(text.slides_text[index].notes_text) |
Extraheer afbeeldingen uit POWERPOINT via Python
- Referentie-API’s binnen het project rechtstreeks vanuit PyPI ( Aspose.Slides )
- Toegang tot de presentatie via Presentatie
- Herhaal elke dia
- Neem de achterkant
- Stel het gewenste formaat in als achterfoto beschikbaar is
- Loop door alle diavormen en sla op
Codevoorbeeld in Python om POWERPOINT-afbeeldingen te extraheren
import aspose.pydrawing as draw | |
import aspose.slides as slides | |
def get_image_format(image_type): | |
return { | |
"jpeg": draw.imaging.ImageFormat.jpeg, | |
"emf": draw.imaging.ImageFormat.emf, | |
"bmp": draw.imaging.ImageFormat.bmp, | |
"png": draw.imaging.ImageFormat.png, | |
"wmf": draw.imaging.ImageFormat.wmf, | |
"gif": draw.imaging.ImageFormat.gif, | |
}.get(image_type, draw.imaging.ImageFormat.jpeg) | |
with slides.Presentation("pres.pptx") as pres: | |
slideIndex = 0 | |
image_type = "" | |
ifImageFound = False | |
for slide in pres.slides: | |
slideIndex += 1 | |
image_format = draw.imaging.ImageFormat.jpeg | |
back_image = None | |
file_name = "BackImage_Slide_{0}{1}.{2}" | |
is_layout = False | |
if slide.background.fill_format.fill_type == slides.FillType.PICTURE: | |
back_image = slide.background.fill_format.picture_fill_format.picture.image | |
elif slide.layout_slide.background.fill_format.fill_type == slides.FillType.PICTURE: | |
back_image = slide.layout_slide.background.fill_format.picture_fill_format.picture.image | |
is_layout = True | |
if back_image is not None: | |
image_type = back_image.content_type.split("/")[1] | |
image_format = get_image_format(image_type) | |
back_image.system_image.save( | |
file_name.format("LayoutSlide_" if is_layout else "", slideIndex, image_type), | |
image_format) | |
for i in range(len(slide.shapes)): | |
shape = slide.shapes[i] | |
shape_image = None | |
if type(shape) is slides.AutoShape and shape.fill_format.fill_type == slides.FillType.PICTURE: | |
shape_image = shape.fill_format.picture_fill_format.picture.image | |
elif type(shape) is slides.PictureFrame: | |
shape_image = shape.picture_format.picture.image | |
if shape_image is not None: | |
image_type = shape_image.content_type.split("/")[1] | |
image_format = get_image_format(image_type) | |
shape_image.system_image.save( | |
file_name.format("shape_"+str(i)+"_", slideIndex, image_type), | |
image_format) |
Develop POWERPOINT File Parser Application via Python
Wilt u een POWERPOINT-parser-app of -hulpprogramma ontwikkelen?Met
Aspose.Slides for Python via .NET
, een onderliggende API van
Aspose.Total for Python via .NET
, kan elke Python-ontwikkelaar de bovenstaande API-code integreren in zijn documentparsertoepassing.Met de krachtige Python-bibliotheek kunt u elke oplossing voor het parseren van documenten programmeren om zowel afbeeldingen als tekst te extraheren.Bovendien ondersteunt het vele populaire formaten, waaronder het POWERPOINT-formaat.
Python-hulpprogramma om het POWERPOINT-bestand voor de parser-app te verwerken
Er zijn alternatieve opties om “
Aspose.Slides for Python via .NET
” of “
Aspose.Total for Python via .NET
” op uw systeem te installeren.Kies er een die aan uw behoeften voldoet en volg de stapsgewijze instructies:
- Installeer Aspose.Slides for Python via .NET vanaf PyPI
- Of gebruik de volgende pip-opdrachten
pip install Aspose.Slides
.
systeem vereisten
- Python 3.5 of hoger is geïnstalleerd
- GCC-6 runtime-bibliotheken (of hoger).
- Voor Python 3.5-3.7: De pymalloc-build van Python is nodig.
Voor meer details verwijzen wij u naar Productdocumentatie .
Veelgestelde vragen
- Kan ik bovenstaande Python-code in mijn applicatie gebruiken?Ja, u bent van harte welkom om deze code te downloaden en te gebruiken voor het ontwikkelen van een op Python gebaseerde documentparsertoepassing.Deze code kan dienen als een waardevolle hulpbron om de functionaliteit en mogelijkheden van uw projecten op het gebied van backend-documentverwerking te verbeteren, zoals het lezen van knooppunten en het laden van het document voor het extraheren van tekst en afbeeldingen.
- Werkt deze online documentparser-app alleen op Windows?U heeft de flexibiliteit om het parseren van documenten op elk apparaat te starten, ongeacht het besturingssysteem waarop het draait, of het nu Windows, Linux, Mac OS of Android is.Het enige dat nodig is, is een moderne webbrowser en een actieve internetverbinding.
- Is het veilig om de online app te gebruiken voor het parseren van POWERPOINT-documenten?Natuurlijk! De uitvoerbestanden die via onze service worden gegenereerd, worden binnen 24 uur veilig en automatisch van onze servers verwijderd.Als gevolg hiervan zullen de weergavelinks die aan deze bestanden zijn gekoppeld, na deze periode niet meer functioneren.
- Welke browser moet de app gebruiken?U kunt elke moderne webbrowser zoals Google Chrome, Firefox, Opera of Safari gebruiken voor online POWERPOINT-documentparser.Als u echter een desktoptoepassing ontwikkelt, raden we u aan de documentverwerkings-API Aspose.Total te gebruiken voor efficiënt beheer.