Extraire des images d’un PDF en Python

Comment extraire des images d’un PDF à l’aide de la bibliothèque Python for .NET

Comment extraire des images d'un PDF à l'aide de la bibliothèque Python for .NET

Avez-vous besoin d’extraire des images d’un PDF ? La modification programmatique des documents PDF est un élément essentiel des flux de travail numériques modernes. Avec les bibliothèques Python telles que Aspose.PDF, les développeurs peuvent extraire des images d’un PDF. Ces bibliothèques sont des solutions autonomes qui ne s’appuient sur aucun autre logiciel et sont prêtes à être utilisées à des fins commerciales. Ils couvrent tous les besoins possibles des développeurs Python professionnels.

  • Extraire le texte d’un PDF
  • Extraire des images d’un PDF
  • Extraire les polices d’un PDF
  • Extraire les données du formulaire
  • Extraire le texte des timbres
  • Extraire les données du tableau

Pour extraire des images d’un fichier PDF, nous utiliserons l’API Aspose.PDF for .NET qui est une API de manipulation de documents riche en fonctionnalités, puissante et facile à utiliser pour la plateforme python-net. Ouvrez le gestionnaire de packages NuGet, recherchez Aspose.pdf et installez-le. Vous pouvez également utiliser la commande suivante depuis la console du gestionnaire de packages.

Python Package Manager Console

pip install aspose-pdf

Extraire des images d’un PDF en Python


Pour essayer le code dans votre environnement, vous avez besoin de Aspose.PDF pour Python.

  1. Chargez le PDF avec une instance de Document.
  2. Créez un objet XImage pour extraire des images.
  3. Enregistrez l’image de sortie dans un fichier JPEG.
  4. Enregistrez le fichier PDF mis à jour.

Extraire des images d'un PDF - Python

Cet exemple de code montre comment extraire des images de documents PDF

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    Document pdfDocument = new Document(dataDir+ "ExtractImages.pdf");

    // Extract a particular image
    XImage xImage = pdfDocument.Pages[1].Resources.Images[1];

    FileStream outputImage = new FileStream(dataDir + "output.jpg", FileMode.Create);

    // Save output image
    xImage.Save(outputImage, ImageFormat.Jpeg);
    outputImage.Close();

    dataDir = dataDir + "ExtractImages_out.pdf";

    // Save updated PDF file
    pdfDocument.Save(dataDir);

À propos de Aspose.PDF pour l'API Python for .NET

Aspose.PDF pour Python via l’API .NET prend en charge les normes et spécifications PDF les plus établies. Il permet aux développeurs d’insérer des tableaux, des graphiques, des images, des hyperliens, des polices personnalisées, etc., dans des documents PDF. De plus, il est également possible de compresser des documents PDF. Aspose.PDF pour Python via .NET fournit d’excellentes fonctionnalités de sécurité pour développer des documents PDF sécurisés. Certaines des fonctionnalités clés de Aspose.PDF pour Python via l’API .NET incluent :

  • Possibilité de lire et d’exporter des PDF dans plusieurs formats d’image, notamment BMP, GIF, JPEG et PNG.
  • Définissez les informations de base (par exemple, auteur, créateur) du document PDF.
  • Fonctionnalités de conversion : convertissez un PDF en Word, Excel et PowerPoint. Convertissez des PDF en formats d’images. Convertissez un fichier PDF au format HTML et vice versa. Convertissez un PDF en EPUB, texte, XPS, etc.

Vous pouvez trouver plus d’informations sur Aspose.PDF pour Python via l’API .NET dans notre documentation sur l’utilisation de l’API.