Extraire le PDF via Python

Comment extraire du texte et des images d’un PDF à l’aide de la bibliothèque Python for .NET

C# Java C++ Python

Action la plus populaire avec Parser

Extraire du texte

Extraire des images

Extraire les polices

Comment analyser un PDF avec la bibliothèque Python for .NET

Avez-vous besoin d’extraire un PDF ? La modification programmatique des documents PDF est un élément essentiel des flux de travail numériques modernes. Avec les bibliothèques Python telles que Aspose.PDF, les développeurs peuvent extraire du texte d’un PDF ou extraire des images d’un PDF. Ces bibliothèques sont des solutions autonomes qui ne s’appuient sur aucun autre logiciel et sont prêtes à être utilisées à des fins commerciales. Ils couvrent tous les besoins possibles des développeurs Python professionnels.

Extraire des données PDF : textes, images, formulaires, champs, etc.
Extraire le texte d’un PDF
Extraire des images d’un PDF
Extraire les polices d’un PDF
Extraire les données du formulaire
Extraire le texte des timbres
Extraire les données du tableau

Pour extraire le fichier PDF, nous utiliserons l’API Aspose.PDF for .NET qui est une API de manipulation de documents riche en fonctionnalités, puissante et facile à utiliser pour la plateforme python-net. Ouvrez le gestionnaire de packages NuGet, recherchez Aspose.PDF et installez-le. Vous pouvez également utiliser la commande suivante depuis la console du gestionnaire de packages.

Console

pip install aspose-pdf

Analyser le PDF via Python

Pour essayer le code dans votre environnement, il vous faut Aspose.PDF for .NET.

Chargez le PDF avec une instance de Document.
Créez un objet TextAbsorber pour extraire du texte.
Acceptez l’absorbeur pour toutes les pages.
Obtenir le texte extrait
Créez un rédacteur et ouvrez le fichier, écrivez une ligne de texte dans le fichier

Extraire des fichiers PDF - Python

Cet exemple de code montre comment extraire des documents PDF

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

document = apdf.Document(path_infile)
textAbsorber = apdf.text.TextAbsorber()

document.pages.accept(textAbsorber)
extractedText = textAbsorber.text

with open(path_outfile, 'w') as f:
    f.write(extractedText)

À propos de Aspose.PDF pour l'API Aspose.PDF for Python for .NET

Aspose.PDF for Python via l’API .NET prend en charge les normes PDF et les spécifications PDF les plus établies. Il permet aux développeurs d’insérer des tableaux, des graphiques, des images, des hyperliens, des polices personnalisées, etc., dans des documents PDF. De plus, il est également possible de compresser des documents PDF. Aspose.PDF for Python via .NET fournit d’excellentes fonctionnalités de sécurité pour développer des documents PDF sécurisés. Certaines des fonctionnalités critiques de Aspose.PDF for Python via l’API .NET incluent :

Possibilité de lire et d’exporter des PDF dans plusieurs formats d’image, notamment BMP, GIF, JPEG et PNG.
Définissez les informations de base (par exemple, auteur, créateur) du document PDF.
Fonctionnalités de conversion : convertissez un PDF en Word, Excel et PowerPoint. Convertissez des PDF en formats d’image. Convertissez des fichiers PDF au format HTML et vice versa. Convertissez un PDF en EPUB, texte, XPS, etc.

En ce qui concerne l’utilisation de l’API, vous pouvez trouver plus d’informations sur Aspose.PDF for Python via l’API .NET sur notre documentation.