Français
  1. Produits
  2.   Aspose.Total
  3.   Python via .NET
  4.   Parse
  5.   Extraire le texte et les images du fichier PDF en ligne et à l'aide de Python

Analyser le fichier PDF en ligne et extraire du texte ou des images via Python

Développez une puissante application utilitaire d’analyse de documents PDF basée sur Python.Code répertorié pour les images de documents PDF et l’extraction de texte via Python.

Analyser le document PDF via une application en ligne

  1. Importez le fichier PDF à analyser en le téléchargeant.
  2. Faites-le en cliquant dans la zone de dépôt par glisser-déposer de l’application d’analyseur.
  3. En fonction de la taille du fichier PDF et de la vitesse d’Internet, attendez quelques secondes.
  4. Cliquez sur le bouton « Analyser maintenant » pour analyser le document.
  5. Téléchargez les fichiers analysés pour les visualiser instantanément.

Extraire le texte du fichier PDF via Python

  1. API de référence au sein du projet directement depuis PyPI ( Aspose.Words )
  2. Chargez le fichier PDF à l’aide de la classe Document
  3. Utilisez la méthode de sauvegarde pour l’enregistrer sous forme de fichier .txt
  4. Tout le contenu PDF est rendu en texte
 

Exemple de code en Python pour extraire le texte d'un document PDF

 

Extraire des images d'un fichier PDF via Python

  1. API de référence au sein du projet directement depuis PyPI ( Aspose.Words )
  2. Charger le PDF à l’aide de l’objet de classe Document
  3. Enregistrez le fichier en tant que fichier Word
  4. Chargez le fichier Word à l’aide de l’objet de classe Document
  5. Images stockées dans les nœuds Shape d’un objet Document
  6. Pour sélectionner tous les nœuds Shape, utilisez la méthode Document.get_child_nodes
  7. Parcourez les collections de nœuds résultantes
  8. Si Shape.has_image renvoie vrai.
  9. Utilisez la propriété Shape.image_data pour extraire les données d’image.
  10. Enregistrer les données d’image dans un fichier
 

Exemple de code en Python pour extraire des images de documents PDF

 
 

Develop PDF File Parser Application via Python

Besoin de développer une application ou un utilitaire d’analyseur PDF ?Avec Aspose.Words for Python via .NET , une API enfant de Aspose.Total for Python via .NET , tout développeur Python peut intégrer le code API ci-dessus dans son application d’analyse de documents.La puissante bibliothèque Python permet de programmer n’importe quelle solution d’analyse de documents pour extraire des images ainsi que du texte.De plus, il peut prendre en charge de nombreux formats populaires, notamment le format PDF.

Utilitaire Python pour traiter le fichier PDF pour l'application d'analyseur

Il existe d’autres options pour installer “ Aspose.Words for Python via .NET ” ou “ Aspose.Total for Python via .NET ” sur votre système.Veuillez en choisir un qui correspond à vos besoins et suivre les instructions étape par étape :

Configuration requise

  • Python 3.5 ou version ultérieure est installé
  • Bibliothèques d’exécution GCC-6 (ou version ultérieure).
  • Pour Python 3.5-3.7 : la version pymalloc de Python est nécessaire.

    Pour plus de détails, veuillez vous référer à Product Documentation .

FAQ

  • Puis-je utiliser le code Python ci-dessus dans mon application ?
    Oui, vous pouvez télécharger ce code et l'utiliser dans le but de développer une application d'analyse de documents basée sur Python.Ce code peut servir de ressource précieuse pour améliorer les fonctionnalités et les capacités de vos projets dans le domaine du traitement back-end des documents, comme la lecture des nœuds et le chargement du document pour l'extraction de texte et d'images.
  • Cette application d'analyse de documents en ligne fonctionne-t-elle uniquement sous Windows ?
    Vous avez la possibilité de lancer l'analyse de documents sur n'importe quel appareil, quel que soit le système d'exploitation sur lequel il s'exécute, qu'il s'agisse de Windows, Linux, Mac OS ou Android.Tout ce dont vous avez besoin est un navigateur Web contemporain et une connexion Internet active.
  • Est-il sûr d'utiliser l'application en ligne pour analyser un document PDF ?
    Bien sûr! Les fichiers de sortie générés via notre service seront supprimés de manière sécurisée et automatique de nos serveurs dans un délai de 24 heures.De ce fait, les liens d'affichage associés à ces fichiers cesseront d'être fonctionnels passé ce délai.
  • Quel navigateur doit utiliser l'application ?
    Vous pouvez utiliser n'importe quel navigateur Web moderne comme Google Chrome, Firefox, Opera ou Safari pour l'analyseur de documents PDF en ligne. Toutefois, si vous développez une application de bureau, nous vous recommandons d'utiliser l'API de traitement de documents Aspose.Total pour une gestion efficace.

Explorer Analyseur de fichiers Options avec Python

Analyser DOC Des dossiers (Format binaire Microsoft Word)
Analyser DOCX Des dossiers (Office 2007+ Document Word)
Analyser DOT Des dossiers (Fichiers de modèle Microsoft Word)
Analyser DOTX Des dossiers (Fichier de modèle Microsoft Word)
Analyser ODP Des dossiers (Format de présentation OpenDocument)
Analyser ODT Des dossiers (Format de fichier texte OpenDocument)
Analyser OTT Des dossiers (Modèle OpenDocument)
Analyser PDF Des dossiers (Portable Document Format)
Analyser POWERPOINT Des dossiers (Fichiers de présentation)
Analyser PPT Des dossiers (Présentation Powerpoint)
Analyser PPTX Des dossiers (Format de présentation XML ouvert)
Analyser RTF Des dossiers (Format de texte enrichi)
Analyser WORD Des dossiers (Formats de fichiers de traitement de texte)