Extraire le PDF via C#

Comment extraire du texte et des images d’un PDF à l’aide de la bibliothèque .NET

Action la plus populaire avec Parser

Comment analyser un PDF avec la bibliothèque .NET

Avez-vous besoin d’extraire un PDF ? La modification programmatique de documents PDF est un élément essentiel des flux de travail numériques modernes. Avec les bibliothèques .NET telles que Aspose.PDF, les développeurs peuvent extraire du texte d’un PDF ou extraire des images d’un PDF. Ces bibliothèques sont des solutions autonomes qui ne dépendent d’aucun autre logiciel et sont prêtes à être utilisées commercialement. Ils couvrent tous les besoins possibles des développeurs C# professionnels.

  • Extraire des données PDF : textes, images, formulaires, champs, etc.
  • Extraire le texte d’un PDF
  • Extraire des images d’un PDF
  • Extraire des polices d’un PDF
  • Extraire les données du formulaire
  • Extraire le texte des timbres
  • Extraire les données du tableau

Pour extraire un fichier PDF, nous utiliserons l’API Aspose.PDF pour .NET, qui est une API de manipulation de documents riche en fonctionnalités, puissante et facile à utiliser pour la plateforme net. Ouvrez le gestionnaire de packages NuGet, recherchez Aspose.pdf et installez-le. Vous pouvez également utiliser la commande suivante depuis la console Package Manager.

Package Manager Console

PM > Install-Package Aspose.PDF

Analyser le PDF via C#


Pour essayer le code dans votre environnement, il vous faut Aspose.PDF for .NET.

  1. Chargez le PDF avec une instance de Document.
  2. Créez un objet TextAbsorber pour extraire du texte.
  3. Acceptez l’absorbeur pour toutes les pages.
  4. Obtenir le texte extrait
  5. Créez un rédacteur et ouvrez le fichier, écrivez une ligne de texte dans le fichier

Extraire des fichiers PDF - C#

Cet exemple de code montre comment extraire des documents PDF

Input file:

File not added

Output format:

PDF

Output file:

var inputFile = Path.Combine(dataDir, "ExtractTextAll.pdf");
var outputFile = Path.Combine(dataDir, "ExtractedText.txt");
var pdfDocument = new Aspose.Pdf.Document(inputFile);
var textAbsorber = new Aspose.Pdf.Text.TextAbsorber();
pdfDocument.Pages.Accept(textAbsorber);
File.WriteAllText(outputFile, textAbsorber.Text);

À propos de Aspose.PDF pour l'API Aspose.PDF for .NET

L’API Aspose.PDF pour .NET fournit un large éventail de fonctionnalités permettant de travailler avec des fichiers PDF. Parmi les fonctionnalités, citons :

  • Créez des documents PDF à partir de zéro ou à partir de HTML, XML ou d’images.
  • Modifiez des documents PDF existants en ajoutant ou en supprimant des pages, du texte, des images et d’autres contenus.
  • Convertissez des documents PDF en d’autres formats tels que HTML, XML et images.
  • Rendre des documents PDF en images ou au format XPS.
  • Imprimez des documents PDF directement depuis votre application.
  • Signez numériquement des documents PDF.

Vous pouvez trouver plus d’informations sur Aspose.PDF pour l’API C# dans cette documentation Aspose