Extracteur de PDF

Extrayez des images et du texte de documents PDF avec des applications et des API multiplateformes gratuites

Comment analyser un fichier PDF à l'aide de la bibliothèque Aspose

Pourquoi utiliser l’analyse des documents PDF? Pour analyser un fichier PDF, nous utiliserons l’API Aspose.PDF, qui est une API de manipulation de documents riche en fonctionnalités, puissante et facile à utiliser. Ouvrez le gestionnaire de packages NuGet, recherchez Aspose.PDF et installez. Vous pouvez également utiliser la commande suivante depuis la console du gestionnaire de packages. Parse PDF documents est un terme lié à l’extraction de divers types d’informations à partir d’un fichier PDF. Analyse le document PDF pour en extraire du texte et des images. Également, pour séparer le PDF en texte et en images. La bibliothèque Aspose.PDF vous permet d’extraire du texte de PDF et de tampons, d’extraire des images et des polices de PDF, d’extraire des données de tableaux et de formulaires.

API High Code pour analyser le document API natives pour les fichiers PDF utilisant .NET, .NET Core, Java, C++ et Android

Analyser les fichiers PDF

// Open document
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

// Create TextAbsorber object to extract text
TextAbsorber textAbsorber = new TextAbsorber();
// Accept the absorber for all the pages
pdfDocument.Pages.Accept(textAbsorber);
// Get the extracted text
string extractedText = textAbsorber.Text;
// Create a writer and open the file
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Write a line of text to the file
tw.WriteLine(extractedText);
// Close the stream
tw.Close();