Estrattore PDF

Estrai immagini e testo da documenti PDF con app e API multipiattaforma gratuite

Come analizzare il file PDF utilizzando la libreria Aspose

Perché usare l’analisi dei documenti PDF? Per analizzare il file PDF, useremo l’API Aspose.PDF, che è un’API di manipolazione dei documenti ricca di funzionalità, potente e facile da usare. Aprire il gestore pacchetti NuGet, cercare Aspose.PDF e installare. È inoltre possibile utilizzare il seguente comando dalla console di Gestione pacchetti. Parse PDF documents è un termine ripetuto per l’estrazione di vari tipi di informazioni da file PDF. Analizza il documento PDF per estrarre testo e immagini. Inoltre, per separare il PDF come testo e immagini. Aspose.PDF Library consente di estrarre testo da PDF e da timbri, estrarre immagini e caratteri da PDF, estrarre dati da tabelle e moduli.

API High Code per l’analisi dei documenti API native per file PDF che utilizzano .NET, .NET Core, Java, C++ e Android

Analizzare i file PDF

// Open document
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

// Create TextAbsorber object to extract text
TextAbsorber textAbsorber = new TextAbsorber();
// Accept the absorber for all the pages
pdfDocument.Pages.Accept(textAbsorber);
// Get the extracted text
string extractedText = textAbsorber.Text;
// Create a writer and open the file
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Write a line of text to the file
tw.WriteLine(extractedText);
// Close the stream
tw.Close();