Estrai il PDF tramite C#

Come estrarre testo e immagini da PDF utilizzando la libreria .NET

L'azione più popolare con Parser

Come analizzare un PDF con la libreria .NET

Hai bisogno di estrarre un PDF? La modifica programmatica dei documenti PDF è una parte essenziale dei moderni flussi di lavoro digitali. Con le librerie.NET come Aspose.PDF, gli sviluppatori possono estrarre testo da PDF o estrarre immagini da PDF. Queste librerie sono soluzioni autonome che non si basano su altri software e sono pronte per l’uso commerciale. Soddisfano tutte le possibili esigenze degli sviluppatori C# professionisti.

  • Estrai dati PDF: testi, immagini, moduli, campi, ecc.
  • Estrai testo dal PDF
  • Estrai immagini da PDF
  • Estrai caratteri da PDF
  • Estrai i dati dal modulo
  • Estrai testo dai timbri
  • Estrai dati dalla tabella

Per estrarre il file PDF, utilizzeremo l’API Aspose.PDF for .NET, un’API di manipolazione dei documenti ricca di funzionalità, potente e facile da usare per la piattaforma net. Apri il gestore di pacchetti NuGet, cerca ASPOSE.pdf e installa. Puoi anche usare il seguente comando dalla console di Package Manager.

Package Manager Console

PM > Install-Package Aspose.PDF

Analizza PDF tramite C#


Per provare il codice nel tuo ambiente, devi Aspose.PDF for .NET.

  1. Carica il PDF con un’istanza di Document.
  2. Create un oggetto TextAbsorber per estrarre il testo.
  3. Accetta l’assorbitore per tutte le pagine.
  4. Ottieni il testo estratto
  5. Crea un writer e apri il file, scrivi una riga di testo nel file

Estrai file PDF - C#

Questo codice di esempio mostra come estrarre documenti PDF

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

    // Create TextAbsorber object to extract text
    TextAbsorber textAbsorber = new TextAbsorber();
    // Accept the absorber for all the pages
    pdfDocument.Pages.Accept(textAbsorber);
    // Get the extracted text
    string extractedText = textAbsorber.Text;
    // Create a writer and open the file
    TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
    // Write a line of text to the file
    tw.WriteLine(extractedText);
    // Close the stream
    tw.Close();

Informazioni su Aspose.PDF per l'API .NET

L’API Aspose.PDF for .NET offre un’ampia gamma di funzionalità per lavorare con i file PDF. Alcune delle funzionalità includono:

  • Crea documenti PDF da zero o da HTML, XML o immagini.
  • Modifica i documenti PDF esistenti aggiungendo o rimuovendo pagine, testo, immagini e altri contenuti.
  • Converti documenti PDF in altri formati come HTML, XML e immagini.
  • Renderizza i documenti PDF in immagini o in formato XPS.
  • Stampa i documenti PDF direttamente dalla tua applicazione.
  • Firma digitalmente i documenti PDF.

Puoi trovare ulteriori informazioni su Aspose.PDF per l’API C# in questa documentazione Aspose