Estrai il PDF tramite C++

Come estrarre testo e immagini da PDF utilizzando la libreria C++

L'azione più popolare con Parser

Come analizzare un PDF con la libreria C++

Devi estrarre un PDF? La modifica programmatica dei documenti PDF è una parte essenziale dei moderni flussi di lavoro digitali. Con le librerie C++ come Aspose.PDF, gli sviluppatori possono estrarre testo da PDF o estrarre immagini da PDF. Queste librerie sono soluzioni autonome che non si basano su altri software e sono pronte per l’uso commerciale. Coprono tutte le possibili esigenze degli sviluppatori C++ professionisti.

  • Estrai dati PDF: testi, immagini, moduli, campi, ecc.
  • Estrai testo da PDF
  • Estrai immagini da PDF
  • Estrai caratteri da PDF
  • Estrai dati dal modulo
  • Estrai testo dai timbri
  • Estrai dati dalla tabella

Per estrarre il file PDF, utilizzeremo l’API Aspose.PDF per C++ che è un’API di manipolazione dei documenti ricca di funzionalità, potente e facile da usare per la piattaforma cpp. Apri il gestore di pacchetti NuGet, cerca Aspose.pdf e installa. Puoi anche usare il seguente comando dalla console di Package Manager.

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

Analizza PDF tramite C++


È necessario Aspose.PDF for C++ per provare il codice nel proprio ambiente.

  1. Carica il PDF con un’istanza di Document.
  2. Create un oggetto TextAbsorber per estrarre il testo.
  3. Accetta l’assorbitore per tutte le pagine.
  4. Ottieni il testo estratto
  5. Crea un writer e apri il file, scrivi una riga di testo nel file

Estrai file PDF - C++

Questo codice di esempio mostra come estrarre documenti PDF

Input file:

File not added

Output format:

PDF

Output file:


    void ExtractTextFromAllThePages() {

    std::clog << __func__ << ": Start" << std::endl;
    // String for path name
    String _dataDir("C:\\Samples\\Parsing\\");

    // String for file name
    String infilename("sample-4pages.pdf");
    String outfilename("extracted-text.txt");

    // Open document
    auto document = MakeObject<Document>(_dataDir + infilename);

    // Create TextAbsorber object to extract text
    auto textAbsorber = MakeObject<TextAbsorber>();
    // Accept the absorber for all the pages
    document->get_Pages()->Accept(textAbsorber);
    // Get the extracted text
    auto extractedText = textAbsorber->get_Text();

    System::IO::File::WriteAllText(_dataDir + outfilename, extractedText);
    std::clog << __func__ << ": Finish" << std::endl;
}

Informazioni su Aspose.PDF per l'API C++

Aspose.PDF per C++ è una potente libreria di elaborazione che consente agli sviluppatori di creare, leggere e manipolare documenti PDF senza utilizzare Adobe Acrobat. Fornisce una vasta gamma di funzionalità, come la creazione di moduli, l’aggiunta/modifica di testo, la manipolazione di pagine PDF, l’aggiunta di annotazioni, la gestione di caratteri personalizzati e molto altro.

Aspose.PDF per C++ è una libreria che consente agli sviluppatori di aggiungere funzionalità di elaborazione PDF alle proprie applicazioni. L’API può essere utilizzata per creare applicazioni a 32 e 64 bit per generare, leggere, convertire e manipolare file PDF senza utilizzare Adobe Acrobat.

Nel riferimento alle API, puoi trovare spiegazioni ed esempi dettagliati per ogni classe e metodo nella libreria Aspose.PDF for C++. Si consiglia inoltre di visualizzare una Documentazione.