Estrai il PDF tramite Java

Come estrarre testo e immagini da PDF utilizzando la libreria Java

L'azione più popolare con Parser

Come analizzare un PDF con la libreria Java

Devi estrarre un PDF? La modifica programmatica dei documenti PDF è una parte essenziale dei moderni flussi di lavoro digitali. Con le librerie Java come Aspose.PDF, gli sviluppatori possono estrarre testo da PDF o estrarre immagini da PDF. Queste librerie sono soluzioni autonome che non si basano su altri software e sono pronte per l’uso commerciale. Coprono tutte le possibili esigenze degli sviluppatori Java professionisti.

  • Estrai dati PDF: testi, immagini, moduli, campi, ecc.
  • Estrai testo da PDF
  • Estrai immagini da PDF
  • Estrai caratteri da PDF
  • Estrai dati dal modulo
  • Estrai testo dai timbri
  • Estrai dati dalla tabella

Per estrarre il file PDF, utilizzeremo l’API Aspose.PDF per Java che è un’API di conversione ricca di funzionalità, potente e facile da usare per la piattaforma Java. Puoi scaricare la versione più recente direttamente da Maven e installarla all’interno del tuo progetto basato su Maven aggiungendo le seguenti configurazioni al file pom.xml.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Analizza PDF tramite Java


È necessario Aspose.PDF for Java per provare il codice nel proprio ambiente.

  1. Carica il PDF con un’istanza di Document.
  2. Create un oggetto TextAbsorber per estrarre il testo.
  3. Accetta l’assorbitore per tutte le pagine.
  4. Ottieni il testo estratto
  5. Crea un writer e apri il file, scrivi una riga di testo nel file

Estrai file PDF - Java

Questo codice di esempio mostra come estrarre documenti PDF

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document(filePath);

    // Create TextAbsorber object to extract text
    com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();
    
    // Accept the absorber for all the pages
    pdfDocument.getPages().accept(textAbsorber);
    
    // Get the extracted text
    String extractedText = textAbsorber.getText();                
    try {
        java.io.FileWriter writer = new java.io.FileWriter(_dataDir + "extracted-text.txt", true);
        // Write a line of text to the file
        writer.write(extractedText);            
        // Close the stream
        writer.close();
    } catch (java.io.IOException e) {
        e.printStackTrace();
    }

Informazioni su Aspose.PDF per l'API Java

Aspose.PDF per Java API è una libreria che consente agli sviluppatori di aggiungere funzionalità di elaborazione PDF alle proprie applicazioni. Può essere utilizzato per creare qualsiasi tipo di applicazione a 32 e 64 bit per generare o leggere, convertire e manipolare file PDF senza l’uso di Adobe Acrobat. Aspose.PDF per Java consente agli sviluppatori di inserire tabelle, grafici, immagini, collegamenti ipertestuali, caratteri personalizzati e altro ancora nei documenti PDF. Inoltre, è anche possibile comprimere i PDF. Aspose.PDF per Java offre eccellenti funzionalità di sicurezza per sviluppare file PDF sicuri.

Puoi trovare ulteriori informazioni sull’API Aspose.PDF per Java su documentazione e esempi su come utilizzare l’API. Alcune delle funzionalità critiche dell’API Aspose.PDF for Java includono il supporto per vari formati di file, tra cui HTML, XFA, TXT, PCL, XML, XPS e formati di file di immagine, il supporto per diverse versioni PDF e ampie funzionalità di collegamento ipertestuale.