Estrai PDF in Python

Come estrarre testo e immagini da PDF utilizzando la libreria Python for .NET

L'azione più popolare con Parser

Come estrarre PDF con la libreria Python for .NET

Devi estrarre un PDF? La modifica programmatica dei documenti PDF è una parte essenziale dei moderni flussi di lavoro digitali. Con le librerie Python come Aspose.PDF, gli sviluppatori possono estrarre testo da PDF o estrarre immagini da PDF. Queste librerie sono soluzioni autonome che non si basano su altri software e sono pronte per l’uso commerciale. Coprono tutte le possibili esigenze degli sviluppatori Python professionisti.

  • Estrai dati PDF: testi, immagini, moduli, campi, ecc.
  • Estrai testo da PDF
  • Estrai immagini da PDF
  • Estrai caratteri da PDF
  • Estrai dati dal modulo
  • Estrai testo dai timbri
  • Estrai dati dalla tabella

Per estrarre il file PDF, utilizzeremo l’API Aspose.PDF per .NET che è un’API di manipolazione dei documenti ricca di funzionalità, potente e facile da usare per la piattaforma python-net. Apri il gestore di pacchetti NuGet, cerca Aspose.pdf e installa. Puoi anche usare il seguente comando dalla console di Package Manager.

Python Package Manager Console

pip install aspose-pdf

Analizza PDF tramite Python


Per provare il codice nel tuo ambiente, devi Aspose.PDF for .NET.

  1. Carica il PDF con un’istanza di Document.
  2. Creare un oggetto TextAbsorber per estrarre il testo.
  3. Accetta l’assorbitore per tutte le pagine.
  4. Ottieni il testo estratto
  5. Crea uno scrittore e apri il file, scrivi una riga di testo sul file

Estrai file PDF - Python

Questo codice di esempio mostra come estrarre documenti PDF

Input file:

File not added

Output format:

PDF

Output file:

    # Open document
    document = Document(dataDir + "ExtractTextAll.pdf")

    # Create TextAbsorber object to extract text
    textAbsorber = TextAbsorber()
    # Accept the absorber for all the pages
    document.Pages.Accept(textAbsorber)
    # Get the extracted text
    extractedText = textAbsorber.Text
    # Create a writer and open the file
    tw = new StreamWriter(dataDir + "extracted-text.txt")
    # Write a line of text to the file
    tw.WriteLine(extractedText)
    # Close the stream
    tw.Close()

Informazioni su Aspose.PDF per l'API Python for .NET

Aspose.PDF per Python tramite API .NET supporta gli standard PDF e le specifiche PDF più diffusi. Consente agli sviluppatori di inserire tabelle, grafici, immagini, collegamenti ipertestuali, caratteri personalizzati e altro ancora nei documenti PDF. Inoltre, è anche possibile comprimere documenti PDF. Aspose.PDF per Python tramite .NET offre eccellenti funzionalità di sicurezza per sviluppare documenti PDF sicuri. Alcune delle funzionalità principali di Aspose.PDF per Python tramite API .NET includono:

  • Possibilità di leggere ed esportare PDF in diversi formati di immagine tra cui BMP, GIF, JPEG e PNG.
  • Imposta le informazioni di base (ad esempio autore, creatore) del documento PDF.
  • Funzionalità di conversione: converti PDF in Word, Excel e PowerPoint. Converti PDF in formati di immagini. Converti file PDF in formato HTML e viceversa. Converti PDF in EPUB, testo, XPS, ecc.

Puoi trovare ulteriori informazioni su Aspose.PDF per Python tramite l’API .NET nella nostra documentazione su come usare l’API.