Estrai il PDF tramite Python

Come estrarre testo e immagini da PDF utilizzando la libreria Python for .NET

L'azione più popolare con Parser

Come analizzare un PDF con la libreria Python for .NET

Devi estrarre un PDF? La modifica programmatica dei documenti PDF è una parte essenziale dei moderni flussi di lavoro digitali. Con le librerie Python come Aspose.PDF, gli sviluppatori possono estrarre testo da PDF o estrarre immagini da PDF. Queste librerie sono soluzioni autonome che non si basano su altri software e sono pronte per l’uso commerciale. Coprono tutte le possibili esigenze degli sviluppatori Python professionisti.

  • Estrai dati PDF: testi, immagini, moduli, campi, ecc.
  • Estrai testo da PDF
  • Estrai immagini da PDF
  • Estrai caratteri da PDF
  • Estrai dati dal modulo
  • Estrai testo dai timbri
  • Estrai dati dalla tabella

Per estrarre il file PDF, utilizzeremo l’API Aspose.PDF per .NET che è un’API di manipolazione dei documenti ricca di funzionalità, potente e facile da usare per la piattaforma python-net. Apri il gestore di pacchetti NuGet, cerca Aspose.pdf e installa. Puoi anche usare il seguente comando dalla console di Package Manager.

Python Package Manager Console

pip install aspose-pdf

Analizza PDF tramite Python


Per provare il codice nel tuo ambiente, devi Aspose.PDF for .NET.

  1. Carica il PDF con un’istanza di Document.
  2. Create un oggetto TextAbsorber per estrarre il testo.
  3. Accetta l’assorbitore per tutte le pagine.
  4. Ottieni il testo estratto
  5. Crea un writer e apri il file, scrivi una riga di testo nel file

Estrai file PDF - Python

Questo codice di esempio mostra come estrarre documenti PDF

Input file:

File not added

Output format:

PDF

Output file:

import aspose.pdf as ap 
# Open document
dataDir = "..."
document = ap.Document(dataDir + "sample.pdf")

# Create TextAbsorber object to extract text
textAbsorber = ap.text.TextAbsorber()
# Accept the absorber for all the pages
document.pages.accept(textAbsorber)
# Get the extracted text
extractedText = textAbsorber.text

with open('sample.txt', 'w') as f:
    f.write(extractedText)

Informazioni su Aspose.PDF per l'API Python for .NET

Aspose.PDF per Python tramite .NET API supporta gli standard PDF e le specifiche PDF più consolidati. Consente agli sviluppatori di inserire tabelle, grafici, immagini, collegamenti ipertestuali, caratteri personalizzati e altro ancora nei documenti PDF. Inoltre, è anche possibile comprimere documenti PDF. Aspose.PDF per Python via .NET offre eccellenti funzionalità di sicurezza per sviluppare documenti PDF sicuri. Alcune delle funzionalità critiche di Aspose.PDF for Python tramite .NET API includono:

  • Capacità di leggere ed esportare PDF in più formati di immagine tra cui BMP, GIF, JPEG e PNG.
  • Imposta le informazioni di base (ad esempio autore, creatore) del documento PDF.
  • Funzionalità di conversione: converti PDF in Word, Excel e PowerPoint. Converti PDF in formati di immagine. Converti i file PDF in formato HTML e viceversa. Converti PDF in EPUB, Text, XPS, ecc.

Sull’uso delle API, puoi trovare ulteriori informazioni su Aspose.PDF per Python tramite .NET API nella nostra documentazione.