Estrai testo da PDF in Python

Come estrarre testo da PDF utilizzando Python

C# Java C++ Python

Come estrarre testo da PDF utilizzando Aspose.PDF per Python for .NET

Devi estrarre testo da un PDF? La modifica programmatica dei documenti PDF è una parte essenziale dei moderni flussi di lavoro digitali. Con le librerie Python come Aspose.PDF, gli sviluppatori possono estrarre testo da PDF. Queste librerie sono soluzioni autonome che non si basano su altri software e sono pronte per l’uso commerciale. Coprono tutte le possibili esigenze degli sviluppatori Python professionisti.

Estrai testo da PDF
Estrai immagini da PDF
Estrai caratteri da PDF
Estrai dati dal modulo
Estrai testo dai timbri
Estrai dati dalla tabella

Per estrarre il testo dal file PDF, utilizzeremo l’API Aspose.PDF for .NET che è un’API di manipolazione dei documenti ricca di funzionalità, potente e facile da usare per la piattaforma python-net. Apri il gestore di pacchetti NuGet, cerca Aspose.PDF e installa. Puoi anche usare il seguente comando dalla console di Package Manager.

Console

pip install aspose-pdf

Estrai testo da PDF in Python

Per provare il codice nel tuo ambiente, hai bisogno di Aspose.PDF for Python.

Carica il PDF con un’istanza di Document.
Crea un oggetto TextAbsorber per estrarre il testo.
Accetta l’assorbitore per tutte le pagine.
Recupera il testo estratto
Crea uno scrittore e apri il file, scrivi una riga di testo nel file

Estrai testo da PDF con Python

Questo codice di esempio mostra come estrarre testo da documenti PDF

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

import aspose.pdf as apdf
from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

document = apdf.Document(path_infile)
# Create TextAbsorber object to extract text
textAbsorber = apdf.text.TextAbsorber()
document.pages.accept(textAbsorber)
extractedText = textAbsorber.text

with open(path_outfile, 'w') as f:
    f.write(extractedText)

Informazioni sull'API Aspose.PDF for Python for .NET

Aspose.PDF per Python tramite .NET API supporta gli standard PDF e le specifiche PDF più consolidati. Consente agli sviluppatori di inserire tabelle, grafici, immagini, collegamenti ipertestuali, caratteri personalizzati e altro ancora nei documenti PDF. Inoltre, è anche possibile comprimere documenti PDF. Aspose.PDF per Python via .NET offre eccellenti funzionalità di sicurezza per sviluppare documenti PDF sicuri. Alcune delle funzionalità critiche di Aspose.PDF for Python tramite .NET API includono:

Capacità di leggere ed esportare PDF in più formati di immagine tra cui BMP, GIF, JPEG e PNG.
Imposta le informazioni di base (ad esempio autore, creatore) del documento PDF.
Funzionalità di conversione: converti PDF in Word, Excel e PowerPoint. Converti PDF in formati di immagine. Converti i file PDF in formato HTML e viceversa. Converti PDF in EPUB, Text, XPS, ecc.

Sull’uso delle API, puoi trovare ulteriori informazioni su Aspose.PDF per Python tramite .NET API nella nostra documentazione.