Estrai il PDF tramite Python

Come estrarre testo e immagini da PDF utilizzando la libreria Python for .NET

C# Java C++ Python

L'azione più popolare con Parser

Estrai testo

Estrarre immagini

Estrai caratteri

Come analizzare un PDF con la libreria Python for .NET

Devi estrarre un PDF? La modifica programmatica dei documenti PDF è una parte essenziale dei moderni flussi di lavoro digitali. Con le librerie Python come Aspose.PDF, gli sviluppatori possono estrarre testo da PDF o estrarre immagini da PDF. Queste librerie sono soluzioni autonome che non si basano su altri software e sono pronte per l’uso commerciale. Coprono tutte le possibili esigenze degli sviluppatori Python professionisti.

Estrai dati PDF: testi, immagini, moduli, campi, ecc.
Estrai testo da PDF
Estrai immagini da PDF
Estrai caratteri da PDF
Estrai dati dal modulo
Estrai testo dai timbri
Estrai dati dalla tabella

Per estrarre il file PDF, utilizzeremo l’API Aspose.PDF for .NET che è un’API di manipolazione dei documenti ricca di funzionalità, potente e facile da usare per la piattaforma python-net. Apri il gestore di pacchetti NuGet, cerca Aspose.PDF e installa. Puoi anche usare il seguente comando dalla console di Package Manager.

Console

pip install aspose-pdf

Analizza PDF tramite Python

Per provare il codice nel tuo ambiente, devi Aspose.PDF for .NET.

Carica il PDF con un’istanza di Document.
Create un oggetto TextAbsorber per estrarre il testo.
Accetta l’assorbitore per tutte le pagine.
Ottieni il testo estratto
Crea un writer e apri il file, scrivi una riga di testo nel file

Estrai file PDF - Python

Questo codice di esempio mostra come estrarre documenti PDF

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

document = apdf.Document(path_infile)
textAbsorber = apdf.text.TextAbsorber()

document.pages.accept(textAbsorber)
extractedText = textAbsorber.text

with open(path_outfile, 'w') as f:
    f.write(extractedText)

Informazioni sull'API Aspose.PDF for Python for .NET

Aspose.PDF per Python tramite .NET API supporta gli standard PDF e le specifiche PDF più consolidati. Consente agli sviluppatori di inserire tabelle, grafici, immagini, collegamenti ipertestuali, caratteri personalizzati e altro ancora nei documenti PDF. Inoltre, è anche possibile comprimere documenti PDF. Aspose.PDF per Python via .NET offre eccellenti funzionalità di sicurezza per sviluppare documenti PDF sicuri. Alcune delle funzionalità critiche di Aspose.PDF for Python tramite .NET API includono:

Capacità di leggere ed esportare PDF in più formati di immagine tra cui BMP, GIF, JPEG e PNG.
Imposta le informazioni di base (ad esempio autore, creatore) del documento PDF.
Funzionalità di conversione: converti PDF in Word, Excel e PowerPoint. Converti PDF in formati di immagine. Converti i file PDF in formato HTML e viceversa. Converti PDF in EPUB, Text, XPS, ecc.

Sull’uso delle API, puoi trovare ulteriori informazioni su Aspose.PDF per Python tramite .NET API nella nostra documentazione.