Per estrarre gli allegati nel file PDF, useremo Aspose.PDF for .NET API che è un’API di manipolazione dei documenti ricca di funzionalità, potente e facile da usare per la piattaforma python-net. Apri il gestore di pacchetti NuGet, cerca Aspose.pdf e installa. È inoltre possibile utilizzare il seguente comando dalla console di Package Manager.
Estrai allegati dal PDF Python
È necessario Aspose.PDF for .NET per provare il codice nel proprio ambiente.
- Ottieni la raccolta di file incorporati.
- Ottieni il conteggio dei file incorporati.
- Scorri la raccolta per ottenere tutti gli allegati.
- Verificare se l’oggetto parametro contiene i parametri.
- Ottieni l’allegato e scrivi su file o stream.
Estrai allegato dal documento PDF
import aspose.pdf as apdf
from os import path
path_infile = path.join(self.data_dir, infile)
# Open document
document = apdf.Document(path_infile)
# Get count of the embedded files
print(f"Total files : {len(document.embedded_files)}")
# Loop through the collection to get all the attachments
for file_specification in document.embedded_files:
print(f"Name: {file_specification.name}")
print(f"Description: {file_specification.description}")
print(f"Mime Type: {file_specification.mime_type}")
# Check if parameter object contains the parameters
if file_specification.params is not None:
print(f"CheckSum: {file_specification.params.check_sum}")
print(f"Creation Date: {file_specification.params.creation_date}")
print(f"Modification Date: {file_specification.params.mod_date}")
print(f"Size: {file_specification.params.size}")
# Get the attachment and write to file
with open(
path.join(self.data_dir, "export_" + file_specification.name), "wb"
) as f:
f.write(file_specification.contents.readall())