Untuk mengekstrak Lampiran dalam file PDF, kita akan menggunakan Aspose.PDF for .NET API yang merupakan API manipulasi dokumen yang kaya fitur, kuat dan mudah digunakan untuk platform python-net. Buka manajer paket nuget, cari Aspose.pdf dan instal. Anda juga dapat menggunakan perintah berikut dari Konsol Manajer Paket.
Ekstrak Lampiran dari PDF Python
Anda perlu Aspose.PDF untuk .NET untuk mencoba kode di lingkungan Anda.
- Dapatkan koleksi file tertanam.
- Dapatkan hitungan file yang disematkan.
- Loop melalui koleksi untuk mendapatkan semua lampiran.
- Periksa apakah objek parameter berisi parameter.
- Dapatkan Lampiran dan tulis ke file atau streaming.
Ekstrak Lampiran dari dokumen PDF
def attachment_extract(self, infile):
path_infile = self.dataDir + infile
# Open document
pdfDocument = Document(path_infile)
# Get embedded files collection
embeddedFiles = pdfDocument.EmbeddedFiles
# Get count of the embedded files
print ( "Total files : %d " % (embeddedFiles.Count))
count = 1
# Loop through the collection to get all the attachments
for fileSpecification in embeddedFiles:
print("Name: " + fileSpecification.Name)
print("Description: " + fileSpecification.Description)
print("Mime Type: " + fileSpecification.MIMEType)
# Check if parameter object contains the parameters
if (fileSpecification.Params != None):
print("CheckSum: " + fileSpecification.Params.CheckSum)
print("Creation Date: " + fileSpecification.Params.CreationDate)
print("Modification Date " + fileSpecification.Params.ModDate)
print("Size: " + fileSpecification.Params.Size)
# Get the attachment and write to file or stream
File.WriteAllBytes(self.dataDir + count + "_out" + ".txt", fileSpecification.Contents)
count+=1