Python 를 통해 PDF에서 첨부 파일 추출

Python 를 사용하여 프로그래밍 방식으로 PDF에서 첨부 파일을 추출하는 방법

Python for .NET 라이브러리를 사용하여 첨부 파일을 추출하는 방법

PDF 파일의 첨부 파일을 추출하기 위해 python-net 플랫폼을 위한 기능이 풍부하고 강력하며 사용하기 쉬운 문서 조작 API인 Aspose.PDF for .NET API를 사용합니다.NuGet 패키지 관리자를 열고 Aspose.pdf를 검색하여 설치합니다.패키지 관리자 콘솔에서 다음 명령을 사용할 수도 있습니다.

Python Package Manager Console

pip install aspose-pdf

PDF에서 첨부 파일 추출 Python


사용자 환경에서 코드를 테스트하려면 Aspose.PDF for .NET 이 필요합니다.

1.임베디드 파일 컬렉션 가져오기. 1.포함된 파일 수를 가져옵니다. 1.컬렉션을 순회하며 모든 첨부 파일을 가져오세요. 1.매개 변수 개체에 매개 변수가 포함되어 있는지 확인하십시오. 1.첨부 파일을 가져와서 파일 또는 스트림에 씁니다.

PDF 문서에서 첨부 파일 추출

 def attachment_extract(self, infile):

        path_infile = self.dataDir + infile

        # Open document
        pdfDocument = Document(path_infile)

        # Get embedded files collection
        embeddedFiles = pdfDocument.EmbeddedFiles

        # Get count of the embedded files
        print ( "Total files : %d " % (embeddedFiles.Count))

        count = 1

        # Loop through the collection to get all the attachments

        for fileSpecification in embeddedFiles:
            print("Name: " + fileSpecification.Name)
            print("Description: " + fileSpecification.Description)
            print("Mime Type: " + fileSpecification.MIMEType)

            # Check if parameter object contains the parameters
            if (fileSpecification.Params != None):
                print("CheckSum: " + fileSpecification.Params.CheckSum)
                print("Creation Date: " + fileSpecification.Params.CreationDate)
                print("Modification Date " + fileSpecification.Params.ModDate)
                print("Size: " + fileSpecification.Params.Size)

                # Get the attachment and write to file or stream
                File.WriteAllBytes(self.dataDir + count + "_out" + ".txt", fileSpecification.Contents)

                count+=1