Python 를 통해 PDF에서 표 추출

PDF 문서에서 테이블을 추출합니다.Python for .NET 용 Aspose.PDF 파일을 사용하여 프로그래밍 방식으로 PDF 파일을 수정하십시오.

C# Java C++ Python

Python 라이브러리를 사용하여 PDF 문서에서 테이블을 추출하는 방법

테이블을 추출하기 위해 python-net 플랫폼을 위한 기능이 풍부하고 강력하며 사용하기 쉬운 문서 조작 API인 Aspose.PDF for .NET API를 사용할 것입니다.NuGet 패키지 관리자를 열고 Aspose.PDF를 검색하여 설치합니다.패키지 관리자 콘솔에서 다음 명령을 사용할 수도 있습니다.

Console

pip install aspose-pdf

Python 를 통해 PDF에서 표 추출

사용자 환경에서 코드를 테스트하려면 Aspose.PDF for .NET 이 필요합니다.

1.필요한 라이브러리 가져오기 1.PDF 문서 불러오기 1.‘테이블 업소버’를 초기화하고 페이지를 반복합니다. 1.테이블 콘텐츠 추출 1.추출된 데이터 저장 (선택 사항)

PDF에서 표 추출 - Python

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)

# Load source PDF document
pdf_document = apdf.Document(path_infile)
for page in pdf_document.pages:
    absorber = apdf.text.TableAbsorber()
    absorber.visit(page)
    for table in absorber.table_list:
        for row in table.row_list:
            for cell in row.cell_list:
                text_fragment_collection = cell.text_fragments
                for fragment in text_fragment_collection:
                    txt = ""
                    for seg in fragment.segments:
                        txt += seg.text
                    print(txt)