Python 에서 PDF에서 텍스트 추출

Python for .NET 을 사용하여 PDF에서 텍스트를 추출하는 방법

Python for .NET 용 Aspose.PDF 파일을 사용하여 PDF에서 텍스트를 추출하는 방법

PDF에서 텍스트를 추출해야 합니까?PDF 문서를 프로그래밍 방식으로 수정하는 것은 현대 디지털 워크플로우의 필수적인 부분입니다.Aspose.PDF 같은 Python 라이브러리를 사용하면 개발자가 PDF에서 텍스트를 추출할 수 있습니다.이러한 라이브러리는 다른 소프트웨어를 사용하지 않고 상업적으로 사용할 수 있는 독립 실행형 솔루션입니다.전문 Python 개발자의 가능한 모든 요구 사항을 충족합니다.

  • PDF에서 텍스트 추출
  • PDF에서 이미지 추출
  • PDF에서 글꼴 추출
  • 양식에서 데이터 추출
  • 스탬프에서 텍스트 추출
  • 테이블에서 데이터 추출

PDF 파일에서 텍스트를 추출하기 위해 python-net 플랫폼용 기능이 풍부하고 강력하며 사용하기 쉬운 Aspose.PDF for .NET API를 사용합니다.NuGet 패키지 관리자를 열고 Aspose.pdf를 검색하여 설치합니다.패키지 관리자 콘솔에서 다음 명령을 사용할 수도 있습니다.

Console

pip install aspose-pdf

Python 에서 PDF에서 텍스트 추출


사용자 환경에서 코드를 사용해 보려면 Aspose.PDF for Python 이 필요합니다.

  1. 문서 인스턴스와 함께 PDF를 로드합니다.
  2. 텍스트를 추출하는 TextAbsorber 객체를 생성합니다.
  3. 모든 페이지에 흡수 장치를 사용하십시오.
  4. 추출된 텍스트 가져오기
  5. 라이터 생성 및 파일 열기, 파일에 텍스트 한 줄 쓰기

Python 를 사용하여 PDF에서 텍스트 추출

이 샘플 코드는 PDF 문서에서 텍스트를 추출하는 방법을 보여줍니다.

Input file:

File not added

Output format:

PDF

Output file:

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

document = apdf.Document(path_infile)
# Create TextAbsorber object to extract text
textAbsorber = apdf.text.TextAbsorber()
document.pages.accept(textAbsorber)
extractedText = textAbsorber.text

with open(path_outfile, 'w') as f:
    f.write(extractedText)

Aspose.PDF for Python for .NET API에 대하여

.NET API를 통한 파이썬용 Aspose.PDF 는 대부분의 확립된 PDF 표준과 PDF 사양을 지원합니다.이를 통해 개발자는 표, 그래프, 이미지, 하이퍼링크, 사용자 지정 글꼴 등을 PDF 문서에 삽입할 수 있습니다.또한 PDF 문서를 압축할 수도 있습니다..NET을 통한 파이썬용 Aspose.PDF 는 안전한 PDF 문서를 개발할 수 있는 뛰어난 보안 기능을 제공합니다..NET API를 통한 파이썬용 Aspose.PDF 주요 기능 중 일부는 다음과 같습니다.

  • BMP, GIF, JPEG 및 PNG를 포함한 다양한 이미지 형식으로 PDF를 읽고 내보낼 수 있습니다.
  • PDF 문서의 기본 정보 (예: 작성자, 작성자) 를 설정합니다.
  • 변환 기능: PDF를 워드, 엑셀, 파워포인트로 변환합니다.PDF를 이미지 형식으로 변환합니다.PDF 파일을 HTML 형식으로 또는 그 반대로 변환합니다.PDF를 EPUB, 텍스트, XPS 등으로 변환합니다.

API 사용에 대해서는 문서 에서.NET API를 통해 파이썬용 Aspose.PDF 에 대한 자세한 정보를 확인할 수 있습니다.