Java 를 통해 PDF 추출

Java 라이브러리를 사용하여 PDF에서 텍스트 및 이미지를 추출하는 방법

파서에서 가장 많이 사용되는 액션

Java 라이브러리를 사용하여 PDF를 파싱하는 방법

PDF를 추출해야 합니까?PDF 문서의 프로그래밍 방식 수정은 현대 디지털 워크플로우의 필수적인 부분입니다.개발자는 Aspose.PDF 같은 Java 라이브러리를 사용하여 PDF에서 텍스트를 추출하거나 PDF에서 이미지를 추출할 수 있습니다.이러한 라이브러리는 다른 소프트웨어를 사용하지 않고 상업적으로 사용할 수 있는 독립 실행형 솔루션입니다.전문 Java 개발자의 가능한 모든 요구 사항을 충족합니다.

  • PDF 데이터 추출: 텍스트, 이미지, 양식, 필드 등
  • PDF에서 텍스트 추출
  • PDF에서 이미지 추출
  • PDF에서 글꼴 추출
  • 양식에서 데이터 추출
  • 스탬프에서 텍스트 추출
  • 테이블에서 데이터 추출

PDF 파일을 추출하기 위해 기능이 풍부하고 강력하며 사용하기 쉬운 Java 플랫폼용 변환 API인 Aspose.PDF for Java API를 사용합니다.Maven 에서 직접 최신 버전을 다운로드하고pom.xml에 다음 구성을 추가하여 Maven 기반 프로젝트에 설치할 수 있습니다.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Java 를 통해 PDF 구문 분석


사용자 환경에서 코드를 테스트하려면 Aspose.PDF for Java 가 필요합니다.

  1. 문서 인스턴스와 함께 PDF를 로드합니다.
  2. 텍스트 흡수기 객체를 만들어 텍스트를 추출합니다.
  3. 모든 페이지의 업소버를 수락하십시오.
  4. 추출된 텍스트 가져오기
  5. 라이터를 만들고 파일을 열고 파일에 텍스트 한 줄을 씁니다.

PDF 파일 추출 - Java

이 샘플 코드는 PDF 문서를 추출하는 방법을 보여줍니다.

Input file:

File not added

Output format:

PDF

Output file:

document
com.aspose.pdf.Document pdfDocument = new com.aspose.pdf.Document("sample.pdf");

e TextAbsorber object to extract text
com.aspose.pdf.TextAbsorber textAbsorber = new com.aspose.pdf.TextAbsorber();

t the absorber for all the pages
pdfDocument.getPages().accept(textAbsorber);

he extracted text
String extractedText = textAbsorber.getText();
try {
    java.io.FileWriter writer = new java.io.FileWriter("extracted-text.txt", true);
    // Write a line of text to the file
    writer.write(extractedText);
    // Close the stream
    writer.close();
} catch (java.io.IOException e) {
    System.out.println(e.getMessage());
}

Aspose.PDF for Java API에 대하여

Java API용 Aspose.PDF 는 개발자가 애플리케이션에 PDF 처리 기능을 추가할 수 있게 해주는 라이브러리입니다.Adobe Acrobat을 사용하지 않고도 PDF 파일을 생성하거나 읽고, 변환하고, 조작할 수 있는 모든 유형의 32비트 및 64비트 응용 프로그램을 구축하는 데 사용할 수 있습니다.Java용 Aspose.PDF 개발자는 표, 그래프, 이미지, 하이퍼링크, 사용자 정의 글꼴 등을 PDF 문서에 삽입할 수 있습니다.또한 PDF를 압축할 수도 있습니다.Java용 Aspose.PDF 는 보안 PDF 파일을 개발할 수 있는 뛰어난 보안 기능을 제공합니다.

Java API용 Aspose.PDF 관련 자세한 내용은 API 사용 방법에 대한 문서예제 에서 확인할 수 있습니다.Aspose.PDF for Java API의 주요 기능으로는 HTML, XFA, TXT, PCL, XML, XPS 및 이미지 파일 형식을 비롯한 다양한 파일 형식에 대한 지원, 다양한 PDF 버전 지원, 광범위한 하이퍼링크 기능 등이 있습니다.