Java 를 통해 PDF 문서에서 테이블을 추출합니다.

Java 라이브러리를 사용하여 PDF에서 테이블을 추출하는 방법

Java 라이브러리를 사용하여 PDF 문서에서 테이블을 추출하는 방법

테이블을 추출하기 위해 기능이 풍부하고 강력하며 사용하기 쉬운 Java 플랫폼용 변환 API인 Aspose.PDF for Java API를 사용합니다.Maven 에서 직접 최신 버전을 다운로드하고 pom.xml에 다음 구성을 추가하여 Maven 기반 프로젝트에 설치할 수 있습니다.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Java 를 통해 PDF에서 표 추출


사용자 환경에서 코드를 테스트하려면 Aspose.PDF for Java 가 필요합니다.

1.문서 인스턴스와 함께 PDF를 로드합니다. 1.테이블을 찾기 위해 TableAbsorber 객체를 생성합니다. 1.업소버와 함께 첫 페이지를 방문하세요. 1.페이지의 첫 번째 테이블을 가져옵니다. 1.테이블을 제거합니다.파일을 저장합니다.

PDF에서 표 추출하기 - Java


    Document pdfDocument = new Document(_dataDir + "the_worlds_cities_in_2018_data_booklet 7.pdf");
    for(Page page : pdfDocument.getPages())
    {
        TableAbsorber absorber = new TableAbsorber();
        absorber.visit(page);
        for (AbsorbedTable table : absorber.getTableList())
        {
            for (AbsorbedRow row : table.getRowList())
            {
                for (AbsorbedCell cell : row.getCellList())
                {
                    TextFragmentCollection textFragmentCollection = cell.getTextFragments();
                    for (TextFragment fragment : textFragmentCollection)
                    {
                        String txt = "";
                        for (TextSegment seg : fragment.getSegments())
                            txt += seg.getText();
                        System.out.println(txt);
                    }
                }
            }
        }
    }