แยกตารางจาก PDF ผ่าน Java

แยกตารางจากเอกสาร PDFใช้ Aspose.PDF สำหรับ Java เพื่อแก้ไขไฟล์ PDF แบบโปรแกรม

วิธีการแยกตารางจากเอกสาร PDF โดยใช้ Java ห้องสมุด

เพื่อที่จะดึงตารางเราจะใช้ Aspose.PDF for Java API ซึ่งเป็นคุณลักษณะที่อุดมไปด้วยที่มีประสิทธิภาพและง่ายต่อการใช้ API แปลงสำหรับแพลตฟอร์ม Javaคุณสามารถดาวน์โหลดรุ่นล่าสุดได้โดยตรงจาก Maven และติดตั้งภายในโครงการ Maven ตามของคุณโดยการเพิ่มการกำหนดค่าต่อไปนี้เพื่อpom.xml

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

แยกตารางจาก PDF ผ่าน Java


คุณจำเป็นต้อง Aspose.PDF forห้องสมุด Java เพื่อลองรหัสในสภาพแวดล้อมของคุณ

1.นำเข้าห้องสมุดที่จำเป็น 1.โหลดเอกสาร PDF 1.เริ่ม “TableAbsorber” และทำซ้ำบนหน้า 1.แยกเนื้อหาตาราง 1.บันทึกข้อมูลที่แยกออกมา (ไม่จำเป็น)

แยกตารางจาก PDF - Java

Document pdfDocument = new Document(DATA_DIR.resolve("sample.pdf").toString());
for (Page page : pdfDocument.getPages()) {
    TableAbsorber absorber = new TableAbsorber();
    absorber.visit(page);

    for (AbsorbedTable table : absorber.getTableList()) {
        for (AbsorbedRow row : table.getRowList()) {
            for (AbsorbedCell cell : row.getCellList()) {
                StringBuilder cellText = new StringBuilder();

                for (TextFragment fragment : cell.getTextFragments()) {
                    for (TextSegment segment : fragment.getSegments()) {
                        cellText.append(segment.getText());
                    }
                }

                System.out.println(cellText);
            }
        }
    }
}
pdfDocument.close();