Ekstrak Tabel dari PDF melalui Java

Ekstrak tabel dari dokumen PDF. Gunakan Aspose.PDF untuk Java untuk memodifikasi file PDF secara terprogram

Cara mengekstrak Tabel dari dokumen PDF Menggunakan Java Library

Untuk mengekstrak tabel, kita akan menggunakan Aspose.PDF for Java API yang merupakan API konversi yang kaya fitur, kuat dan mudah digunakan untuk platform Java. Anda dapat mengunduh versi terbarunya langsung dari Maven dan menginstalnya dalam proyek berbasis Maven Anda dengan menambahkan konfigurasi berikut kepom.xml.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Ekstrak Tabel dari PDF melalui Java


Anda memerlukan Aspose.PDF for Java untuk mencoba kode di lingkungan Anda.

  1. Impor Perpustakaan yang Diperlukan
  2. Muat Dokumen PDF
  3. Inisialisasi TableAbsorber dan ulangi halaman
  4. Ekstrak konten tabel
  5. Simpan data yang diekstraksi (opsional)

Ekstrak Tabel dari PDF - Java

Document pdfDocument = new Document(DATA_DIR.resolve("sample.pdf").toString());
for (Page page : pdfDocument.getPages()) {
    TableAbsorber absorber = new TableAbsorber();
    absorber.visit(page);

    for (AbsorbedTable table : absorber.getTableList()) {
        for (AbsorbedRow row : table.getRowList()) {
            for (AbsorbedCell cell : row.getCellList()) {
                StringBuilder cellText = new StringBuilder();

                for (TextFragment fragment : cell.getTextFragments()) {
                    for (TextSegment segment : fragment.getSegments()) {
                        cellText.append(segment.getText());
                    }
                }

                System.out.println(cellText);
            }
        }
    }
}
pdfDocument.close();