通过 Java 从 PDF 中提取表格

从 PDF 文档中提取表格。使用 Aspose.PDF for Java 以编程方式修改 PDF 文件

C# Java C++ Python

如何使用 Java 庫從 PDF 文件中提取表格

為了擷取表格，我們將使用 Aspose.PDF for Java API，這是一個功能豐富、強大且易於使用的 Java 平台轉換 API。您可以直接從 Maven 下載其最新版本，並透過在 pom.xml 檔案中新增以下設定將其安裝到您的 Maven 專案中。

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

通過Java從PDF中提取表格

您需要 Aspose.PDF for Java 才能在您的環境中測試程式碼。

1。导入必要的库 1。加载 PDF 文档 1。初始化 tableAbsorber 并迭代页面 1。提取表格内容 1。保存提取的数据（可选）

從 PDF 中提取表格 - Java

Document pdfDocument = new Document(DATA_DIR.resolve("sample.pdf").toString());
for (Page page : pdfDocument.getPages()) {
    TableAbsorber absorber = new TableAbsorber();
    absorber.visit(page);

    for (AbsorbedTable table : absorber.getTableList()) {
        for (AbsorbedRow row : table.getRowList()) {
            for (AbsorbedCell cell : row.getCellList()) {
                StringBuilder cellText = new StringBuilder();

                for (TextFragment fragment : cell.getTextFragments()) {
                    for (TextSegment segment : fragment.getSegments()) {
                        cellText.append(segment.getText());
                    }
                }

                System.out.println(cellText);
            }
        }
    }
}
pdfDocument.close();