Java を使って PDF からテーブルを抽出

PDF ドキュメントからテーブルを抽出します。プログラムで PDF ファイルを変更するには、Aspose.PDF for Java を使用してください

C# Java C++ Python

Java ライブラリを使用して PDF ドキュメントからテーブルを抽出する方法

テーブルを抽出するために、Javaプラットフォーム用の機能が豊富で強力で使いやすい変換APIである Aspose.PDF for Java APIを使用します。最新バージョンを Maven から直接ダウンロードし、pom.xmlに以下の設定を追加することで、Mavenベースのプロジェクト内にインストールできます。

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Java を介して PDF からテーブルを抽出

ご使用の環境でコードを試すには、Aspose.PDF for Java が必要です。

1。必要なライブラリをインポートする。 1.PDF ドキュメントをロードします。 1.「テーブルアブソーバー」を初期化し、ページを繰り返し処理する 1.テーブルの内容を抽出 1.抽出したデータを保存する (オプション)

PDF からテーブルを抽出-Java

Document pdfDocument = new Document(DATA_DIR.resolve("sample.pdf").toString());
for (Page page : pdfDocument.getPages()) {
    TableAbsorber absorber = new TableAbsorber();
    absorber.visit(page);

    for (AbsorbedTable table : absorber.getTableList()) {
        for (AbsorbedRow row : table.getRowList()) {
            for (AbsorbedCell cell : row.getCellList()) {
                StringBuilder cellText = new StringBuilder();

                for (TextFragment fragment : cell.getTextFragments()) {
                    for (TextSegment segment : fragment.getSegments()) {
                        cellText.append(segment.getText());
                    }
                }

                System.out.println(cellText);
            }
        }
    }
}
pdfDocument.close();