Extraire des tableaux d’un PDF via Java

Extraire le tableau d’un document PDF. Utilisez Aspose.PDF pour Java pour modifier les fichiers PDF par programmation

Comment extraire des tableaux d'un document PDF à l'aide de la bibliothèque Java

Afin d’extraire le tableau, nous utiliserons l’API Aspose.PDF for Java qui est une API de conversion riche en fonctionnalités, puissante et facile à utiliser pour la plate-forme Java. Vous pouvez télécharger sa dernière version directement sur Maven et l’installer dans votre projet basé sur Maven en ajoutant les configurations suivantes au pom.xml.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Extraire des tableaux d’un PDF via Java


Vous avez besoin de Aspose.PDF for Java pour essayer le code dans votre environnement.

  1. Importer les bibliothèques nécessaires
  2. Charger le document PDF
  3. Initialiser le TableAbsorber et parcourir les pages
  4. Extraire le contenu du tableau
  5. Enregistrer les données extraites (facultatif)

Extraire les tableaux du PDF - Java

Document pdfDocument = new Document(DATA_DIR.resolve("sample.pdf").toString());
for (Page page : pdfDocument.getPages()) {
    TableAbsorber absorber = new TableAbsorber();
    absorber.visit(page);

    for (AbsorbedTable table : absorber.getTableList()) {
        for (AbsorbedRow row : table.getRowList()) {
            for (AbsorbedCell cell : row.getCellList()) {
                StringBuilder cellText = new StringBuilder();

                for (TextFragment fragment : cell.getTextFragments()) {
                    for (TextSegment segment : fragment.getSegments()) {
                        cellText.append(segment.getText());
                    }
                }

                System.out.println(cellText);
            }
        }
    }
}
pdfDocument.close();