Extraer tablas de un PDF a través de Java

Extraer la tabla del documento PDF. Utilice Aspose.PDF for que Java modifique los archivos PDF mediante programación

C# Java C++ Python

Cómo extraer tablas de un documento PDF con la biblioteca Java

Para extraer la tabla, usaremos la API Aspose.PDF for Java, que es una API de conversión rica en funciones, potente y fácil de usar para la plataforma Java. Puede descargar su última versión directamente desde Maven e instalarla en su proyecto basado en Maven añadiendo las siguientes configuraciones apom.xml.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Extraer tablas del PDF mediante Java

Necesita Aspose.PDF for Java para probar el código en su entorno.

Importe las bibliotecas necesarias
Cargue el documento PDF
Inicializa el TableAbsorber e itera sobre las páginas
Extraer el contenido de la tabla
Guarde los datos extraídos (opcional)

Extraer tablas del PDF: Java

Document pdfDocument = new Document(DATA_DIR.resolve("sample.pdf").toString());
for (Page page : pdfDocument.getPages()) {
    TableAbsorber absorber = new TableAbsorber();
    absorber.visit(page);

    for (AbsorbedTable table : absorber.getTableList()) {
        for (AbsorbedRow row : table.getRowList()) {
            for (AbsorbedCell cell : row.getCellList()) {
                StringBuilder cellText = new StringBuilder();

                for (TextFragment fragment : cell.getTextFragments()) {
                    for (TextSegment segment : fragment.getSegments()) {
                        cellText.append(segment.getText());
                    }
                }

                System.out.println(cellText);
            }
        }
    }
}
pdfDocument.close();