Extraer tablas de un PDF a través de Java

Extraer la tabla del documento PDF. Utilice Aspose.PDF for que Java modifique los archivos PDF mediante programación

Cómo extraer tablas de un documento PDF con la biblioteca Java

Para extraer la tabla, usaremos la API Aspose.PDF for Java, que es una API de conversión rica en funciones, potente y fácil de usar para la plataforma Java. Puede descargar su última versión directamente desde Maven e instalarla en su proyecto basado en Maven añadiendo las siguientes configuraciones apom.xml.

Repository

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java AP</name>
    <url>https://releases.aspose.com/java/repo/</url>
</repository>

Dependency

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>version of aspose-pdf API</version>
</dependency>

Extraer tablas del PDF mediante Java


Necesita Aspose.PDF for Java para probar el código en su entorno.

  1. Importe las bibliotecas necesarias
  2. Cargue el documento PDF
  3. Inicializa el TableAbsorber e itera sobre las páginas
  4. Extraer el contenido de la tabla
  5. Guarde los datos extraídos (opcional)

Extraer tablas del PDF: Java

Document pdfDocument = new Document(DATA_DIR.resolve("sample.pdf").toString());
for (Page page : pdfDocument.getPages()) {
    TableAbsorber absorber = new TableAbsorber();
    absorber.visit(page);

    for (AbsorbedTable table : absorber.getTableList()) {
        for (AbsorbedRow row : table.getRowList()) {
            for (AbsorbedCell cell : row.getCellList()) {
                StringBuilder cellText = new StringBuilder();

                for (TextFragment fragment : cell.getTextFragments()) {
                    for (TextSegment segment : fragment.getSegments()) {
                        cellText.append(segment.getText());
                    }
                }

                System.out.println(cellText);
            }
        }
    }
}
pdfDocument.close();