Eliminar tablas del documento PDF mediante Python

Cómo eliminar una tabla de un PDF con la biblioteca Python

Cómo eliminar tablas de un documento PDF con la biblioteca Python for .NET

Para eliminar la tabla, usaremos la API Aspose.PDF for .NET, que es una API de manipulación de documentos rica en funciones, potente y fácil de usar para la plataforma python-net. Abra el administrador de paquetes NuGet, busque Aspose.pdf e instálelo. También puede usar el siguiente comando desde la consola de Package Manager.

Python Package Manager Console

pip install aspose-pdf

Eliminar tablas del PDF mediante Python


Necesita Aspose.PDF for .NET para probar el código en su entorno.

  1. Cargue el PDF con una instancia de Document.
  2. Crea el objeto TableAbsorber para buscar tablas.
  3. Visita la primera página con absorbedor.
  4. Consigue la primera mesa de la página.
  5. Quita la mesa. Guarde el archivo.

Eliminar tablas del PDF: Python

    import aspose.pdf as ap

    input_file = DIR_INPUT_TABLE + "Table_input.pdf"
    output_file = DIR_OUTPUT + "Table_out.pdf"
    # Load existing PDF document
    pdf_document = ap.Document(input_file)
    # Create TableAbsorber object to find tables
    absorber = ap.text.TableAbsorber()
    # Visit first page with absorber
    absorber.visit(pdf_document.pages[1])
    # Get first table on the page
    table = absorber.table_list[0]
    # Remove the table
    absorber.remove(table)
    # Save PDF
    pdf_document.save(output_file)