Extraer tablas de un PDF a través de C++

Extraer la tabla del documento PDF. Utilice Aspose.PDF for que C++ modifique los archivos PDF mediante programación

Cómo extraer tablas de un documento PDF con la biblioteca C++

Para extraer la tabla del PDF, usaremos la API Aspose.PDF for C++, que es una API de manipulación de documentos rica en funciones, potente y fácil de usar para la plataforma cpp. Abra el administrador de paquetes NuGet, busque Aspose.pdf e instálelo. También puede usar el siguiente comando desde la consola de Package Manager.

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

Extraer tablas del PDF mediante C++


Necesita Aspose.PDF for C++ para probar el código en su entorno.

  1. Importe las bibliotecas necesarias
  2. Cargue el documento PDF
  3. Inicializa el TableAbsorber e itera sobre las páginas
  4. Extraer el contenido de la tabla
  5. Guarde los datos extraídos (opcional)

Extraer tablas del PDF: C++


auto document = MakeObject<Document>(_dataDir + u"the_worlds_cities_in_2018_data_booklet 7.pdf");
    for (auto page : document->get_Pages())
    {
        auto absorber = MakeObject<Aspose::Pdf::Text::TableAbsorber>();
        absorber->Visit(page);
        for (auto table : absorber->get_TableList())
        {
            for (auto row : table->get_RowList())
            {
                for (auto cell : row->get_CellList())
                {
                    auto textfragment = MakeObject<TextFragment>();
                    auto textFragmentCollection = cell->get_TextFragments();
                    for (auto fragment : textFragmentCollection)
                    {
                        String txt;
                        for (auto seg : fragment->get_Segments())
                        {
                            txt += seg->get_Text();
                        }
                        Console::WriteLine(txt);
                    }
                }
            }
        }
    }