Extraer tablas del documento PDF mediante C++

Cómo extraer una tabla de un PDF usando la biblioteca C++

Cómo extraer tablas de un documento PDF con la biblioteca C++

Para extraer la tabla del PDF, usaremos la API Aspose.PDF for C++, que es una API de manipulación de documentos rica en funciones, potente y fácil de usar para la plataforma cpp. Abra el administrador de paquetes NuGet, busque Aspose.pdf e instálelo. También puede usar el siguiente comando desde la consola de Package Manager.

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

Extraer tablas del PDF mediante C++


Necesita Aspose.PDF for C++ para probar el código en su entorno.

  1. Cargue el PDF con una instancia de Document.
  2. Crea el objeto TableAbsorber para buscar tablas.
  3. Visita la primera página con absorbedor.
  4. Consigue la primera mesa de la página.
  5. Quita la mesa. Guarde el archivo.

Extraer tablas del PDF: C++


auto document = MakeObject<Document>(_dataDir + u"the_worlds_cities_in_2018_data_booklet 7.pdf");
    for (auto page : document->get_Pages())
    {
        auto absorber = MakeObject<Aspose::Pdf::Text::TableAbsorber>();
        absorber->Visit(page);
        for (auto table : absorber->get_TableList())
        {
            for (auto row : table->get_RowList())
            {
                for (auto cell : row->get_CellList())
                {
                    auto textfragment = MakeObject<TextFragment>();
                    auto textFragmentCollection = cell->get_TextFragments();
                    for (auto fragment : textFragmentCollection)
                    {
                        String txt;
                        for (auto seg : fragment->get_Segments())
                        {
                            txt += seg->get_Text();
                        }
                        Console::WriteLine(txt);
                    }
                }
            }
        }
    }