Estrai tabelle da PDF tramite C++

Estrai la tabella dal documento PDF. Usa Aspose.PDF per C++ per modificare i file PDF a livello di codice

Come estrarre tabelle dal documento PDF utilizzando la libreria C++

Per estrarre la tabella dal PDF, useremo l’API Aspose.PDF for C++ che è un’API di manipolazione dei documenti ricca di funzionalità, potente e facile da usare per la piattaforma cpp. Apri il gestore pacchetti NuGet, cerca Aspose.pdf e installa. È inoltre possibile utilizzare il seguente comando dalla console di Gestione pacchetti.

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

Estrai tabelle da PDF tramite C++


È necessario Aspose.PDF for C++ per provare il codice nel proprio ambiente.

  1. Importa le librerie necessarie
  2. Carica il documento PDF
  3. Inizializza il TableAbsorber e ripeti l’iterazione sulle pagine
  4. Estrai il contenuto della tabella
  5. Salva i dati estratti (opzionale)

Estrai tabelle dal PDF - C++


auto document = MakeObject<Document>(_dataDir + u"the_worlds_cities_in_2018_data_booklet 7.pdf");
    for (auto page : document->get_Pages())
    {
        auto absorber = MakeObject<Aspose::Pdf::Text::TableAbsorber>();
        absorber->Visit(page);
        for (auto table : absorber->get_TableList())
        {
            for (auto row : table->get_RowList())
            {
                for (auto cell : row->get_CellList())
                {
                    auto textfragment = MakeObject<TextFragment>();
                    auto textFragmentCollection = cell->get_TextFragments();
                    for (auto fragment : textFragmentCollection)
                    {
                        String txt;
                        for (auto seg : fragment->get_Segments())
                        {
                            txt += seg->get_Text();
                        }
                        Console::WriteLine(txt);
                    }
                }
            }
        }
    }