通过 C++ 从 PDF 文档中提取表格

如何使用 C++ 库从 PDF 中提取表格

如何使用 C++ 库从 PDF 文档中提取表格

为了从 PDF 中提取表格,我们将使用 Aspose.PDF for C++ API,这是一款功能丰富、功能强大且易于使用的适用于 cpp 平台的文档操作 API。打开 NuGet 软件包管理器,搜索 aspose.pdf 然后安装。您也可以从软件包管理器控制台使用以下命令。

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

通过 C++ 从 PDF 中提取表格


你需要 Aspose.PDF for C++ 才能在你的环境中试用这些代码。

1.加载带有文档实例的 PDF。 1.创建 TableAssorber 对象来查找表格。 1.使用吸收剂访问第一页。 1.获取页面上的第一张桌子。 1.移除表。保存该文件。

从 PDF 中提取表格-C++。


auto document = MakeObject<Document>(_dataDir + u"the_worlds_cities_in_2018_data_booklet 7.pdf");
    for (auto page : document->get_Pages())
    {
        auto absorber = MakeObject<Aspose::Pdf::Text::TableAbsorber>();
        absorber->Visit(page);
        for (auto table : absorber->get_TableList())
        {
            for (auto row : table->get_RowList())
            {
                for (auto cell : row->get_CellList())
                {
                    auto textfragment = MakeObject<TextFragment>();
                    auto textFragmentCollection = cell->get_TextFragments();
                    for (auto fragment : textFragmentCollection)
                    {
                        String txt;
                        for (auto seg : fragment->get_Segments())
                        {
                            txt += seg->get_Text();
                        }
                        Console::WriteLine(txt);
                    }
                }
            }
        }
    }