C++ を介して PDF ドキュメントからテーブルを抽出

C++ ライブラリを使ってPDFからテーブルを抽出する方法

C++ ライブラリを使用して PDF ドキュメントからテーブルを抽出する方法

PDF からテーブルを抽出するために、cpp プラットフォーム用の機能豊富で強力で使いやすいドキュメント操作 API である Aspose.PDF for C++ API を使用します。NuGet パッケージマネージャーを開き、aspose.pdf を検索してインストールします。パッケージマネージャーコンソールから次のコマンドを使用することもできます。

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

C++ を介して PDF からテーブルを抽出


ご使用の環境でコードを試すには Aspose.PDF for C++ が必要です。

1。Document のインスタンスを持つ PDF を読み込みます。 1。テーブルを検索する TableAbsorber オブジェクトを作成します。 1。アブソーバー付きの最初のページをご覧ください。 1。ページ上の最初のテーブルを取得します。 1。テーブルを取り外します。ファイルを保存します。

PDF からテーブルを抽出-C++。


auto document = MakeObject<Document>(_dataDir + u"the_worlds_cities_in_2018_data_booklet 7.pdf");
    for (auto page : document->get_Pages())
    {
        auto absorber = MakeObject<Aspose::Pdf::Text::TableAbsorber>();
        absorber->Visit(page);
        for (auto table : absorber->get_TableList())
        {
            for (auto row : table->get_RowList())
            {
                for (auto cell : row->get_CellList())
                {
                    auto textfragment = MakeObject<TextFragment>();
                    auto textFragmentCollection = cell->get_TextFragments();
                    for (auto fragment : textFragmentCollection)
                    {
                        String txt;
                        for (auto seg : fragment->get_Segments())
                        {
                            txt += seg->get_Text();
                        }
                        Console::WriteLine(txt);
                    }
                }
            }
        }
    }