C# を介して PDF ドキュメントからテーブルを抽出

C# ライブラリを使ってPDFからテーブルを抽出する方法

.NET ライブラリを使用して PDF ドキュメントからテーブルを抽出する方法

テーブルを抽出するために、net プラットフォーム用の機能豊富で強力で使いやすいドキュメント操作 API である Aspose.PDF for .NET API を使用します。NuGet パッケージマネージャーを開き、aspose.pdf を検索してインストールします。パッケージマネージャーコンソールから次のコマンドを使用することもできます。

Package Manager Console

PM > Install-Package Aspose.PDF

C# を介して PDF からテーブルを抽出


お使いの環境でコードを試すには Aspose.PDF for .NET が必要です。

1。Document のインスタンスを持つ PDF を読み込みます。 1。テーブルを検索する TableAbsorber オブジェクトを作成します。 1。アブソーバー付きの最初のページをご覧ください。 1。ページ上の最初のテーブルを取得します。 1。テーブルを取り外します。ファイルを保存します。

PDF からテーブルを抽出-C#。


Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(@"c:\tmp\the_worlds_cities_in_2018_data_booklet 7.pdf");           
    foreach (var page in pdfDocument.Pages)
    {
        Aspose.Pdf.Text.TableAbsorber absorber = new Aspose.Pdf.Text.TableAbsorber();
        absorber.Visit(page);
        foreach (AbsorbedTable table in absorber.TableList)
        {
            foreach (AbsorbedRow row in table.RowList)
            {
                foreach (AbsorbedCell cell in row.CellList)
                {
                    TextFragment textfragment = new TextFragment();
                    TextFragmentCollection textFragmentCollection = cell.TextFragments;
                    foreach (TextFragment fragment in textFragmentCollection)
                    {
                        string txt = "";
                        foreach (TextSegment seg in fragment.Segments)
                        {
                            txt += seg.Text;
                        }
                        Console.WriteLine(txt);
                    }
                }
            }
        }
    }