C# を使って PDF からテーブルを抽出

PDF ドキュメントからテーブルを抽出します。プログラムで PDF ファイルを変更するには、Aspose.PDF for .NET を使用してください

C# Java C++ Python

.NET ライブラリを使用して PDF ドキュメントからテーブルを抽出する方法

テーブルを抽出するために、net プラットフォーム用の機能豊富で強力で使いやすいドキュメント操作 API である Aspose.PDF for .NET API を使用します。NuGet パッケージマネージャーを開き、aspose.pdf を検索してインストールします。パッケージマネージャーコンソールから次のコマンドを使用することもできます。

Package Manager Console

PM > Install-Package Aspose.PDF

C# を介して PDF からテーブルを抽出

お使いの環境でコードを試すには Aspose.PDF for .NET が必要です。

1。必要なライブラリをインポートする。 1.PDF ドキュメントをロードします。 1.「テーブルアブソーバー」を初期化し、ページを繰り返し処理する 1.テーブルの内容を抽出 1.抽出したデータを保存する (オプション)

PDF からテーブルを抽出-C#

var pdfDocument = new Aspose.Pdf.Document("sample.pdf");
foreach (var page in pdfDocument.Pages)
{
    var absorber = new Aspose.Pdf.Text.TableAbsorber();
    absorber.Visit(page);
    foreach (var table in absorber.TableList)
    {
        foreach (var row in table.RowList)
        {
            foreach (var cell in row.CellList)
            {
                var textfragment = new Aspose.Pdf.Text.TextFragment();
                var textFragmentCollection = cell.TextFragments;
                foreach (var fragment in textFragmentCollection)
                {
                    string txt = "";
                    foreach (var seg in fragment.Segments)
                    {
                        txt += seg.Text;
                    }
                    Console.WriteLine(txt);
                }
            }
        }
    }
}