通过 C# 从 PDF 中提取表格

从 PDF 文档中提取表格。使用 Aspose.PDF for .NET 以编程方式修改 PDF 文件

如何使用 .NET 庫從 PDF 文件中提取表格

為了提取表格,我們將使用 Aspose.PDF for .NET API,這是一個功能豐富、功能強大且易於使用的文檔操作 API,適用於 net 平臺。打開 NuGet 包管理器,搜索“.PDF”並安裝。您也可以從程式包管理器主控台使用以下命令。

Package Manager Console

PM > Install-Package Aspose.PDF

通過C#從PDF中提取表格


您需要 Aspose.PDF for .NET 才能在您的環境中測試程式碼。

1。导入必要的库 1。加载 PDF 文档 1。初始化 tableAbsorber 并迭代页面 1。提取表格内容 1。保存提取的数据(可选)

從 PDF 中提取表格 - C#

var pdfDocument = new Aspose.Pdf.Document("sample.pdf");
foreach (var page in pdfDocument.Pages)
{
    var absorber = new Aspose.Pdf.Text.TableAbsorber();
    absorber.Visit(page);
    foreach (var table in absorber.TableList)
    {
        foreach (var row in table.RowList)
        {
            foreach (var cell in row.CellList)
            {
                var textfragment = new Aspose.Pdf.Text.TextFragment();
                var textFragmentCollection = cell.TextFragments;
                foreach (var fragment in textFragmentCollection)
                {
                    string txt = "";
                    foreach (var seg in fragment.Segments)
                    {
                        txt += seg.Text;
                    }
                    Console.WriteLine(txt);
                }
            }
        }
    }
}