通过 C# 从 PDF 中提取表格

从 PDF 文档中提取表格。使用 Aspose.PDF for .NET 以编程方式修改 PDF 文件

如何使用 .NET 库从 PDF 文档中提取表格

为了提取表,我们将使用 Aspose.PDF for .NET API,这是一款功能丰富、功能强大且易于使用的适用于 net 平台的文档操作 API。打开 NuGet 软件包管理器,搜索 aspose.pdf 然后安装。您也可以从软件包管理器控制台使用以下命令。

Package Manager Console

PM > Install-Package Aspose.PDF

通过 C# 从 PDF 中提取表格


你需要 Aspose.PDF for .NET 在你的环境中试用代码。

1。导入必要的库 1。加载 PDF 文档 1。初始化 tableAbsorber 并迭代页面 1。提取表格内容 1。保存提取的数据(可选)

从 PDF 中提取表格-C#

var pdfDocument = new Aspose.Pdf.Document("sample.pdf");
foreach (var page in pdfDocument.Pages)
{
    var absorber = new Aspose.Pdf.Text.TableAbsorber();
    absorber.Visit(page);
    foreach (var table in absorber.TableList)
    {
        foreach (var row in table.RowList)
        {
            foreach (var cell in row.CellList)
            {
                var textfragment = new Aspose.Pdf.Text.TextFragment();
                var textFragmentCollection = cell.TextFragments;
                foreach (var fragment in textFragmentCollection)
                {
                    string txt = "";
                    foreach (var seg in fragment.Segments)
                    {
                        txt += seg.Text;
                    }
                    Console.WriteLine(txt);
                }
            }
        }
    }
}