Extraia tabelas do PDF via C#

Extraia a tabela do documento PDF. Use o Aspose.PDF for .NET para modificar arquivos PDF de forma programática

C# Java C++ Python

Como extrair tabelas de um documento PDF usando a biblioteca .NET

Para extrair a tabela, usaremos a API Aspose.PDF for .NET, que é uma API de manipulação de documentos rica em recursos, poderosa e fácil de usar para a plataforma net. Abra o gerenciador de pacotes NuGet, procure por Aspose.PDF e instale. Você também pode usar o seguinte comando no Console do Gerenciador de Pacotes.

Package Manager Console

PM > Install-Package Aspose.PDF

Extraia tabelas do PDF via C#

Você precisa Aspose.PDF for .NET testar o código em seu ambiente.

Importe as bibliotecas necessárias
Carregue o documento PDF
Inicialize o TableAbsorber e repita nas páginas
Extrair o conteúdo da tabela
Salvar dados extraídos (opcional)

Extraia tabelas do PDF - C#

var pdfDocument = new Aspose.Pdf.Document("sample.pdf");
foreach (var page in pdfDocument.Pages)
{
    var absorber = new Aspose.Pdf.Text.TableAbsorber();
    absorber.Visit(page);
    foreach (var table in absorber.TableList)
    {
        foreach (var row in table.RowList)
        {
            foreach (var cell in row.CellList)
            {
                var textfragment = new Aspose.Pdf.Text.TextFragment();
                var textFragmentCollection = cell.TextFragments;
                foreach (var fragment in textFragmentCollection)
                {
                    string txt = "";
                    foreach (var seg in fragment.Segments)
                    {
                        txt += seg.Text;
                    }
                    Console.WriteLine(txt);
                }
            }
        }
    }
}