Extraer tablas de un PDF a través de C#

Extraer la tabla del documento PDF. Utilice Aspose.PDF for que .NET modifique los archivos PDF mediante programación

Cómo extraer tablas de un documento PDF con la biblioteca .NET

Para extraer la tabla, usaremos la API Aspose.PDF for .NET, que es una API de manipulación de documentos rica en funciones, potente y fácil de usar para la plataforma net. Abra el administrador de paquetes NuGet, busque Aspose.pdf e instálelo. También puede usar el siguiente comando desde la consola de Package Manager.

Package Manager Console

PM > Install-Package Aspose.PDF

Extraer tablas del PDF mediante C#


Necesita Aspose.PDF for .NET para probar el código en su entorno.

  1. Importe las bibliotecas necesarias
  2. Cargue el documento PDF
  3. Inicializa el TableAbsorber e itera sobre las páginas
  4. Extraer el contenido de la tabla
  5. Guarde los datos extraídos (opcional)

Extraer tablas del PDF: C#

var pdfDocument = new Aspose.Pdf.Document("sample.pdf");
foreach (var page in pdfDocument.Pages)
{
    var absorber = new Aspose.Pdf.Text.TableAbsorber();
    absorber.Visit(page);
    foreach (var table in absorber.TableList)
    {
        foreach (var row in table.RowList)
        {
            foreach (var cell in row.CellList)
            {
                var textfragment = new Aspose.Pdf.Text.TextFragment();
                var textFragmentCollection = cell.TextFragments;
                foreach (var fragment in textFragmentCollection)
                {
                    string txt = "";
                    foreach (var seg in fragment.Segments)
                    {
                        txt += seg.Text;
                    }
                    Console.WriteLine(txt);
                }
            }
        }
    }
}