Извлеките таблицы из PDF с помощью C#

Извлеките таблицу из PDF-документа. Используйте Aspose.PDF для .NET для программного изменения PDF-файлов

Как извлечь таблицы из PDF-документа с помощью библиотеки .NET

Чтобы извлечь таблицу, мы будем использовать Aspose.PDF для.NET API, который представляет собой многофункциональный, мощный и простой в использовании API для работы с документами для платформы net. Откройте менеджер пакетов NuGet, найдите Aspose.pdf и установите. Вы также можете использовать следующую команду из консоли Package Manager.

Package Manager Console

PM > Install-Package Aspose.PDF

Извлечение таблиц из PDF с помощью C#


Вам нужно Aspose.PDF for .NET попробовать код в своей среде.

  1. Импортируйте необходимые библиотеки
  2. Загрузите PDF-документ
  3. Инициализируйте TableAbsorber и выполняйте итерацию по страницам
  4. Извлеките содержимое таблицы
  5. Сохранить извлеченные данные (опционально)

Извлечение таблиц из PDF - C#

var pdfDocument = new Aspose.Pdf.Document("sample.pdf");
foreach (var page in pdfDocument.Pages)
{
    var absorber = new Aspose.Pdf.Text.TableAbsorber();
    absorber.Visit(page);
    foreach (var table in absorber.TableList)
    {
        foreach (var row in table.RowList)
        {
            foreach (var cell in row.CellList)
            {
                var textfragment = new Aspose.Pdf.Text.TextFragment();
                var textFragmentCollection = cell.TextFragments;
                foreach (var fragment in textFragmentCollection)
                {
                    string txt = "";
                    foreach (var seg in fragment.Segments)
                    {
                        txt += seg.Text;
                    }
                    Console.WriteLine(txt);
                }
            }
        }
    }
}