Извлечение таблиц из PDF-документа с помощью C#

Как извлечь таблицу из PDF с помощью библиотеки C#

Как извлечь таблицы из PDF-документа с помощью библиотеки .NET

Чтобы извлечь таблицу, мы будем использовать Aspose.PDF для.NET API, который представляет собой многофункциональный, мощный и простой в использовании API для работы с документами для платформы net. Откройте менеджер пакетов NuGet, найдите Aspose.pdf и установите. Вы также можете использовать следующую команду из консоли Package Manager.

Package Manager Console

PM > Install-Package Aspose.PDF

Извлечение таблиц из PDF с помощью C#


Вам нужно Aspose.PDF for .NET попробовать код в своей среде.

  1. Загрузите PDF-файл с экземпляром документа.
  2. Создайте объект TableAbsorber для поиска таблиц.
  3. Посетите первую страницу с абсорбером.
  4. Получите первый стол на странице.
  5. Уберите таблицу. Сохраните файл.

Извлечение таблиц из PDF - C#


Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(@"c:\tmp\the_worlds_cities_in_2018_data_booklet 7.pdf");           
    foreach (var page in pdfDocument.Pages)
    {
        Aspose.Pdf.Text.TableAbsorber absorber = new Aspose.Pdf.Text.TableAbsorber();
        absorber.Visit(page);
        foreach (AbsorbedTable table in absorber.TableList)
        {
            foreach (AbsorbedRow row in table.RowList)
            {
                foreach (AbsorbedCell cell in row.CellList)
                {
                    TextFragment textfragment = new TextFragment();
                    TextFragmentCollection textFragmentCollection = cell.TextFragments;
                    foreach (TextFragment fragment in textFragmentCollection)
                    {
                        string txt = "";
                        foreach (TextSegment seg in fragment.Segments)
                        {
                            txt += seg.Text;
                        }
                        Console.WriteLine(txt);
                    }
                }
            }
        }
    }