C# 를 통해 PDF 문서에서 테이블을 추출합니다.

C# 라이브러리를 사용하여 PDF에서 테이블을 추출하는 방법

.NET 라이브러리를 사용하여 PDF 문서에서 테이블을 추출하는 방법

테이블을 추출하기 위해 net 플랫폼을 위한 기능이 풍부하고 강력하며 사용하기 쉬운 문서 조작 API인 Aspose.PDF for .NET API를 사용할 것입니다.NuGet 패키지 관리자를 열고 Aspose.pdf를 검색하여 설치합니다.패키지 관리자 콘솔에서 다음 명령을 사용할 수도 있습니다.

Package Manager Console

PM > Install-Package Aspose.PDF

C# 를 통해 PDF에서 표 추출


사용자 환경에서 코드를 테스트하려면 Aspose.PDF for .NET 이 필요합니다.

1.문서 인스턴스와 함께 PDF를 로드합니다. 1.테이블을 찾기 위해 TableAbsorber 객체를 생성합니다. 1.업소버와 함께 첫 페이지를 방문하세요. 1.페이지의 첫 번째 테이블을 가져옵니다. 1.테이블을 제거합니다.파일을 저장합니다.

PDF에서 표 추출하기 - C#


Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(@"c:\tmp\the_worlds_cities_in_2018_data_booklet 7.pdf");           
    foreach (var page in pdfDocument.Pages)
    {
        Aspose.Pdf.Text.TableAbsorber absorber = new Aspose.Pdf.Text.TableAbsorber();
        absorber.Visit(page);
        foreach (AbsorbedTable table in absorber.TableList)
        {
            foreach (AbsorbedRow row in table.RowList)
            {
                foreach (AbsorbedCell cell in row.CellList)
                {
                    TextFragment textfragment = new TextFragment();
                    TextFragmentCollection textFragmentCollection = cell.TextFragments;
                    foreach (TextFragment fragment in textFragmentCollection)
                    {
                        string txt = "";
                        foreach (TextSegment seg in fragment.Segments)
                        {
                            txt += seg.Text;
                        }
                        Console.WriteLine(txt);
                    }
                }
            }
        }
    }