웹사이트에서 테이블을 추출하는 방법

HTML에서 테이블을 추출하는 기능은 웹 스크래핑 및 콘텐츠 분석과 같은 다양한 애플리케이션에 중요합니다. Aspose.HTML for .NET 은 HTML 문서에서 정보를 원활하게 탐색하고 수집할 수 있는 도구 세트를 개발자에게 제공하여 이 프로세스를 단순화하는 강력한 라이브러리입니다. 웹사이트에서 테이블을 추출하는 방법을 살펴보겠습니다.

먼저 프로젝트에 Aspose.HTML for .NET이 설치되어 있는지 확인하세요. 이 라이브러리의 설치 과정은 매우 간단합니다. NuGet 패키지 관리자를 열고 Aspose.HTML을 검색하여 설치합니다. 패키지 관리자 콘솔에서 다음 명령을 사용할 수도 있습니다.


Aspose.HTML for .NET 설치

Install-Package Aspose.HTML



C#을 사용하여 웹사이트에서 테이블 추출

C# 코드 몇 줄로 웹사이트에서 테이블을 추출할 수 있습니다. 다음 예에서는 HTML 문서에서 모든 <table> 요소를 찾고, 각 테이블에 대해 별도의 HTML 파일을 만들고, 이를 출력 디렉터리에 저장하는 방법을 보여줍니다.


웹사이트에서 테이블을 추출하는 C# 코드

using Aspose.Html;
using System.IO;
using System.Linq;
using System.Collections.Generic;
...

    // Open a document you want to download tables from
    using var document = new HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/");
    { 
        // Check if there are any table elements in the document
        var tables = document.GetElementsByTagName("table");

        if (tables.Any())
        {
            var result = new List<Dictionary<string, string>>();
            var i = 0;
            foreach (var table in tables)
            {
                // Save table to new html document
                var newFileName = "table" + i + ".htm";
                var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
                newDoc.Save(Path.Combine(OutputDir, newFileName));
                i++;
            }
        }
        else
        {
            // Handle the case where no tables are found
            Console.WriteLine("No tables found in the document.");
        }
    }



웹사이트에서 테이블을 추출하는 단계

이 C# 예제에서는 웹 사이트에서 테이블을 추출하고 각 테이블을 별도의 HTML 파일로 저장하는 방법을 보여줍니다. 여기에는 문서에 테이블이 있거나 없는 시나리오를 처리하는 단계가 포함되어 있습니다.

  1. HTMLDocument() 생성자를 사용하여 HTML 문서를 초기화합니다. 생성자는 테이블을 다운로드하려는 웹사이트의 URL을 매개변수로 사용합니다.
  2. GetElementsByTagName("table") 메서드를 사용하여 HTML 문서에서 모든 <table> 요소를 검색합니다. tables 변수에 테이블 요소 모음을 저장합니다.
  3. 문서에 표 요소가 포함되어 있는지 확인하세요. Any() 메서드를 사용하여 tables 컬렉션에 요소가 포함되어 있는지 확인하세요. 테이블이 발견된 경우:
    • HTML 테이블 파일에 대한 새 파일 이름을 만듭니다.
    • HTMLDocument(content, baseUri) 생성자를 사용하여 테이블 요소의 OuterHTML 속성과 새 파일 이름을 사용하여 HTML 문서의 새 인스턴스를 만듭니다.
    • Save() 메서드를 사용하여 새로 생성된 HTML 문서를 출력 디렉터리에 저장합니다.
  4. 문서에 테이블이 없으면 테이블을 찾을 수 없다는 메시지를 콘솔에 인쇄합니다.

Aspose.HTML API에 대해 자세히 알아보려면 문서 가이드를 참조하세요. Aspose.HTML for .NET은 HTML, XHTML, MD, EPUB 및 MHTML 파일을 생성, 편집 및 변환할 수 있는 고급 HTML 구문 분석 라이브러리입니다. Data Extraction 문서 섹션에서는 Aspose.HTML for .NET을 사용하여 웹 페이지에서 데이터를 자동으로 검사, 수집 및 추출하는 방법을 설명합니다. 이 섹션의 기사에서는 HTML 문서를 탐색하고 해당 요소를 자세히 검사하는 방법, URL에서 웹 사이트나 파일을 저장하는 방법, 웹 사이트에서 다양한 유형의 이미지를 추출하는 방법 등을 배웁니다.



HTML 테이블 생성기 – 온라인 앱

Aspose.HTML은 사용자 정의 가능한 옵션이 포함된 테이블을 생성하기 위한 온라인 애플리케이션인 HTML 테이블 생성기 를 제공합니다. 무료이며 사용이 명확합니다. 필수 옵션을 모두 입력하고 결과를 얻으세요! HTML 테이블 생성기는 HTML 테이블 코드를 자동으로 생성합니다. 이 도구는 필요한 HTML 테이블을 가져와 가능한 한 빨리 온라인에 게시할 수 있도록 설계되었습니다.

기타 지원되는 C# 라이브러리 기능

Aspose.HTML for .NET 라이브러리를 사용하여 HTML 기반 문서를 구문 분석하고 조작합니다. 명확하고 안전하며 간단합니다!