HTML에서 테이블을 추출하는 방법

HTML에서 테이블을 추출하는 기능은 웹 스크래핑 및 콘텐츠 분석과 같은 다양한 애플리케이션에 중요합니다. Aspose.HTML for .NET 은 HTML 문서에서 정보를 원활하게 탐색하고 수집할 수 있는 도구 세트를 개발자에게 제공하여 이 프로세스를 단순화하는 강력한 라이브러리입니다. HTML 문서에서 테이블을 추출하는 방법을 살펴보겠습니다.

먼저 프로젝트에 Aspose.HTML for .NET이 설치되어 있는지 확인하세요. 이 라이브러리의 설치 과정은 매우 간단합니다. NuGet 패키지 관리자를 열고 Aspose.HTML을 검색하여 설치합니다. 패키지 관리자 콘솔에서 다음 명령을 사용할 수도 있습니다.


Aspose.HTML for .NET 설치

Install-Package Aspose.HTML



C#을 사용하여 HTML 테이블 추출

.NET API용 Aspose.HTML은 HTML 문서에서 정보를 분석하고 수집하는 강력한 도구 세트를 제공합니다. C# 코드 몇 줄로 HTML 테이블을 추출할 수 있습니다. 다음 예에서는 HTML 문서에서 모든 <table> 요소를 찾고, 각 테이블에 대해 별도의 HTML 파일을 만들고, 이를 출력 디렉터리에 저장하는 방법을 보여줍니다. 각 출력 HTML 파일에는 소스 HTML 문서의 테이블 하나만 포함됩니다.


HTML에서 테이블을 추출하는 C# 코드

using Aspose.Html;
using System.IO;
using System.Collections.Generic;
...

    // Prepare a path to a source HTML file
    string documentPath = Path.Combine(DataDir, "tables.html");

    // Create an instance of an HTML document
    using (var document = new HTMLDocument(documentPath))
    {
        var tables = document.GetElementsByTagName("table");
        var result = new List<Dictionary<string, string>>();
        var i = 0;
        foreach (var table in tables)
        {
            // Save table to new html document
            var newFileName = "table" + i + ".htm";
            var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
            newDoc.Save(Path.Combine(OutputDir, newFileName));
            i++;
        }
    }



HTML에서 테이블을 추출하는 단계

  1. HTMLDocument() 생성자를 사용하여 HTML 문서를 초기화합니다. 소스 HTML 파일의 경로를 생성자에 매개변수로 전달합니다.
  2. GetElementsByTagName("table") 메서드를 사용하여 모든 <table> 요소를 수집합니다. 이 메소드는 HTML 문서의 <table> 요소 목록을 반환합니다.
  3. 루프를 시작하여 각 테이블 요소를 반복합니다.
    • HTML 테이블 파일에 대한 새 파일 이름을 만듭니다.
    • HTMLDocument(content, baseUri) 생성자를 사용하여 테이블 요소의 OuterHTML 속성과 새 파일 이름을 사용하여 HTML 문서의 새 인스턴스를 만듭니다.
    • Save() 메서드를 사용하여 새로 생성된 HTML 문서를 출력 디렉터리에 저장합니다.

Aspose.HTML API에 대해 자세히 알아보려면 문서 가이드를 참조하세요. Aspose.HTML for .NET은 HTML, XHTML, MD, EPUB 및 MHTML 파일을 생성, 편집 및 변환할 수 있는 고급 HTML 구문 분석 라이브러리입니다. Data Extraction 문서 섹션에서는 Aspose.HTML for .NET을 사용하여 웹 페이지에서 데이터를 자동으로 검사, 수집 및 추출하는 방법을 설명합니다. 이 섹션의 기사에서는 HTML 문서를 탐색하고 해당 요소를 자세히 검사하는 방법, URL에서 웹 사이트나 파일을 저장하는 방법, 웹 사이트에서 다양한 유형의 이미지를 추출하는 방법 등을 배웁니다.



HTML 테이블 생성기 – 온라인 앱

Aspose.HTML은 사용자 정의 가능한 옵션이 포함된 테이블을 생성하기 위한 온라인 애플리케이션인 HTML 테이블 생성기 를 제공합니다. 무료이며 사용이 명확합니다. 필수 옵션을 모두 입력하고 결과를 얻으세요! HTML 테이블 생성기는 HTML 테이블 코드를 자동으로 생성합니다. 이 도구는 필요한 HTML 테이블을 가져와 가능한 한 빨리 온라인에 게시할 수 있도록 설계되었습니다.

기타 지원되는 C# 라이브러리 기능

.NET 라이브러리용 Aspose.HTML을 사용하여 HTML 기반 문서를 구문 분석하고 조작합니다. 명확하고 안전하며 간단합니다!