HTML에서 테이블을 추출하는 방법
HTML에서 테이블을 추출하는 기능은 웹 스크래핑 및 콘텐츠 분석과 같은 다양한 애플리케이션에 중요합니다. Aspose.HTML for .NET 은 HTML 문서에서 정보를 원활하게 탐색하고 수집할 수 있는 도구 세트를 개발자에게 제공하여 이 프로세스를 단순화하는 강력한 라이브러리입니다. HTML 문서에서 테이블을 추출하는 방법을 살펴보겠습니다.
먼저 프로젝트에 Aspose.HTML for .NET이 설치되어 있는지 확인하세요. 이 라이브러리의 설치 과정은 매우 간단합니다. NuGet 패키지 관리자를 열고 Aspose.HTML을 검색하여 설치합니다. 패키지 관리자 콘솔에서 다음 명령을 사용할 수도 있습니다.
Aspose.HTML for .NET 설치
Install-Package Aspose.HTML
C#을 사용하여 HTML 테이블 추출
.NET API용 Aspose.HTML은 HTML 문서에서 정보를 분석하고 수집하는 강력한 도구 세트를 제공합니다. C# 코드 몇 줄로 HTML 테이블을 추출할 수 있습니다. 다음 예에서는 HTML 문서에서 모든 <table>
요소를 찾고, 각 테이블에 대해 별도의 HTML 파일을 만들고, 이를 출력 디렉터리에 저장하는 방법을 보여줍니다. 각 출력 HTML 파일에는 소스 HTML 문서의 테이블 하나만 포함됩니다.
HTML에서 테이블을 추출하는 C# 코드
using Aspose.Html;
using System.IO;
using System.Collections.Generic;
...
// Prepare a path to a source HTML file
string documentPath = Path.Combine(DataDir, "tables.html");
// Create an instance of an HTML document
using (var document = new HTMLDocument(documentPath))
{
var tables = document.GetElementsByTagName("table");
var result = new List<Dictionary<string, string>>();
var i = 0;
foreach (var table in tables)
{
// Save table to new html document
var newFileName = "table" + i + ".htm";
var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
newDoc.Save(Path.Combine(OutputDir, newFileName));
i++;
}
}
HTML에서 테이블을 추출하는 단계
- HTMLDocument() 생성자를 사용하여 HTML 문서를 초기화합니다. 소스 HTML 파일의 경로를 생성자에 매개변수로 전달합니다.
- GetElementsByTagName(
"table"
) 메서드를 사용하여 모든<table>
요소를 수집합니다. 이 메소드는 HTML 문서의<table>
요소 목록을 반환합니다. - 루프를 시작하여 각 테이블 요소를 반복합니다.
- HTML 테이블 파일에 대한 새 파일 이름을 만듭니다.
- HTMLDocument(
content, baseUri
) 생성자를 사용하여 테이블 요소의OuterHTML
속성과 새 파일 이름을 사용하여 HTML 문서의 새 인스턴스를 만듭니다. - Save() 메서드를 사용하여 새로 생성된 HTML 문서를 출력 디렉터리에 저장합니다.
Aspose.HTML API에 대해 자세히 알아보려면 문서 가이드를 참조하세요. Aspose.HTML for .NET은 HTML, XHTML, MD, EPUB 및 MHTML 파일을 생성, 편집 및 변환할 수 있는 고급 HTML 구문 분석 라이브러리입니다. Data Extraction 문서 섹션에서는 Aspose.HTML for .NET을 사용하여 웹 페이지에서 데이터를 자동으로 검사, 수집 및 추출하는 방법을 설명합니다. 이 섹션의 기사에서는 HTML 문서를 탐색하고 해당 요소를 자세히 검사하는 방법, URL에서 웹 사이트나 파일을 저장하는 방법, 웹 사이트에서 다양한 유형의 이미지를 추출하는 방법 등을 배웁니다.
HTML 테이블 생성기 – 온라인 앱
Aspose.HTML은 사용자 정의 가능한 옵션이 포함된 테이블을 생성하기 위한 온라인 애플리케이션인 HTML 테이블 생성기 를 제공합니다. 무료이며 사용이 명확합니다. 필수 옵션을 모두 입력하고 결과를 얻으세요! HTML 테이블 생성기는 HTML 테이블 코드를 자동으로 생성합니다. 이 도구는 필요한 HTML 테이블을 가져와 가능한 한 빨리 온라인에 게시할 수 있도록 설계되었습니다.
기타 지원되는 C# 라이브러리 기능
.NET 라이브러리용 Aspose.HTML을 사용하여 HTML 기반 문서를 구문 분석하고 조작합니다. 명확하고 안전하며 간단합니다!