웹 페이지에서 테이블을 추출하는 방법

웹 페이지에서 HTML 테이블을 추출하는 것은 웹 스크래핑, 데이터 분석 및 콘텐츠 처리에서 흔히 사용되는 작업입니다. Aspose.HTML for Python via .NET 을 사용하면 개발자는 모든 웹 페이지에서 <table> 요소를 찾고, 다운로드하고, 저장하는 프로세스를 쉽게 자동화할 수 있습니다. 프로그래밍 방식으로 표를 추출하는 이 강력한 솔루션은 기사, 보고서 또는 기타 웹 페이지에서 구조화된 데이터로 작업해야 하는 모든 사용자에게 이상적입니다.


Python을 사용하여 테이블 추출

다음 Python 코드는 웹사이트에서 HTML 문서를 다운로드하고, 그 안에 있는 모든 표 요소를 식별하고, 나중에 사용할 수 있도록 각 표를 별도의 독립된 HTML 파일로 내보내는 방법을 보여 줍니다:


웹 페이지에서 표를 다운로드하는 Python 코드

import os
import aspose.html as ah

# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
    # Get all <table> elements
    tables = doc.get_elements_by_tag_name("table")

    if tables.length > 0:
        for i, table in enumerate(tables):
            # Construct output file path
            file_name = f"table{i}.htm"
            file_path = os.path.join(output_dir, file_name)

            # Create a new HTML document from the table's outer HTML
            new_doc = ah.HTMLDocument(table.outer_html, file_path)

            # Save the new document
            new_doc.save(file_path)
    else:
        # Handle case where no tables are found
        print("No tables found in the document.")


웹 페이지에서 테이블을 추출하는 단계

  1. HTMLDocument(url) 생성자를 사용하여 지정된 URL에서 HTML 문서를 엽니다. 이 문서는 <table> 요소를 추출할 소스입니다.
  2. get_elements_by_tag_name(“table”) 메서드를 호출하여 HTML 문서에서 모든 <table> 요소를 수집합니다.
  3. 테이블이 있는지 확인합니다. 테이블이 있는 경우 루프를 시작하여 각 테이블 요소를 반복합니다.
    • 각 테이블에 고유한 파일 이름을 만듭니다.
    • 테이블 요소의 outer_html 속성과 저장할 출력 경로를 사용하여 새 HTMLDocument를 만듭니다.
    • save() 메서드를 사용하여 단일 테이블이 포함된 새 HTML 문서를 저장합니다.
  4. <table> 요소를 찾을 수 없는 경우 문서에서 표를 찾을 수 없다는 정보가 포함된 메시지를 인쇄합니다.

Python을 사용하여 웹 또는 HTML 문서에서 다양한 유형의 데이터를 프로그래밍 방식으로 추출하는 방법에 대해 자세히 알아보려면 설명서의 Data Extraction in Python 장을 참조하세요. 이 장에서는 .NET API를 통해 Python용 Aspose.HTML을 사용하여 HTML에서 중요한 데이터를 자동으로 검사, 캡처 및 추출하는 방법에 대한 실용적인 지침을 제공합니다. CSS 선택기 및 XPath를 사용하여 HTML 문서를 탐색하고 이미지, SVG 그래픽 및 기타 파일과 같은 원격 리소스를 다운로드하고 저장하는 등의 필수 주제를 다룹니다.



Python API 시작하기

HTML 문서를 파싱, 조작, 관리하려면 유연하고 고속의 Aspose.HTML for Python via .NET API를 설치하세요. pip는 Python 라이브러리를 다운로드하고 설치하는 가장 쉬운 방법입니다. 이를 위해 다음 명령을 실행하세요.

pip install aspose-html-net

Python 라이브러리 설치 및 시스템 요구 사항에 대한 자세한 내용은 Aspose.HTML 문서 를 참조하세요.

기타 지원 기능

Aspose.HTML for Python via .NET 라이브러리를 사용하여 HTML 기반 문서를 구문 분석하고 조작합니다. 명확하고 안전하며 간단합니다!