웹 페이지에서 테이블을 추출하는 방법
웹 페이지에서 HTML 테이블을 추출하는 것은 웹 스크래핑, 데이터 분석 및 콘텐츠 처리에서 흔히 사용되는 작업입니다.
Aspose.HTML for Python via .NET
을 사용하면 개발자는 모든 웹 페이지에서 <table>
요소를 찾고, 다운로드하고, 저장하는 프로세스를 쉽게 자동화할 수 있습니다. 프로그래밍 방식으로 표를 추출하는 이 강력한 솔루션은 기사, 보고서 또는 기타 웹 페이지에서 구조화된 데이터로 작업해야 하는 모든 사용자에게 이상적입니다.
Python을 사용하여 테이블 추출
다음 Python 코드는 웹사이트에서 HTML 문서를 다운로드하고, 그 안에 있는 모든 표 요소를 식별하고, 나중에 사용할 수 있도록 각 표를 별도의 독립된 HTML 파일로 내보내는 방법을 보여 줍니다:
웹 페이지에서 표를 다운로드하는 Python 코드
import os
import aspose.html as ah
# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)
# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
# Get all <table> elements
tables = doc.get_elements_by_tag_name("table")
if tables.length > 0:
for i, table in enumerate(tables):
# Construct output file path
file_name = f"table{i}.htm"
file_path = os.path.join(output_dir, file_name)
# Create a new HTML document from the table's outer HTML
new_doc = ah.HTMLDocument(table.outer_html, file_path)
# Save the new document
new_doc.save(file_path)
else:
# Handle case where no tables are found
print("No tables found in the document.")
웹 페이지에서 테이블을 추출하는 단계
- HTMLDocument(url)
생성자를 사용하여 지정된 URL에서 HTML 문서를 엽니다. 이 문서는
<table>
요소를 추출할 소스입니다. - get_elements_by_tag_name(“table”)
메서드를 호출하여 HTML 문서에서 모든
<table>
요소를 수집합니다. - 테이블이 있는지 확인합니다. 테이블이 있는 경우 루프를 시작하여 각 테이블 요소를 반복합니다.
- 각 테이블에 고유한 파일 이름을 만듭니다.
- 테이블 요소의
outer_html
속성과 저장할 출력 경로를 사용하여 새HTMLDocument
를 만듭니다. - save() 메서드를 사용하여 단일 테이블이 포함된 새 HTML 문서를 저장합니다.
<table>
요소를 찾을 수 없는 경우 문서에서 표를 찾을 수 없다는 정보가 포함된 메시지를 인쇄합니다.
Python을 사용하여 웹 또는 HTML 문서에서 다양한 유형의 데이터를 프로그래밍 방식으로 추출하는 방법에 대해 자세히 알아보려면 설명서의 Data Extraction in Python 장을 참조하세요. 이 장에서는 .NET API를 통해 Python용 Aspose.HTML을 사용하여 HTML에서 중요한 데이터를 자동으로 검사, 캡처 및 추출하는 방법에 대한 실용적인 지침을 제공합니다. CSS 선택기 및 XPath를 사용하여 HTML 문서를 탐색하고 이미지, SVG 그래픽 및 기타 파일과 같은 원격 리소스를 다운로드하고 저장하는 등의 필수 주제를 다룹니다.
Python API 시작하기
HTML 문서를 파싱, 조작, 관리하려면 유연하고 고속의 Aspose.HTML for Python via .NET API를 설치하세요. pip
는 Python 라이브러리를 다운로드하고 설치하는 가장 쉬운 방법입니다. 이를 위해 다음 명령을 실행하세요.
pip install aspose-html-net
Python 라이브러리 설치 및 시스템 요구 사항에 대한 자세한 내용은 Aspose.HTML 문서 를 참조하세요.
기타 지원 기능
Aspose.HTML for Python via .NET 라이브러리를 사용하여 HTML 기반 문서를 구문 분석하고 조작합니다. 명확하고 안전하며 간단합니다!