Aspose.HTML for Python via .NET을 사용하여 어떤 유형의 데이터를 추출할 수 있나요?

이 라이브러리를 사용하면 내장된 HTML 페이지 요소, URL을 통해 직접 액세스할 수 있는 파일, 동적으로 생성된 콘텐츠 등 다양한 유형의 웹 리소스를 사용할 수 있습니다. 데이터가 웹 페이지에서 왔든 별도의 링크에서 왔든 프로그래밍 방식으로 액세스하고 처리할 수 있습니다.

image를 가져오려면 전체 웹 페이지를 로드해야 하나요?

항상 그런 것은 아닙니다. image를 직접 URL을 통해 사용할 수 있는 경우 즉시 다운로드하여 저장할 수 있습니다. HTML 문서를 로드하는 것은 데이터가 페이지 구조의 일부인 경우에만 필요합니다.

데이터를 추출하려면 외부 라이브러리나 브라우저 엔진이 필요하나요?

아니요. Aspose.HTML for Python via .NET은 완전히 독립적입니다. 모든 구문 분석, 렌더링 및 데이터 추출은 타사 도구 없이 라이브러리 내에서 수행됩니다.

HTML JPG PDF XML MHTML

파이썬에서 웹 페이지에서 이미지 추출

모든 웹사이트에서 이미지를 프로그래밍 방식으로 검색하고 다운로드할 수 있는 빠르고 강력한 솔루션입니다.

Download

웹 페이지에서 이미지를 추출하는 방법

HTML에서 이미지를 추출하는 기능은 웹 스크래핑 및 콘텐츠 분석을 비롯한 다양한 애플리케이션에 매우 중요합니다. Aspose.HTML for Python via .NET 은 개발자가 HTML 문서에서 정보를 원활하게 탐색하고 수집할 수 있는 일련의 도구를 제공하여 이 프로세스를 간소화하는 강력한 라이브러리입니다. 이 강력한 솔루션은 분석, 보관 또는 콘텐츠 제작을 위해 이미지를 수집해야 하는 모든 사용자에게 이상적이며, 수작업이 필요 없습니다. 웹 페이지에서 이미지를 다운로드하는 방법을 살펴보세요.

Python을 사용하여 이미지 추출

Aspose.HTML for Python via .NET을 사용하면, 당사 API가 HTML 문서에서 정보를 구문 분석하고 추출하기 위한 강력한 도구 세트를 제공하므로, 손쉽게 자체 애플리케이션을 만들 수 있습니다. 제품에서 HTML 데이터 구문 분석 기능을 사용하거나 프로그래밍 방식으로 HTML에서 데이터를 추출하려면 아래 코드 예시를 참조하세요.

웹 페이지에서 이미지를 다운로드하는 Python 코드

import os
import aspose.html as ah
import aspose.html.net as ahnet

# Prepare output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open HTML document from URL
with ah.HTMLDocument("https://docs.aspose.com/svg/net/drawing-basics/svg-color/") as doc:
    # Collect all <img> elements
    images = doc.get_elements_by_tag_name("img")

    # Get distinct relative image URLs
    urls = set(img.get_attribute("src") for img in images)

    # Create absolute image URLs
    abs_urls = [ah.Url(url, doc.base_uri) for url in urls]

    for url in abs_urls:
        # Create a network request
        request = ahnet.RequestMessage(url.href)

        # Send request
        response = doc.context.network.send(request)

        # Check if successful
        if response.is_success:
            # Extract file name
            file_name = os.path.basename(url.pathname)

            # Save image locally
            with open(os.path.join(output_dir, file_name), "wb") as f:
                f.write(response.content.read_as_byte_array())

웹 페이지에서 이미지를 추출하는 단계

HTMLDocument 클래스를 사용하여 대상 HTML 문서인 웹 페이지를 엽니다. 이 문서는 이미지를 추출할 소스입니다.
HTML 문서 내의 모든 <img> 요소를 수집하려면 HTMLDocument 객체의 get_elements_by_tag_name(“img”) 메서드를 호출합니다.
get_attribute(“src”) 메서드를 사용하여 <img> 요소 컬렉션을 반복하고 각 요소의 src 속성에 액세스하여 고유한 이미지 URL을 추출합니다. 이러한 URL을 집합으로 저장하여 중복이 없는지 확인합니다.
문서의 base_uri와 함께 각 상대 URL 또는 불완전한 URL을 Url 생성자에 전달하여 절대 이미지 URL을 생성합니다. 이렇게 하면 각 URL이 완전하고 네트워크 액세스에 유효한지 확인할 수 있습니다.
각 절대 이미지 URL에 대해 이미지 데이터를 가져오는 데 필요한 HTTP 요청을 나타내는 RequestMessage 객체를 생성합니다.
doc.context.network.send(request) 메서드를 사용하여 요청을 보내고 응답을 받습니다. is_success 속성을 평가하여 응답이 성공했는지 확인합니다.
os.path.basename()을 사용하여 절대 이미지 URL을 구문 분석하여 파일 이름을 추출한 다음 응답의 바이너리 데이터를 파일에 기록하여 이미지 콘텐츠를 출력 디렉터리에 저장합니다.

파이썬을 사용하여 웹사이트에서 다양한 유형의 이미지를 프로그래밍 방식으로 추출하는 방법에 대해 자세히 알아보려면 문서 Extract Images From Website in Python 도움말 문서를 참조하세요.

참고: 항상 저작권법을 준수하세요. 추출한 이미지를 상업적 목적으로 사용하기 전에 적절한 권리, 권한 또는 라이선스를 보유하고 있는지 확인하세요. 당사는 저작권이 있는 콘텐츠의 무단 사용을 보증하거나 지원하지 않습니다.

Python API 시작하기

HTML 문서를 파싱, 조작, 관리하려면 유연하고 고속의 Aspose.HTML for Python via .NET API를 설치하세요. pip는 Python 라이브러리를 다운로드하고 설치하는 가장 쉬운 방법입니다. 이를 위해 다음 명령을 실행하세요.

pip install aspose-html-net

Python 라이브러리 설치 및 시스템 요구 사항에 대한 자세한 내용은 Aspose.HTML 문서 를 참조하세요.

기타 지원 기능

Aspose.HTML for Python via .NET 라이브러리를 사용하여 HTML 기반 문서를 파싱하고 조작합니다. 명확하고 안전하며 간단합니다!

Extract images from web page

Extract SVG from website

Extract tables from website