Aspose.HTML for Python via .NET을 사용하여 어떤 유형의 데이터를 추출할 수 있나요?

이 라이브러리를 사용하면 내장된 HTML 페이지 요소, URL을 통해 직접 액세스할 수 있는 파일, 동적으로 생성된 콘텐츠 등 다양한 유형의 웹 리소스를 사용할 수 있습니다. 데이터가 웹 페이지에서 왔든 별도의 링크에서 왔든 프로그래밍 방식으로 액세스하고 처리할 수 있습니다.

file를 가져오려면 전체 웹 페이지를 로드해야 하나요?

항상 그런 것은 아닙니다. file를 직접 URL을 통해 사용할 수 있는 경우 즉시 다운로드하여 저장할 수 있습니다. HTML 문서를 로드하는 것은 데이터가 페이지 구조의 일부인 경우에만 필요합니다.

데이터를 추출하려면 외부 라이브러리나 브라우저 엔진이 필요하나요?

아니요. Aspose.HTML for Python via .NET은 완전히 독립적입니다. 모든 구문 분석, 렌더링 및 데이터 추출은 타사 도구 없이 라이브러리 내에서 수행됩니다.

HTML JPG PDF XML MHTML

Python의 URL에서 파일 저장

Aspose.HTML for Python via .NET을 사용하여 온라인 소스에서 파일 다운로드를 자동화할 수 있습니다.

Download

URL에서 파일을 다운로드하는 방법

URL에서 파일을 다운로드하는 기능은 웹 스크래핑 및 콘텐츠 분석과 같은 다양한 애플리케이션에서 중요합니다. Aspose.HTML for Python via .NET 은 개발자에게 HTML 문서에서 정보를 원활하게 탐색하고 수집할 수 있는 일련의 도구를 제공하여 이 프로세스를 간소화하는 강력한 라이브러리입니다. Python을 사용하여 URL에서 파일을 저장하는 방법을 살펴보겠습니다.

Python을 사용하여 URL에서 파일 저장

다음 Python 코드는 Aspose.HTML for Python via .NET을 사용하여 지정된 URL에서 파일(예: 이미지, PDF 또는 기타 리소스)을 다운로드하는 방법을 보여줍니다. 이 코드는 네트워크 컨텍스트에 액세스하기 위해서만 빈 HTML 문서를 만들고, URL을 사용하여 파일을 요청하고, 응답이 성공하면 리소스를 다운로드합니다. 그런 다음 검색된 콘텐츠는 원래 파일 이름을 사용하여 로컬 출력 디렉터리에 저장됩니다:

URL에서 파일을 다운로드하는 Python 코드

import os
import aspose.html as ah
import aspose.html.net as ahnet

# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Create a blank document
doc = ah.HTMLDocument()

# Create a URL with the path to the resource you want to save
url = ah.Url("https://docs.aspose.com/html/images/handlers/message-handlers.png")

# Create a file request message
request = ahnet.RequestMessage(url)

# Extract file from URL
response = doc.context.network.send(request)

# Check whether the response is successful
if response.is_success:
    # Save the file to a local file system
    file_path = os.path.join(output_dir, os.path.basename(url.pathname))
    with open(file_path, "wb") as file:
        file.write(response.content.read_as_byte_array())

URL에서 파일을 저장하는 단계

HTMLDocument() 생성자를 사용하여 HTMLDocument 클래스의 빈 인스턴스를 생성합니다. 이 단계는 문서 컨텍스트 내에서 네트워크 액세스를 활성화하는 데 필요합니다.
저장하려는 리소스의 경로가 포함된 Url 클래스의 인스턴스를 만듭니다.
URL 인스턴스를 사용하여 RequestMessage 객체를 생성합니다. 이 객체는 원격 파일을 가져오는 데 사용되는 HTTP 요청을 나타냅니다.
요청을 전송하고 지정된 URL에서 응답을 받습니다. 응답의 is_success 속성을 확인하여 파일이 성공적으로 검색되었는지 확인합니다.
os.path.basename(url.경로명)을 사용하여 URL에서 파일 이름을 추출하고 출력 경로를 정의합니다.
바이너리 파일 스트림을 열고 response.content.read_as_byte_array()를 사용하여 콘텐츠를 작성하여 로컬 파일 시스템에 파일을 저장합니다.

URL에서 파일을 다운로드하면 인터넷 연결이 제한되어 있을 때 오프라인으로 액세스하거나, 공동 작업 및 콘텐츠 공유, 데이터 손실을 방지하기 위한 보관 및 백업, 또는 문서, 이미지, 동영상 또는 오디오 파일과 같은 필수 리소스를 나중에 사용할 수 있도록 저장하는 데 유용할 수 있습니다. 또한 교육 자료에 원격으로 액세스할 수 있는 유용한 방법으로 출퇴근이나 여행 중에도 언제 어디서나 공부할 수 있습니다.

Python을 사용하여 URL에서 파일을 프로그래밍 방식으로 다운로드하는 방법에 대해 자세히 알아보려면 문서 Save File from URL in Python 도움말 문서를 참조하세요.

참고: 저장된 파일을 상업적 목적으로 사용하기 전에 저작권법을 준수하고 적절한 권한 또는 라이선스를 취득하는 것이 중요합니다. 당사는 타인의 파일을 동의 없이 상업적 목적으로 추출하여 사용하는 것을 지원하지 않습니다.

Python API 시작하기

HTML 문서를 파싱, 조작, 관리하려면 유연하고 고속의 Aspose.HTML for Python via .NET API를 설치하세요. pip는 Python 라이브러리를 다운로드하고 설치하는 가장 쉬운 방법입니다. 이를 위해 다음 명령을 실행하세요.

pip install aspose-html-net

Python 라이브러리 설치 및 시스템 요구 사항에 대한 자세한 내용은 Aspose.HTML 문서 를 참조하세요.

기타 지원 기능

Aspose.HTML for Python via .NET 라이브러리를 사용하여 HTML 기반 문서를 구문 분석하고 조작합니다. 명확하고 안전하며 간단합니다!

Extract images from web page

Extract SVG from website

Extract tables from website