웹사이트에서 이미지 추출하는 방법

HTML에서 이미지를 추출하는 기능은 웹 스크래핑 및 콘텐츠 분석과 같은 다양한 애플리케이션에 중요합니다. Aspose.HTML for Java 은 개발자가 HTML 문서에서 정보를 원활하게 탐색하고 수집할 수 있는 일련의 도구를 제공하여 이 프로세스를 간소화하는 강력한 라이브러리입니다. HTML 문서에서 이미지를 추출하는 방법을 살펴보겠습니다.


Java를 사용하여 HTML에서 이미지 추출하기

당사의 API는 HTML 문서에서 정보를 구문 분석하고 추출하기 위한 강력한 도구 세트를 제공하므로 Aspose.HTML for Java 라이브러리를 사용하면 자신만의 애플리케이션을 쉽게 만들 수 있습니다. 제품에서 HTML 데이터 구문 분석 기능을 사용하거나 프로그래밍 방식으로 HTML에서 데이터를 추출하려면 아래 코드 예시를 참조하세요.


웹 사이트에서 이미지를 추출하는 Java 코드

// Open a document you want to download images from
final HTMLDocument document = new HTMLDocument("https://docs.aspose.com/svg/net/drawing-basics/svg-shapes/");

// Collect all <img> elements
HTMLCollection images = document.getElementsByTagName("img");

// Create a distinct collection of relative image URLs
Iterator<Element> iterator = images.iterator();
java.util.Set<String> urls = new HashSet<>();
for (Element e : images) {
    urls.add(e.getAttribute("src"));
}

// Create absolute image URLs
java.util.List<Url> absUrls = urls.stream()
    .map(src -> new Url(src, document.getBaseURI()))
    .collect(Collectors.toList());

for (Url url : absUrls) {
    // Create an image request message
    final RequestMessage request = new RequestMessage(url);

    // Extract image
    final ResponseMessage response = document.getContext().getNetwork().send(request);

    // Check whether a response is successful
    if (response.isSuccess()) {
        String[] split = url.getPathname().split("/");
        String path = split[split.length - 1];

        // Save file to a local file system
        FileHelper.writeAllBytes(path, response.getContent().readAsByteArray());
    }
}



웹사이트에서 이미지를 추출하는 단계

  1. HTMLDocument(Url) 생성자를 사용하여 HTML 문서를 초기화합니다.
  2. getElementsByTagName("img") 메서드를 사용하여 문서에서 모든 <img> 요소를 수집합니다. 이 메서드는 웹 페이지에 있는 <img> 요소의 컬렉션을 반환합니다.
  3. <img> 요소를 반복하고 getAttribute("src") 메서드를 사용하여 각 <img> 요소의 src 속성을 추출합니다.
  4. Url 클래스와 HTMLDocument 클래스의 BaseURI 속성을 사용하여 절대 이미지 URL을 생성합니다.
  5. 각 절대 이미지 URL에 대해 RequestMessage(url) 생성자를 사용하여 요청을 생성하고 전송합니다. 응답이 성공했는지 확인합니다.
  6. 응답이 성공했다면 이미지 데이터를 추출하고 FileHelper.writeAllBytes()를 사용하여 로컬 파일 시스템에 저장합니다.

Aspose.HTML for Java을 사용하면 HTML 페이지를 구문 분석하고 이미지 소스를 식별하고 해당 이미지를 다운로드하는 도구를 쉽게 만들 수 있습니다. 이 도구는 분석, 보관 또는 콘텐츠 제작을 위해 이미지를 수집해야 하는 사람들이 번거롭게 수동으로 작업할 필요 없이 사용할 수 있는 강력한 솔루션입니다. Java를 사용하여 웹사이트에서 다양한 유형의 이미지를 프로그래밍 방식으로 추출하는 방법에 대해 자세히 알아보려면 문서 Java로 웹사이트에서 이미지 추출하기 도움말 문서를 참조하세요.

**참고:**저장된 이미지를 상업적으로 사용하기 전에 저작권법을 준수하고 적절한 권한 또는 라이선스를 취득하는 것이 필수적입니다. 당사는 타인의 파일을 동의 없이 상업적 목적으로 추출하여 사용하는 것을 지원하지 않습니다.




Java HTML 파서 라이브러리 시작하기

HTML API는 고급 웹 스크래핑 및 HTML 구문 분석 라이브러리입니다. 노드를 생성, 편집, 탐색하고 데이터를 추출하고 HTML, XHTML 및 MHTML 파일을 PDF, 이미지 및 기타 형식으로 변환할 수 있습니다. 또한 CSS, HTML Canvas, SVG, XPath 및 JavaScript를 기본적으로 처리하여 조작 작업을 확장합니다. 독립형 API이며 소프트웨어 설치가 필요하지 않습니다.

Aspose Maven Repository 에서 직접 최신 버전을 다운로드하고 pom.xml에 다음 구성을 추가하여 Maven 기반 프로젝트에 설치할 수 있습니다.


저장소

<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>

의존

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-html</artifactId>
<version>version of aspose-html API</version>
<classifier>jdk17</classifier>
</dependency>

기타 지원되는 기능

Aspose.HTML for Java 라이브러리를 사용해 HTML 기반 문서를 파싱하고 조작하세요. 명확하고 안전하며 간단합니다!