Cara Mengekstrak Gambar dari Situs Web

Kemampuan untuk mengekstrak gambar dari HTML penting untuk berbagai aplikasi seperti web scraping dan analisis konten. Aspose.HTML for Java adalah pustaka yang kuat yang menyederhanakan proses ini dengan menawarkan kepada para pengembang seperangkat alat untuk menavigasi dan mengumpulkan informasi dari dokumen HTML dengan mulus. Mari kita jelajahi cara mengekstrak gambar dari dokumen HTML.


Mengekstrak Gambar dari HTML Menggunakan Java

Dengan menggunakan pustaka Aspose.HTML for Java, Anda dapat dengan mudah membuat aplikasi Anda sendiri, karena API kami menyediakan seperangkat alat yang tangguh untuk mengurai dan mengekstrak informasi dari dokumen HTML. Jika Anda ingin menggunakan fitur penguraian data HTML dalam produk Anda atau mengekstrak data secara terprogram dari HTML, lihat contoh kode di bawah ini.


Kode Java untuk mengekstrak gambar dari situs web

// Open a document you want to download images from
final HTMLDocument document = new HTMLDocument("https://docs.aspose.com/svg/net/drawing-basics/svg-shapes/");

// Collect all <img> elements
HTMLCollection images = document.getElementsByTagName("img");

// Create a distinct collection of relative image URLs
Iterator<Element> iterator = images.iterator();
java.util.Set<String> urls = new HashSet<>();
for (Element e : images) {
    urls.add(e.getAttribute("src"));
}

// Create absolute image URLs
java.util.List<Url> absUrls = urls.stream()
    .map(src -> new Url(src, document.getBaseURI()))
    .collect(Collectors.toList());

for (Url url : absUrls) {
    // Create an image request message
    final RequestMessage request = new RequestMessage(url);

    // Extract image
    final ResponseMessage response = document.getContext().getNetwork().send(request);

    // Check whether a response is successful
    if (response.isSuccess()) {
        String[] split = url.getPathname().split("/");
        String path = split[split.length - 1];

        // Save file to a local file system
        FileHelper.writeAllBytes(path, response.getContent().readAsByteArray());
    }
}



Langkah-langkah untuk Mengekstrak Gambar dari Situs Web

  1. Gunakan konstruktor HTMLDocument(Url) untuk menginisialisasi dokumen HTML.
  2. Gunakan metode getElementsByTagName("img") untuk mengumpulkan semua elemen <img> dari dokumen. Metode ini mengembalikan kumpulan elemen <img> yang ada di halaman web.
  3. Lakukan perulangan melalui elemen <img> dan gunakan metode getAttribute("src") untuk mengekstrak atribut src dari setiap elemen <img>.
  4. Buat URL gambar absolut menggunakan kelas Url dan properti BaseURI dari kelas HTMLDocument.
  5. Untuk setiap URL gambar absolut, buat permintaan menggunakan konstruktor RequestMessage(url) dan kirimkan. Tanggapan akan diperiksa untuk memastikan bahwa permintaan tersebut berhasil.
  6. Jika respons berhasil, ekstrak data gambar dan simpan ke sistem berkas lokal Anda menggunakan FileHelper.writeAllBytes().

Dengan Aspose.HTML for Java, Anda dapat dengan mudah membuat alat yang mem-parsing halaman HTML, mengidentifikasi sumber gambar, dan mengunduh gambar-gambar tersebut. Ini adalah solusi yang ampuh bagi mereka yang perlu mengumpulkan gambar untuk analisis, pengarsipan, atau pembuatan konten – tanpa perlu repot-repot melakukannya secara manual. Untuk mempelajari lebih lanjut tentang cara mengekstrak berbagai jenis gambar secara terprogram dari situs web menggunakan Java, lihat artikel dokumentasi Ekstrak Gambar dari Situs Web di Java .

Catatan: Sangat penting untuk mematuhi undang-undang hak cipta dan mendapatkan izin atau lisensi yang sesuai sebelum menggunakan gambar yang disimpan secara komersial. Kami tidak mendukung ekstraksi dan penggunaan file orang lain untuk tujuan komersial tanpa persetujuan mereka.




Memulai dengan Java HTML Parser Library

HTML API adalah pengikisan web tingkat lanjut dan perpustakaan parsing HTML. Seseorang dapat membuat, mengedit, menavigasi melalui node, mengekstrak data dan mengonversi file HTML, XHTML, dan MHTML ke PDF, Gambar, dan format lainnya. Selain itu, ia juga menangani CSS, Kanvas HTML, SVG, XPath, dan JavaScript di luar kotak untuk memperluas tugas manipulasi. Ini adalah API mandiri dan tidak memerlukan penginstalan software apa pun.
Anda dapat mendownload versi terbarunya langsung dari Aspose Maven Repository dan menginstalnya dalam project berbasis Maven Anda dengan menambahkan konfigurasi berikut ke pom.xml.


Gudang

<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>

Ketergantungan

<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-html</artifactId>
<version>version of aspose-html API</version>
<classifier>jdk17</classifier>
</dependency>

Fitur Lain yang Didukung

Gunakan pustaka Aspose.HTML for Java untuk mengurai dan memanipulasi dokumen berbasis HTML. Jelas, aman, dan sederhana!