Cara Mengekstrak Gambar dari Halaman Web

Kemampuan untuk mengekstrak gambar dari HTML sangat penting untuk berbagai aplikasi, termasuk web scraping dan analisis konten. Aspose.HTML for Python via .NET adalah pustaka yang kuat yang menyederhanakan proses ini dengan menawarkan kepada para pengembang seperangkat alat untuk menavigasi dan mengumpulkan informasi dari dokumen HTML dengan mulus. Solusi canggih ini sangat ideal bagi siapa saja yang perlu mengumpulkan gambar untuk analisis, pengarsipan, atau pembuatan konten-menghilangkan kebutuhan untuk pekerjaan manual. Mari kita jelajahi cara mengunduh gambar dari halaman web.


Mengekstrak Gambar Menggunakan Python

Dengan menggunakan Aspose.HTML for Python via .NET, Anda dapat dengan mudah membuat aplikasi Anda sendiri, karena API kami menyediakan seperangkat alat yang kuat untuk mengurai dan mengekstrak informasi dari dokumen HTML. Jika Anda ingin menggunakan fitur penguraian data HTML dalam produk Anda atau mengekstrak data secara terprogram dari HTML, lihat contoh kode di bawah ini.


Kode Python untuk mengunduh gambar dari halaman web

import os
import aspose.html as ah
import aspose.html.net as ahnet

# Prepare output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open HTML document from URL
with ah.HTMLDocument("https://docs.aspose.com/svg/net/drawing-basics/svg-color/") as doc:
    # Collect all <img> elements
    images = doc.get_elements_by_tag_name("img")

    # Get distinct relative image URLs
    urls = set(img.get_attribute("src") for img in images)

    # Create absolute image URLs
    abs_urls = [ah.Url(url, doc.base_uri) for url in urls]

    for url in abs_urls:
        # Create a network request
        request = ahnet.RequestMessage(url.href)

        # Send request
        response = doc.context.network.send(request)

        # Check if successful
        if response.is_success:
            # Extract file name
            file_name = os.path.basename(url.pathname)

            # Save image locally
            with open(os.path.join(output_dir, file_name), "wb") as f:
                f.write(response.content.read_as_byte_array())


Langkah-langkah untuk Mengekstrak Gambar dari Halaman Web

  1. Buka dokumen HTML target, halaman web, menggunakan kelas HTMLDocument. Dokumen ini adalah sumber dari mana gambar akan diekstrak.
  2. Panggil metode get_elements_by_tag_name(“img”) dari objek HTMLDocument untuk mengumpulkan semua elemen <img> di dalam dokumen HTML.
  3. Ekstrak URL gambar unik dengan mengulang-ulang koleksi elemen <img> dan mengakses atribut src setiap elemen menggunakan metode get_attribute(“src”) . Simpan URL ini dalam satu set untuk memastikan tidak ada duplikat.
  4. Buat URL gambar absolut dengan meneruskan setiap URL relatif atau tidak lengkap bersama dengan base_uri dokumen ke konstruktor Url. Hal ini memastikan setiap URL lengkap dan valid untuk akses jaringan.
  5. Untuk setiap URL gambar absolut, buat objek RequestMessage untuk merepresentasikan permintaan HTTP yang diperlukan untuk mengambil data gambar.
  6. Gunakan metode doc.context.network.send(request) untuk mengirim permintaan dan menerima respons. Periksa apakah respons berhasil dengan mengevaluasi properti is_success.
  7. Parsing URL gambar absolut menggunakan os.path.basename() untuk mengekstrak nama file, lalu simpan konten gambar ke direktori keluaran dengan menulis data biner dari respons ke file.

Untuk mempelajari lebih lanjut tentang cara mengekstrak berbagai jenis gambar secara terprogram dari situs web menggunakan Python, lihat artikel dokumentasi Extract Images From Website in Python .

Catatan: Selalu hormati undang-undang hak cipta. Pastikan Anda memiliki hak, izin, atau lisensi yang sesuai sebelum menggunakan gambar yang diekstrak untuk tujuan komersial. Kami tidak mendukung atau mendukung penggunaan konten berhak cipta secara tidak sah.



Memulai dengan API Python

Jika Anda ingin mengurai, memanipulasi, dan mengelola dokumen HTML, instal API Aspose.HTML for Python via .NET kami yang fleksibel dan berkecepatan tinggi. pip adalah cara termudah untuk mengunduh dan menginstal pustaka Python. Untuk melakukannya, jalankan perintah berikut:

pip install aspose-html-net

Untuk detail lebih lanjut tentang instalasi pustaka Python dan persyaratan sistem, silakan lihat Dokumentasi Aspose.HTML.

Fitur Lain yang Didukung

Gunakan pustaka Aspose.HTML for Python via .NET untuk mengurai dan memanipulasi dokumen berbasis HTML. Jelas, aman dan sederhana!