Cara Mengekstrak Tabel dari Halaman Web

Mengekstrak tabel HTML dari halaman web adalah tugas yang umum dilakukan dalam penggalian web, analisis data, dan pemrosesan konten. Dengan menggunakan Aspose.HTML for Python via .NET , pengembang dapat dengan mudah mengotomatiskan proses menemukan, mengunduh, dan menyimpan elemen <table> dari halaman web mana pun. Solusi canggih untuk mengekstrak tabel secara terprogram ini sangat ideal bagi siapa saja yang perlu bekerja dengan data terstruktur dari artikel, laporan, atau halaman web lainnya.


Mengekstrak Tabel Menggunakan Python

Kode Python berikut ini menunjukkan cara mengunduh dokumen HTML dari situs web, mengidentifikasi semua elemen tabel di dalamnya, dan mengekspor setiap tabel ke dalam file HTML yang terpisah dan mandiri untuk digunakan di kemudian hari:


Kode Python untuk mengunduh tabel dari halaman web

import os
import aspose.html as ah

# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
    # Get all <table> elements
    tables = doc.get_elements_by_tag_name("table")

    if tables.length > 0:
        for i, table in enumerate(tables):
            # Construct output file path
            file_name = f"table{i}.htm"
            file_path = os.path.join(output_dir, file_name)

            # Create a new HTML document from the table's outer HTML
            new_doc = ah.HTMLDocument(table.outer_html, file_path)

            # Save the new document
            new_doc.save(file_path)
    else:
        # Handle case where no tables are found
        print("No tables found in the document.")


Langkah-langkah untuk Mengekstrak Tabel dari Halaman Web

  1. Gunakan konstruktor HTMLDocument(url) untuk membuka dokumen HTML dari URL yang ditentukan. Dokumen ini merupakan sumber dari mana elemen <table> akan diekstrak.
  2. Panggil metode get_elements_by_tag_name(“table”) untuk mengumpulkan semua elemen <table> dari dokumen HTML.
  3. Periksa apakah ada tabel yang ditemukan. Jika ada tabel, mulai perulangan untuk mengulang setiap elemen tabel.
    • Buat nama file yang unik untuk setiap tabel.
    • Buat HTMLDocument baru dengan menggunakan properti outer_html dari elemen tabel dan jalur keluaran untuk menyimpan.
    • Simpan dokumen HTML baru yang berisi tabel tunggal dengan menggunakan metode save() .
  4. Jika tidak ada elemen <table> yang ditemukan, cetak pesan dengan informasi bahwa tidak ada tabel yang ditemukan dalam dokumen.

Untuk mempelajari lebih lanjut tentang cara mengekstrak berbagai jenis data secara terprogram dari web atau dokumen HTML apa pun menggunakan Python, lihat bab Data Extraction in Python pada dokumentasi. Bab ini menawarkan panduan praktis tentang cara memeriksa, menangkap, dan mengekstrak data berharga secara otomatis dari HTML menggunakan Aspose.HTML for Python via .NET. Bab ini mencakup topik-topik penting seperti menavigasi dokumen HTML dengan pemilih CSS dan XPath, serta mengunduh dan menyimpan sumber daya jarak jauh seperti gambar, grafik SVG, dan file lainnya.



Memulai dengan API Python

Jika Anda ingin mengurai, memanipulasi, dan mengelola dokumen HTML, instal API Aspose.HTML for Python via .NET kami yang fleksibel dan berkecepatan tinggi. pip adalah cara termudah untuk mengunduh dan menginstal pustaka Python. Untuk melakukannya, jalankan perintah berikut:

pip install aspose-html-net

Untuk detail lebih lanjut tentang instalasi pustaka Python dan persyaratan sistem, silakan lihat Dokumentasi Aspose.HTML.

Fitur Lain yang Didukung

Gunakan pustaka Aspose.HTML for Python via .NET untuk mengurai dan memanipulasi dokumen berbasis HTML. Jelas, aman dan sederhana!