Cara Mengekstrak Tabel dari Halaman Web
Mengekstrak tabel HTML dari halaman web adalah tugas yang umum dilakukan dalam penggalian web, analisis data, dan pemrosesan konten. Dengan menggunakan
Aspose.HTML for Python via .NET
, pengembang dapat dengan mudah mengotomatiskan proses menemukan, mengunduh, dan menyimpan elemen <table>
dari halaman web mana pun. Solusi canggih untuk mengekstrak tabel secara terprogram ini sangat ideal bagi siapa saja yang perlu bekerja dengan data terstruktur dari artikel, laporan, atau halaman web lainnya.
Mengekstrak Tabel Menggunakan Python
Kode Python berikut ini menunjukkan cara mengunduh dokumen HTML dari situs web, mengidentifikasi semua elemen tabel di dalamnya, dan mengekspor setiap tabel ke dalam file HTML yang terpisah dan mandiri untuk digunakan di kemudian hari:
Kode Python untuk mengunduh tabel dari halaman web
import os
import aspose.html as ah
# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)
# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
# Get all <table> elements
tables = doc.get_elements_by_tag_name("table")
if tables.length > 0:
for i, table in enumerate(tables):
# Construct output file path
file_name = f"table{i}.htm"
file_path = os.path.join(output_dir, file_name)
# Create a new HTML document from the table's outer HTML
new_doc = ah.HTMLDocument(table.outer_html, file_path)
# Save the new document
new_doc.save(file_path)
else:
# Handle case where no tables are found
print("No tables found in the document.")
Langkah-langkah untuk Mengekstrak Tabel dari Halaman Web
- Gunakan konstruktor
HTMLDocument(url)
untuk membuka dokumen HTML dari URL yang ditentukan. Dokumen ini merupakan sumber dari mana elemen
<table>
akan diekstrak. - Panggil metode
get_elements_by_tag_name(“table”)
untuk mengumpulkan semua elemen
<table>
dari dokumen HTML. - Periksa apakah ada tabel yang ditemukan. Jika ada tabel, mulai perulangan untuk mengulang setiap elemen tabel.
- Buat nama file yang unik untuk setiap tabel.
- Buat
HTMLDocument
baru dengan menggunakan propertiouter_html
dari elemen tabel dan jalur keluaran untuk menyimpan. - Simpan dokumen HTML baru yang berisi tabel tunggal dengan menggunakan metode save() .
- Jika tidak ada elemen
<table>
yang ditemukan, cetak pesan dengan informasi bahwa tidak ada tabel yang ditemukan dalam dokumen.
Untuk mempelajari lebih lanjut tentang cara mengekstrak berbagai jenis data secara terprogram dari web atau dokumen HTML apa pun menggunakan Python, lihat bab Data Extraction in Python pada dokumentasi. Bab ini menawarkan panduan praktis tentang cara memeriksa, menangkap, dan mengekstrak data berharga secara otomatis dari HTML menggunakan Aspose.HTML for Python via .NET. Bab ini mencakup topik-topik penting seperti menavigasi dokumen HTML dengan pemilih CSS dan XPath, serta mengunduh dan menyimpan sumber daya jarak jauh seperti gambar, grafik SVG, dan file lainnya.
Memulai dengan API Python
Jika Anda ingin mengurai, memanipulasi, dan mengelola dokumen HTML, instal API Aspose.HTML for Python via .NET kami yang fleksibel dan berkecepatan tinggi. pip
adalah cara termudah untuk mengunduh dan menginstal pustaka Python. Untuk melakukannya, jalankan perintah berikut:
pip install aspose-html-net
Untuk detail lebih lanjut tentang instalasi pustaka Python dan persyaratan sistem, silakan lihat Dokumentasi Aspose.HTML.
Fitur Lain yang Didukung
Gunakan pustaka Aspose.HTML for Python via .NET untuk mengurai dan memanipulasi dokumen berbasis HTML. Jelas, aman dan sederhana!