Cara Mengekstrak Tabel dari HTML
Kemampuan mengekstrak tabel dari HTML penting untuk berbagai aplikasi seperti web scraping dan analisis konten. Aspose.HTML for .NET adalah pustaka tangguh yang menyederhanakan proses ini dengan menawarkan seperangkat alat kepada pengembang untuk menavigasi dan mengumpulkan informasi dari dokumen HTML dengan lancar. Mari jelajahi cara mengekstrak tabel dari dokumen HTML.
Pertama, pastikan Anda telah Aspose.HTML for .NET terinstal di proyek Anda. Proses instalasi perpustakaan ini cukup sederhana. Buka manajer paket NuGet, cari Aspose.HTML, dan instal. Anda juga dapat menggunakan perintah berikut dari Package Manager Console:
Instal Aspose.HTML for .NET
Install-Package Aspose.HTML
Ekstrak Tabel HTML menggunakan C#
Aspose.HTML for .NET API menyediakan perangkat canggih untuk menganalisis dan mengumpulkan informasi dari dokumen HTML. Anda dapat mengekstrak tabel HTML dengan beberapa baris kode C#. Contoh berikut menunjukkan cara menemukan semua elemen <table>
dalam dokumen HTML, membuat file HTML terpisah untuk setiap tabel, dan menyimpannya di direktori output. Setiap file HTML keluaran hanya berisi satu tabel dari dokumen HTML sumber.
Kode C# untuk mengekstrak tabel dari HTML
using Aspose.Html;
using System.IO;
using System.Collections.Generic;
...
// Prepare a path to a source HTML file
string documentPath = Path.Combine(DataDir, "tables.html");
// Create an instance of an HTML document
using (var document = new HTMLDocument(documentPath))
{
var tables = document.GetElementsByTagName("table");
var result = new List<Dictionary<string, string>>();
var i = 0;
foreach (var table in tables)
{
// Save table to new html document
var newFileName = "table" + i + ".htm";
var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
newDoc.Save(Path.Combine(OutputDir, newFileName));
i++;
}
}
Langkah-langkah Mengekstrak Tabel dari HTML
- Gunakan konstruktor HTMLDocument() untuk menginisialisasi dokumen HTML. Lewati jalur file HTML sumber sebagai parameter ke konstruktor.
- Gunakan metode
GetElementsByTagName(
"table"
) untuk mengumpulkan semua elemen<table>
. Metode ini mengembalikan daftar elemen<table>
dokumen HTML. - Mulai perulangan untuk mengulangi setiap elemen tabel:
- Buat nama file baru untuk file tabel HTML.
- Gunakan konstruktor
HTMLDocument(
content, baseUri
) untuk membuat instance baru dokumen HTML menggunakan propertiOuterHTML
dari elemen tabel dan nama file baru. - Simpan dokumen HTML yang baru dibuat ke direktori keluaran menggunakan metode Save() .
Untuk mempelajari lebih lanjut tentang Aspose.HTML API, silakan kunjungi panduan dokumentasi kami. Aspose.HTML for .NET adalah pustaka penguraian HTML tingkat lanjut yang memungkinkan Anda membuat, mengedit, dan mengonversi file HTML, XHTML, MD, EPUB, dan MHTML. Bagian dokumentasi Data Extraction menjelaskan cara memeriksa, mengumpulkan, dan mengekstrak data dari halaman web secara otomatis menggunakan Aspose.HTML for .NET. Dalam artikel di bagian ini, Anda akan mempelajari cara menavigasi dokumen HTML dan melakukan pemeriksaan mendetail terhadap elemen-elemennya, menyimpan situs web atau file dari URL, mengekstrak berbagai jenis gambar dari situs web, dan banyak lagi.
Pembuat Tabel HTML – Aplikasi Online
Aspose.HTML menawarkan Pembuat Tabel HTML adalah aplikasi online untuk membuat tabel dengan opsi yang dapat disesuaikan. Gratis dan jelas untuk digunakan. Cukup isi semua opsi yang diperlukan dan dapatkan hasilnya! HTML Table Generator secara otomatis membuat kode tabel HTML. Alat ini dirancang untuk memungkinkan Anda mendapatkan tabel HTML yang diperlukan dan menampilkannya online secepat mungkin.
Fitur perpustakaan C# yang didukung lainnya
Gunakan pustaka Aspose.HTML for .NET untuk mengurai dan memanipulasi dokumen berbasis HTML. Jelas, aman dan sederhana!