Cara Mengekstrak Tabel dari HTML

Kemampuan mengekstrak tabel dari HTML penting untuk berbagai aplikasi seperti web scraping dan analisis konten. Aspose.HTML untuk .NET adalah pustaka tangguh yang menyederhanakan proses ini dengan menawarkan seperangkat alat kepada pengembang untuk menavigasi dan mengumpulkan informasi dari dokumen HTML dengan lancar. Mari jelajahi cara mengekstrak tabel dari dokumen HTML.

Pertama, pastikan Anda telah Aspose.HTML untuk .NET terinstal di proyek Anda. Proses instalasi perpustakaan ini cukup sederhana. Buka manajer paket NuGet, cari Aspose.HTML, dan instal. Anda juga dapat menggunakan perintah berikut dari Package Manager Console:


Instal Aspose.HTML untuk .NET

Install-Package Aspose.HTML



Ekstrak Tabel HTML menggunakan C#

Aspose.HTML untuk .NET API menyediakan perangkat canggih untuk menganalisis dan mengumpulkan informasi dari dokumen HTML. Anda dapat mengekstrak tabel HTML dengan beberapa baris kode C#. Contoh berikut menunjukkan cara menemukan semua elemen <table> dalam dokumen HTML, membuat file HTML terpisah untuk setiap tabel, dan menyimpannya di direktori output. Setiap file HTML keluaran hanya berisi satu tabel dari dokumen HTML sumber.


Kode C# untuk mengekstrak tabel dari HTML

using Aspose.Html;
using System.IO;
using System.Collections.Generic;
...

    // Prepare a path to a source HTML file
    string documentPath = Path.Combine(DataDir, "tables.html");

    // Create an instance of an HTML document
    using (var document = new HTMLDocument(documentPath))
    {
        var tables = document.GetElementsByTagName("table");
        var result = new List<Dictionary<string, string>>();
        var i = 0;
        foreach (var table in tables)
        {
            // Save table to new html document
            var newFileName = "table" + i + ".htm";
            var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
            newDoc.Save(Path.Combine(OutputDir, newFileName));
            i++;
        }
    }



Langkah-langkah Mengekstrak Tabel dari HTML

  1. Gunakan konstruktor HTMLDocument() untuk menginisialisasi dokumen HTML. Lewati jalur file HTML sumber sebagai parameter ke konstruktor.
  2. Gunakan metode GetElementsByTagName("table") untuk mengumpulkan semua elemen <table>. Metode ini mengembalikan daftar elemen <table> dokumen HTML.
  3. Mulai perulangan untuk mengulangi setiap elemen tabel:
    • Buat nama file baru untuk file tabel HTML.
    • Gunakan konstruktor HTMLDocument(content, baseUri) untuk membuat instance baru dokumen HTML menggunakan properti OuterHTML dari elemen tabel dan nama file baru.
    • Simpan dokumen HTML yang baru dibuat ke direktori keluaran menggunakan metode Save() .

Untuk mempelajari lebih lanjut tentang Aspose.HTML API, silakan kunjungi panduan dokumentasi kami. Aspose.HTML untuk .NET adalah pustaka penguraian HTML tingkat lanjut yang memungkinkan Anda membuat, mengedit, dan mengonversi file HTML, XHTML, MD, EPUB, dan MHTML. Bagian dokumentasi Data Extraction menjelaskan cara memeriksa, mengumpulkan, dan mengekstrak data dari halaman web secara otomatis menggunakan Aspose.HTML untuk .NET. Dalam artikel di bagian ini, Anda akan mempelajari cara menavigasi dokumen HTML dan melakukan pemeriksaan mendetail terhadap elemen-elemennya, menyimpan situs web atau file dari URL, mengekstrak berbagai jenis gambar dari situs web, dan banyak lagi.



Pembuat Tabel HTML – Aplikasi Online

Aspose.HTML menawarkan Pembuat Tabel HTML adalah aplikasi online untuk membuat tabel dengan opsi yang dapat disesuaikan. Gratis dan jelas untuk digunakan. Cukup isi semua opsi yang diperlukan dan dapatkan hasilnya! HTML Table Generator secara otomatis membuat kode tabel HTML. Alat ini dirancang untuk memungkinkan Anda mendapatkan tabel HTML yang diperlukan dan menampilkannya online secepat mungkin.

Fitur perpustakaan C# yang didukung lainnya

Gunakan pustaka Aspose.HTML untuk .NET untuk mengurai dan memanipulasi dokumen berbasis HTML. Jelas, aman dan sederhana!