Cara Mengekstrak Tabel dari Website

Kemampuan mengekstrak tabel dari HTML penting untuk berbagai aplikasi seperti web scraping dan analisis konten. Aspose.HTML untuk .NET adalah pustaka tangguh yang menyederhanakan proses ini dengan menawarkan seperangkat alat kepada pengembang untuk menavigasi dan mengumpulkan informasi dari dokumen HTML dengan lancar. Mari jelajahi cara mengekstrak tabel dari situs web.

Pertama, pastikan Anda telah Aspose.HTML untuk .NET terinstal di proyek Anda. Proses instalasi perpustakaan ini cukup sederhana. Buka manajer paket NuGet, cari Aspose.HTML, dan instal. Anda juga dapat menggunakan perintah berikut dari Package Manager Console:


Instal Aspose.HTML untuk .NET

Install-Package Aspose.HTML



Ekstrak Tabel dari Situs Web menggunakan C#

Anda dapat mengekstrak tabel dari situs web dengan beberapa baris kode C#. Contoh berikut menunjukkan cara menemukan semua elemen <table> dalam dokumen HTML, membuat file HTML terpisah untuk setiap tabel, dan menyimpannya di direktori output.


Kode C# untuk mengekstrak tabel dari situs web

using Aspose.Html;
using System.IO;
using System.Linq;
using System.Collections.Generic;
...

    // Open a document you want to download tables from
    using var document = new HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/");
    { 
        // Check if there are any table elements in the document
        var tables = document.GetElementsByTagName("table");

        if (tables.Any())
        {
            var result = new List<Dictionary<string, string>>();
            var i = 0;
            foreach (var table in tables)
            {
                // Save table to new html document
                var newFileName = "table" + i + ".htm";
                var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
                newDoc.Save(Path.Combine(OutputDir, newFileName));
                i++;
            }
        }
        else
        {
            // Handle the case where no tables are found
            Console.WriteLine("No tables found in the document.");
        }
    }



Langkah-langkah Mengekstrak Tabel dari Website

Contoh C# ini menunjukkan cara mengekstrak tabel dari situs web dan menyimpan setiap tabel sebagai file HTML terpisah. Ini mencakup langkah-langkah untuk menangani skenario ketika tabel ada dan tidak ada dalam dokumen.

  1. Gunakan konstruktor HTMLDocument() untuk menginisialisasi dokumen HTML. Konstruktor mengambil parameter URL situs web tempat Anda ingin mengunduh tabel.
  2. Gunakan metode GetElementsByTagName("table") untuk mengambil semua elemen <table> dari dokumen HTML. Simpan kumpulan elemen tabel dalam variabel tables.
  3. Periksa apakah dokumen berisi elemen tabel. Gunakan metode Any() untuk menentukan apakah koleksi tables berisi elemen apa pun. Jika tabel ditemukan:
    • Buat nama file baru untuk file tabel HTML.
    • Gunakan konstruktor HTMLDocument(content, baseUri) untuk membuat instance baru dokumen HTML menggunakan properti OuterHTML dari elemen tabel dan nama file baru.
    • Simpan dokumen HTML yang baru dibuat ke direktori keluaran menggunakan metode Save() .
  4. Jika dokumen tidak berisi tabel, cetak pesan ke konsol yang menunjukkan bahwa tidak ada tabel yang ditemukan.

Untuk mempelajari lebih lanjut tentang Aspose.HTML API, silakan kunjungi panduan dokumentasi kami. Aspose.HTML untuk .NET adalah pustaka penguraian HTML tingkat lanjut yang memungkinkan Anda membuat, mengedit, dan mengonversi file HTML, XHTML, MD, EPUB, dan MHTML. Bagian dokumentasi Data Extraction menjelaskan cara memeriksa, mengumpulkan, dan mengekstrak data dari halaman web secara otomatis menggunakan Aspose.HTML untuk .NET. Dalam artikel di bagian ini, Anda akan mempelajari cara menavigasi dokumen HTML dan melakukan pemeriksaan mendetail terhadap elemen-elemennya, menyimpan situs web atau file dari URL, mengekstrak berbagai jenis gambar dari situs web, dan banyak lagi.



Pembuat Tabel HTML – Aplikasi Online

Aspose.HTML menawarkan Pembuat Tabel HTML adalah aplikasi online untuk membuat tabel dengan opsi yang dapat disesuaikan. Gratis dan jelas untuk digunakan. Cukup isi semua opsi yang diperlukan dan dapatkan hasilnya! HTML Table Generator secara otomatis membuat kode tabel HTML. Alat ini dirancang untuk memungkinkan Anda mendapatkan tabel HTML yang diperlukan dan menampilkannya online secepat mungkin.

Fitur perpustakaan C# yang didukung lainnya

Gunakan pustaka Aspose.HTML untuk .NET untuk mengurai dan memanipulasi dokumen berbasis HTML. Jelas, aman dan sederhana!