วิธีแยก table ออกจาก HTML

ความสามารถในการแยกตารางจาก HTML เป็นสิ่งสำคัญสำหรับแอปพลิเคชันต่างๆ เช่น การคัดลอกเว็บและการวิเคราะห์เนื้อหา Aspose.HTML สำหรับ .NET เป็นไลบรารีที่มีประสิทธิภาพซึ่งช่วยให้กระบวนการนี้ง่ายขึ้นโดยเสนอชุดเครื่องมือให้นักพัฒนานำทางและรวบรวมข้อมูลจากเอกสาร HTML ได้อย่างราบรื่น เรามาสำรวจวิธีการแยกตารางออกจากเอกสาร HTML กันดีกว่า

ขั้นแรก ตรวจสอบให้แน่ใจว่าคุณได้ Aspose.HTML สำหรับ .NET ติดตั้ง ในโปรเจ็กต์ของคุณ กระบวนการติดตั้งไลบรารีนี้ค่อนข้างง่าย เปิดตัวจัดการแพ็คเกจ NuGet ค้นหา Aspose.HTML และติดตั้ง คุณยังอาจใช้คำสั่งต่อไปนี้จาก Package Manager Console:


ติดตั้ง Aspose.HTML สำหรับ .NET

Install-Package Aspose.HTML



แยกตาราง HTML โดยใช้ C#

Aspose.HTML สำหรับ .NET API มีชุดเครื่องมือที่มีประสิทธิภาพในการวิเคราะห์และรวบรวมข้อมูลจากเอกสาร HTML คุณสามารถแยกตาราง HTML ด้วยโค้ด C# สองสามบรรทัดได้ ตัวอย่างต่อไปนี้แสดงวิธีค้นหาองค์ประกอบ <table> ทั้งหมดในเอกสาร HTML สร้างไฟล์ HTML แยกกันสำหรับแต่ละตาราง และบันทึกไว้ในไดเร็กทอรีเอาต์พุต ไฟล์ HTML เอาต์พุตแต่ละไฟล์มีเพียงตารางเดียวจากเอกสาร HTML ต้นฉบับ


รหัส C# เพื่อแยก table จาก HTML

using Aspose.Html;
using System.IO;
using System.Collections.Generic;
...

    // Prepare a path to a source HTML file
    string documentPath = Path.Combine(DataDir, "tables.html");

    // Create an instance of an HTML document
    using (var document = new HTMLDocument(documentPath))
    {
        var tables = document.GetElementsByTagName("table");
        var result = new List<Dictionary<string, string>>();
        var i = 0;
        foreach (var table in tables)
        {
            // Save table to new html document
            var newFileName = "table" + i + ".htm";
            var newDoc = new HTMLDocument(table.OuterHTML, Path.Combine(OutputDir, newFileName));
            newDoc.Save(Path.Combine(OutputDir, newFileName));
            i++;
        }
    }



ขั้นตอนในการแยกตารางออกจาก HTML

  1. ใช้ตัวสร้าง HTMLDocument() เพื่อเริ่มต้นเอกสาร HTML ส่งผ่านเส้นทางของไฟล์ HTML ต้นฉบับเป็นพารามิเตอร์ไปยังตัวสร้าง
  2. ใช้เมธอด GetElementsByTagName("table") เพื่อรวบรวมองค์ประกอบ <table> ทั้งหมด วิธีการส่งคืนรายการองค์ประกอบ <table> ของเอกสาร HTML
  3. เริ่มการวนซ้ำเพื่อวนซ้ำแต่ละองค์ประกอบตาราง:
    • สร้างชื่อไฟล์ใหม่สำหรับไฟล์ตาราง HTML
    • ใช้ตัวสร้าง HTMLDocument(content, baseUri) เพื่อสร้างอินสแตนซ์ใหม่ของเอกสาร HTML โดยใช้คุณสมบัติ OuterHTML ขององค์ประกอบตารางและชื่อไฟล์ใหม่
    • บันทึกเอกสาร HTML ที่สร้างขึ้นใหม่ไปยังไดเร็กทอรีเอาต์พุตโดยใช้เมธอด Save()

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ Aspose.HTML API โปรดไปที่คำแนะนำ เอกสารประกอบ ของเรา Aspose.HTML สำหรับ .NET เป็นไลบรารีการแยกวิเคราะห์ HTML ขั้นสูงที่ช่วยให้คุณสามารถสร้าง แก้ไข และแปลงไฟล์ HTML, XHTML, MD, EPUB และ MHTML ส่วนเอกสารประกอบ Data Extraction อธิบายวิธีการตรวจสอบ รวบรวม และแยกข้อมูลจากหน้าเว็บโดยอัตโนมัติโดยใช้ Aspose.HTML สำหรับ .NET ในบทความในส่วนนี้ คุณจะได้เรียนรู้วิธีไปยังส่วนต่างๆ ของเอกสาร HTML และดำเนินการตรวจสอบองค์ประกอบโดยละเอียด บันทึกเว็บไซต์หรือไฟล์จาก URL แยกรูปภาพประเภทต่างๆ จากเว็บไซต์ และอื่นๆ



เครื่องมือสร้างตาราง HTML – แอปออนไลน์

Aspose.HTML เสนอ เครื่องมือสร้างตาราง HTML เป็นแอปพลิเคชันออนไลน์สำหรับการสร้างตารางที่มีตัวเลือกที่ปรับแต่งได้ ใช้งานได้ฟรีและชัดเจน เพียงกรอกตัวเลือกที่จำเป็นทั้งหมดแล้วรับผลลัพธ์! ตัวสร้างตาราง HTML จะสร้างโค้ดตาราง HTML โดยอัตโนมัติ เครื่องมือนี้ได้รับการออกแบบมาเพื่อให้คุณได้รับตาราง HTML ที่จำเป็นและนำไปออนไลน์ได้โดยเร็วที่สุด

คุณสมบัติไลบรารี C# อื่น ๆ ที่รองรับ

ใช้ไลบรารี Aspose.HTML สำหรับ .NET เพื่อแยกวิเคราะห์และจัดการเอกสารที่ใช้ HTML ชัดเจน ปลอดภัย และเรียบง่าย!