ฉันสามารถดึงข้อมูลประเภทใดได้บ้างด้วย Aspose.HTML for Python via .NET

ไลบรารีนี้ช่วยให้คุณทำงานกับแหล่งข้อมูลบนเว็บได้หลากหลายประเภท เช่น องค์ประกอบหน้า HTML แบบฝัง ไฟล์ที่เข้าถึงได้โดยตรงผ่าน URL และเนื้อหาที่สร้างแบบไดนามิก ไม่ว่าข้อมูลจะมาจากหน้าเว็บหรือลิงก์แยกต่างหาก ก็สามารถเข้าถึงและประมวลผลผ่านโปรแกรมได้

ฉันจำเป็นต้องโหลดหน้าเว็บทั้งหมดเพื่อรับ table หรือไม่

ไม่เสมอไป หาก table สามารถเข้าถึงได้ผ่าน URL โดยตรง คุณสามารถดาวน์โหลดและบันทึกได้ทันที การโหลดเอกสาร HTML จำเป็นเฉพาะเมื่อข้อมูลเป็นส่วนหนึ่งของโครงสร้างหน้าเท่านั้น

ฉันจำเป็นต้องใช้ไลบรารีภายนอกหรือเอ็นจินเบราว์เซอร์เพื่อดึงข้อมูลหรือไม่

ไม่ Aspose.HTML for Python via .NET เป็นซอฟต์แวร์แบบสแตนด์อโลน การแยกวิเคราะห์ การเรนเดอร์ และการดึงข้อมูลทั้งหมดเกิดขึ้นภายในไลบรารี โดยไม่จำเป็นต้องใช้เครื่องมือจากภายนอก

HTML JPG PDF XML MHTML

ดึงตารางจากเว็บไซต์ด้วย Python

โซลูชันที่รวดเร็วและทรงพลังสำหรับการค้นหาและดึงตารางจากเว็บไซต์แบบอัตโนมัติ

Download

วิธีการดึงตารางจากหน้าเว็บ

การดึงตาราง HTML จากหน้าเว็บเป็นงานทั่วไปในการทำ web scraping การวิเคราะห์ข้อมูล และการประมวลผลเนื้อหา โดยใช้ Aspose.HTML for Python via .NET นักพัฒนาสามารถทำให้กระบวนการค้นหา ดาวน์โหลด และบันทึกองค์ประกอบ <table> จากหน้าเว็บใดก็ได้เป็นไปโดยอัตโนมัติได้อย่างง่ายดาย โซลูชันนี้เหมาะสำหรับผู้ที่ต้องทำงานกับข้อมูลเชิงโครงสร้างจากบทความ รายงาน หรือหน้าเว็บต่าง ๆ

ดึงตารางด้วย Python

โค้ด Python ต่อไปนี้แสดงวิธีการดาวน์โหลดเอกสาร HTML จากเว็บไซต์ ค้นหาองค์ประกอบ <table> ทั้งหมด และส่งออกแต่ละตารางเป็นไฟล์ HTML แยกต่างหากเพื่อใช้งานภายหลัง:

โค้ด Python สำหรับดาวน์โหลดตารางจากหน้าเว็บ

import os
import aspose.html as ah

# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
    # Get all <table> elements
    tables = doc.get_elements_by_tag_name("table")

    if tables.length > 0:
        for i, table in enumerate(tables):
            # Construct output file path
            file_name = f"table{i}.htm"
            file_path = os.path.join(output_dir, file_name)

            # Create a new HTML document from the table's outer HTML
            new_doc = ah.HTMLDocument(table.outer_html, file_path)

            # Save the new document
            new_doc.save(file_path)
    else:
        # Handle case where no tables are found
        print("No tables found in the document.")

ขั้นตอนการดึงตารางจากหน้าเว็บ

ใช้คอนสตรัคเตอร์ HTMLDocument(url) เพื่อเปิดเอกสาร HTML จาก URL ที่ระบุ เอกสารนี้คือแหล่งที่มาขององค์ประกอบ <table> ที่จะถูกดึง
เรียกใช้เมธอด get_elements_by_tag_name(“table”) เพื่อรวบรวมองค์ประกอบ <table> ทั้งหมดจากเอกสาร HTML
ตรวจสอบว่าพบตารางหรือไม่ หากพบ ให้เริ่มลูปเพื่อวนซ้ำผ่านแต่ละตาราง
- สร้างชื่อไฟล์ที่ไม่ซ้ำกันสำหรับแต่ละตาราง
- สร้าง HTMLDocument ใหม่โดยใช้ property outer_html ขององค์ประกอบตารางและเส้นทางที่ใช้บันทึก
- บันทึกเอกสาร HTML ใหม่ที่มีเพียงตารางเดียวโดยใช้เมธอด save()
หากไม่พบองค์ประกอบ <table> ให้แสดงข้อความแจ้งว่าไม่พบตารางในเอกสาร

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการดึงข้อมูลประเภทต่าง ๆ จากเว็บหรือจากเอกสาร HTML ด้วย Python โปรดดูบทในเอกสาร Data Extraction in Python ซึ่งให้คำแนะนำเชิงปฏิบัติเกี่ยวกับการตรวจสอบ จับ และดึงข้อมูลที่มีคุณค่าจาก HTML โดยใช้ Aspose.HTML for Python via .NET ครอบคลุมหัวข้อสำคัญ เช่น การนำทางเอกสาร HTML ด้วย CSS Selector และ XPath รวมถึงการดาวน์โหลดและบันทึกไฟล์ เช่น รูปภาพ กราฟิก SVG และไฟล์อื่น ๆ

เริ่มต้นใช้งาน Python API

หากคุณต้องการวิเคราะห์ จัดการ และจัดการเอกสาร HTML ให้ติดตั้ง Aspose.HTML for Python via .NET API ที่มีความยืดหยุ่นและความเร็วสูงของเรา pip คือวิธีที่ง่ายที่สุดในการดาวน์โหลดและติดตั้งไลบรารี Python หากต้องการทำเช่นนี้ ให้เรียกใช้คำสั่งต่อไปนี้:

pip install aspose-html-net

สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการติดตั้งไลบรารี Python และข้อกำหนดของระบบ โปรดดูที่ เอกสาร Aspose.HTML

ฟีเจอร์อื่นที่รองรับ

ใช้ไลบรารี Aspose.HTML for Python via .NET เพื่อแยกวิเคราะห์และจัดการเอกสาร HTML ได้อย่างชัดเจน ปลอดภัย และง่ายดาย!

Extract images from web page

Extract SVG from website

Extract tables from website