วิธีการดึงตารางจากหน้าเว็บ
การดึงตาราง HTML จากหน้าเว็บเป็นงานทั่วไปในการทำ web scraping การวิเคราะห์ข้อมูล และการประมวลผลเนื้อหา โดยใช้
Aspose.HTML for Python via .NET
นักพัฒนาสามารถทำให้กระบวนการค้นหา ดาวน์โหลด และบันทึกองค์ประกอบ <table>
จากหน้าเว็บใดก็ได้เป็นไปโดยอัตโนมัติได้อย่างง่ายดาย โซลูชันนี้เหมาะสำหรับผู้ที่ต้องทำงานกับข้อมูลเชิงโครงสร้างจากบทความ รายงาน หรือหน้าเว็บต่าง ๆ
ดึงตารางด้วย Python
โค้ด Python ต่อไปนี้แสดงวิธีการดาวน์โหลดเอกสาร HTML จากเว็บไซต์ ค้นหาองค์ประกอบ <table>
ทั้งหมด และส่งออกแต่ละตารางเป็นไฟล์ HTML แยกต่างหากเพื่อใช้งานภายหลัง:
โค้ด Python สำหรับดาวน์โหลดตารางจากหน้าเว็บ
import os
import aspose.html as ah
# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)
# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
# Get all <table> elements
tables = doc.get_elements_by_tag_name("table")
if tables.length > 0:
for i, table in enumerate(tables):
# Construct output file path
file_name = f"table{i}.htm"
file_path = os.path.join(output_dir, file_name)
# Create a new HTML document from the table's outer HTML
new_doc = ah.HTMLDocument(table.outer_html, file_path)
# Save the new document
new_doc.save(file_path)
else:
# Handle case where no tables are found
print("No tables found in the document.")
ขั้นตอนการดึงตารางจากหน้าเว็บ
- ใช้คอนสตรัคเตอร์
HTMLDocument(url)
เพื่อเปิดเอกสาร HTML จาก URL ที่ระบุ เอกสารนี้คือแหล่งที่มาขององค์ประกอบ
<table>
ที่จะถูกดึง - เรียกใช้เมธอด
get_elements_by_tag_name(“table”)
เพื่อรวบรวมองค์ประกอบ
<table>
ทั้งหมดจากเอกสาร HTML - ตรวจสอบว่าพบตารางหรือไม่ หากพบ ให้เริ่มลูปเพื่อวนซ้ำผ่านแต่ละตาราง
- สร้างชื่อไฟล์ที่ไม่ซ้ำกันสำหรับแต่ละตาราง
- สร้าง
HTMLDocument
ใหม่โดยใช้ propertyouter_html
ขององค์ประกอบตารางและเส้นทางที่ใช้บันทึก - บันทึกเอกสาร HTML ใหม่ที่มีเพียงตารางเดียวโดยใช้เมธอด save()
- หากไม่พบองค์ประกอบ
<table>
ให้แสดงข้อความแจ้งว่าไม่พบตารางในเอกสาร
หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการดึงข้อมูลประเภทต่าง ๆ จากเว็บหรือจากเอกสาร HTML ด้วย Python โปรดดูบทในเอกสาร Data Extraction in Python ซึ่งให้คำแนะนำเชิงปฏิบัติเกี่ยวกับการตรวจสอบ จับ และดึงข้อมูลที่มีคุณค่าจาก HTML โดยใช้ Aspose.HTML for Python via .NET ครอบคลุมหัวข้อสำคัญ เช่น การนำทางเอกสาร HTML ด้วย CSS Selector และ XPath รวมถึงการดาวน์โหลดและบันทึกไฟล์ เช่น รูปภาพ กราฟิก SVG และไฟล์อื่น ๆ
เริ่มต้นใช้งาน Python API
หากคุณต้องการวิเคราะห์ จัดการ และจัดการเอกสาร HTML ให้ติดตั้ง Aspose.HTML for Python via .NET API ที่มีความยืดหยุ่นและความเร็วสูงของเรา pip
คือวิธีที่ง่ายที่สุดในการดาวน์โหลดและติดตั้งไลบรารี Python หากต้องการทำเช่นนี้ ให้เรียกใช้คำสั่งต่อไปนี้:
pip install aspose-html-net
สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการติดตั้งไลบรารี Python และข้อกำหนดของระบบ โปรดดูที่ เอกสาร Aspose.HTML
ฟีเจอร์อื่นที่รองรับ
ใช้ไลบรารี Aspose.HTML for Python via .NET เพื่อแยกวิเคราะห์และจัดการเอกสาร HTML ได้อย่างชัดเจน ปลอดภัย และง่ายดาย!