Як витягти таблиці з веб-сторінки
Вилучення HTML-таблиць з веб-сторінок є поширеним завданням у веб-скрепінгу, аналізі даних та обробці контенту. Використовуючи
Aspose.HTML for Python via .NET
, розробники можуть легко автоматизувати процес пошуку, завантаження та збереження елементів <table>
з будь-якого HTML документа. Це потужне рішення для програмного вилучення таблиць ідеально підходить для всіх, кому потрібно працювати зі структурованими даними зі статей, звітів або будь-яких інших веб-сторінок.
Вилучення таблиць за допомогою Python
Наступний код Python демонструє, як завантажити HTML-документ з веб-сайту, визначити всі елементи таблиць у ньому та експортувати кожну таблицю в окремі автономні HTML-файли для подальшого використання:
Код Python для завантаження таблиць з веб-сторінки
import os
import aspose.html as ah
# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)
# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
# Get all <table> elements
tables = doc.get_elements_by_tag_name("table")
if tables.length > 0:
for i, table in enumerate(tables):
# Construct output file path
file_name = f"table{i}.htm"
file_path = os.path.join(output_dir, file_name)
# Create a new HTML document from the table's outer HTML
new_doc = ah.HTMLDocument(table.outer_html, file_path)
# Save the new document
new_doc.save(file_path)
else:
# Handle case where no tables are found
print("No tables found in the document.")
Кроки для вилучення таблиць з веб-сторінки
- Використовуйте конструктор
HTMLDocument(url)
, щоб відкрити HTML-документ за вказаною URL-адресою. Цей документ є джерелом, з якого будуть витягнуті елементи
<table>
. - Викличте метод
get_elements_by_tag_name(“table”)
, щоб зібрати всі елементи
<table>
з HTML-документа. - Перевірте, чи знайдено таблиці. Якщо таблиці є, запустіть цикл для перебору кожного елемента таблиці.
- Створіть унікальні імена файлів для кожної таблиці.
- Створіть новий HTMLDocument, використовуючи властивість
outer_html
елемента table та вихідний шлях для збереження. - Збережіть новий HTML-документ, що містить єдину таблицю, за допомогою методу save() .
- Якщо не знайдено жодного елемента
<table>
, виведыть повідомлення про те, що в документі не знайдено жодної таблиці.
Щоб дізнатися більше про те, як програмно витягувати різні типи даних з Інтернету або будь-яких HTML-документів за допомогою Python, зверніться до розділу Data Extraction in Python документації. Цей розділ містить практичні вказівки про те, як автоматично перевіряти, фіксувати і витягувати цінні дані з HTML за допомогою Aspose.HTML for Python via .NET API. Розділ охоплює такі важливі теми, як навігація по HTML-документах за допомогою селекторів CSS і XPath, а також завантаження і збереження віддалених ресурсів, таких як зображення, SVG-графіки та інші файли.
Початок роботи з Python API
Якщо ви хочете аналізувати, маніпулювати та керувати документами HTML, установіть наш гнучкий, високошвидкісний Aspose.HTML for Python via .NET API. pip
– це найпростіший спосіб завантажити та встановити Aspose.HTML for Python via .NET. Для цього виконайте таку команду:
pip install aspose-html-net
Додаткову інформацію про встановлення бібліотеки Python і вимоги до системи ви знайдете у документації Apose.HTML.
Інші підтримувані функції
Використовуйте бібліотеку Aspose.HTML for Python via .NET для аналізу та маніпулювання HTML-документами. Зрозуміло, безпечно і просто!