Як витягти таблиці з веб-сторінки

Вилучення HTML-таблиць з веб-сторінок є поширеним завданням у веб-скрепінгу, аналізі даних та обробці контенту. Використовуючи Aspose.HTML for Python via .NET , розробники можуть легко автоматизувати процес пошуку, завантаження та збереження елементів <table> з будь-якого HTML документа. Це потужне рішення для програмного вилучення таблиць ідеально підходить для всіх, кому потрібно працювати зі структурованими даними зі статей, звітів або будь-яких інших веб-сторінок.


Вилучення таблиць за допомогою Python

Наступний код Python демонструє, як завантажити HTML-документ з веб-сайту, визначити всі елементи таблиць у ньому та експортувати кожну таблицю в окремі автономні HTML-файли для подальшого використання:


Код Python для завантаження таблиць з веб-сторінки

import os
import aspose.html as ah

# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
    # Get all <table> elements
    tables = doc.get_elements_by_tag_name("table")

    if tables.length > 0:
        for i, table in enumerate(tables):
            # Construct output file path
            file_name = f"table{i}.htm"
            file_path = os.path.join(output_dir, file_name)

            # Create a new HTML document from the table's outer HTML
            new_doc = ah.HTMLDocument(table.outer_html, file_path)

            # Save the new document
            new_doc.save(file_path)
    else:
        # Handle case where no tables are found
        print("No tables found in the document.")


Кроки для вилучення таблиць з веб-сторінки

  1. Використовуйте конструктор HTMLDocument(url) , щоб відкрити HTML-документ за вказаною URL-адресою. Цей документ є джерелом, з якого будуть витягнуті елементи <table>.
  2. Викличте метод get_elements_by_tag_name(“table”) , щоб зібрати всі елементи <table> з HTML-документа.
  3. Перевірте, чи знайдено таблиці. Якщо таблиці є, запустіть цикл для перебору кожного елемента таблиці.
    • Створіть унікальні імена файлів для кожної таблиці.
    • Створіть новий HTMLDocument, використовуючи властивість outer_html елемента table та вихідний шлях для збереження.
    • Збережіть новий HTML-документ, що містить єдину таблицю, за допомогою методу save() .
  4. Якщо не знайдено жодного елемента <table>, виведыть повідомлення про те, що в документі не знайдено жодної таблиці.

Щоб дізнатися більше про те, як програмно витягувати різні типи даних з Інтернету або будь-яких HTML-документів за допомогою Python, зверніться до розділу Data Extraction in Python документації. Цей розділ містить практичні вказівки про те, як автоматично перевіряти, фіксувати і витягувати цінні дані з HTML за допомогою Aspose.HTML for Python via .NET API. Розділ охоплює такі важливі теми, як навігація по HTML-документах за допомогою селекторів CSS і XPath, а також завантаження і збереження віддалених ресурсів, таких як зображення, SVG-графіки та інші файли.



Початок роботи з Python API

Якщо ви хочете аналізувати, маніпулювати та керувати документами HTML, установіть наш гнучкий, високошвидкісний Aspose.HTML for Python via .NET API. pip – це найпростіший спосіб завантажити та встановити Aspose.HTML for Python via .NET. Для цього виконайте таку команду:

pip install aspose-html-net

Додаткову інформацію про встановлення бібліотеки Python і вимоги до системи ви знайдете у документації Apose.HTML.

Інші підтримувані функції

Використовуйте бібліотеку Aspose.HTML for Python via .NET для аналізу та маніпулювання HTML-документами. Зрозуміло, безпечно і просто!