Які типи даних я можу витягувати за допомогою Aspose.HTML for Python via .NET?

Бібліотека дозволяє працювати з різними типами веб-ресурсів: вбудованими елементами HTML-сторінок, файлами, доступними безпосередньо через URL-адреси, та динамічно згенерованим контентом. Незалежно від того, чи походять дані з веб-сторінки чи з окремого посилання, до них можна отримати доступ та обробити їх програмно.

Чи потрібно завантажувати всю веб-сторінку, щоб отримати table?

Не завжди. Якщо table доступний через пряму URL-адресу, ви можете негайно завантажити та зберегти його. Завантаження HTML-документа потрібне лише в тому випадку, якщо дані є частиною структури сторінки.

Чи потрібні мені зовнішні бібліотеки чи інші інструменти для вилучення даних?

Ні. Aspose.HTML for Python via .NET є повністю автономним. Весь розбір, рендеринг та вилучення даних відбуваються в бібліотеці, без потреби в сторонніх інструментах.

HTML JPG PDF XML MHTML

Завантажити таблицю з веб-сайту на Python

Швидке, потужне рішення для програмного пошуку та вилучення таблиць з веб-сайтів.

Download

Як витягти таблиці з веб-сторінки

Вилучення HTML-таблиць з веб-сторінок є поширеним завданням у веб-скрепінгу, аналізі даних та обробці контенту. Використовуючи Aspose.HTML for Python via .NET , розробники можуть легко автоматизувати процес пошуку, завантаження та збереження елементів <table> з будь-якого HTML документа. Це потужне рішення для програмного вилучення таблиць ідеально підходить для всіх, кому потрібно працювати зі структурованими даними зі статей, звітів або будь-яких інших веб-сторінок.

Вилучення таблиць за допомогою Python

Наступний код Python демонструє, як завантажити HTML-документ з веб-сайту, визначити всі елементи таблиць у ньому та експортувати кожну таблицю в окремі автономні HTML-файли для подальшого використання:

Код Python для завантаження таблиць з веб-сторінки

import os
import aspose.html as ah

# Define output directory
output_dir = "output/"
os.makedirs(output_dir, exist_ok=True)

# Open an HTML document from which you want to extract tables
with ah.HTMLDocument("https://docs.aspose.com/html/net/edit-html-document/") as doc:
    # Get all <table> elements
    tables = doc.get_elements_by_tag_name("table")

    if tables.length > 0:
        for i, table in enumerate(tables):
            # Construct output file path
            file_name = f"table{i}.htm"
            file_path = os.path.join(output_dir, file_name)

            # Create a new HTML document from the table's outer HTML
            new_doc = ah.HTMLDocument(table.outer_html, file_path)

            # Save the new document
            new_doc.save(file_path)
    else:
        # Handle case where no tables are found
        print("No tables found in the document.")

Кроки для вилучення таблиць з веб-сторінки

Використовуйте конструктор HTMLDocument(url) , щоб відкрити HTML-документ за вказаною URL-адресою. Цей документ є джерелом, з якого будуть витягнуті елементи <table>.
Викличте метод get_elements_by_tag_name(“table”) , щоб зібрати всі елементи <table> з HTML-документа.
Перевірте, чи знайдено таблиці. Якщо таблиці є, запустіть цикл для перебору кожного елемента таблиці.
- Створіть унікальні імена файлів для кожної таблиці.
- Створіть новий HTMLDocument, використовуючи властивість outer_html елемента table та вихідний шлях для збереження.
- Збережіть новий HTML-документ, що містить єдину таблицю, за допомогою методу save() .
Якщо не знайдено жодного елемента <table>, виведыть повідомлення про те, що в документі не знайдено жодної таблиці.

Щоб дізнатися більше про те, як програмно витягувати різні типи даних з Інтернету або будь-яких HTML-документів за допомогою Python, зверніться до розділу Data Extraction in Python документації. Цей розділ містить практичні вказівки про те, як автоматично перевіряти, фіксувати і витягувати цінні дані з HTML за допомогою Aspose.HTML for Python via .NET API. Розділ охоплює такі важливі теми, як навігація по HTML-документах за допомогою селекторів CSS і XPath, а також завантаження і збереження віддалених ресурсів, таких як зображення, SVG-графіки та інші файли.

Початок роботи з Python API

Якщо ви хочете аналізувати, маніпулювати та керувати документами HTML, установіть наш гнучкий, високошвидкісний Aspose.HTML for Python via .NET API. pip – це найпростіший спосіб завантажити та встановити Aspose.HTML for Python via .NET. Для цього виконайте таку команду:

pip install aspose-html-net

Додаткову інформацію про встановлення бібліотеки Python і вимоги до системи ви знайдете у документації Apose.HTML.

Інші підтримувані функції

Використовуйте бібліотеку Aspose.HTML for Python via .NET для аналізу та маніпулювання HTML-документами. Зрозуміло, безпечно і просто!

Extract images from web page

Extract SVG from website

Extract tables from website