Як завантажити HTML на C#
Завантаження HTML є основною операцією для різноманітних веб-завдань, включаючи веб-розробку, вилучення даних, керування вмістом, обробку документів, тестування тощо. Бібліотека Aspose.HTML для .NET надає набір конструкторів HTMLDocument() , які завантажують HTML та ініціалізують об’єкт HTMLDocument для подальших маніпуляцій. Документи HTML можна завантажувати з файлу чи URL-адреси, а також створювати та завантажувати з рядка чи потоку пам’яті. Отже, давайте розглянемо способи завантаження HTML!
По-перше, переконайтеся, що у вашому проекті встановлено Aspose.HTML для .NET . Процес додавання цієї бібліотеки досить простий. Ви можете встановити її через консоль диспетчера пакетів NuGet за допомогою такої команди:
Встановіть Aspose.HTML для .NET
Install-Package Aspose.HTML
Завантажити HTML з файлу
Завантаження HTML із файлу є хорошою відправною точкою для роботи з існуючими файлами HTML, шаблонами або даними, що зберігаються у форматі HTML. Якщо вам потрібно завантажити наявний HTML-файл із файлу, попрацювати над ним і зберегти його, тоді вам допоможе наступний фрагмент коду:
- Завантажте HTML-документ із файлу за допомогою конструктора HTMLDocument(address) , який завантажує HTML-документ з адреси (локальний шлях до документа).
- Збережіть файл HTML за допомогою методу Save() .
Бібліотека Aspose.HTML для .NET пропонує набір конструкторів, які дозволяють завантажувати HTML-документ із файлу. Наприклад, HTMLDocument(address, configuration) завантажує HTML-документ з адреси з указаними параметрами конфігурації середовища. Додаткову інформацію вы знайдете у Довіднику API HTMLDocument .
Код C# для завантаження HTML із файлу
using System.IO;
using Aspose.Html;
...
// Prepare a file path
string documentPath = Path.Combine(DataDir, "sprite.html");
// Initialize an HTML document from the file
using (var document = new HTMLDocument(documentPath))
{
// Work with the document
// Save the document to a disk
document.Save(Path.Combine(OutputDir, "sprite_out.html"));
}
Завантажте HTML з URL-адреси
Завантаження HTML з URL-адреси може бути корисним, коли вам потрібно отримати інформацію з веб-сторінки. Ви можете завантажити HTML безпосередньо з URL-адреси:
- Завантажте HTML-документ із URL за допомогою конструктора HTMLDocument(Url) . Ви можете використовувати HTMLDocument(URL, configuration) , якщо ви хочете завантажити HTML з URL-адреси з указаними параметрами конфігурації середовища.
- Використовуйте властивість OuterHTM , щоб отримати повний вміст HTML документа.
Якщо вам потрібно зберегти документ HTML на локальному диску, скористайтеся методом Save() .
Код C# для завантаження HTML з URL-адреси
using System.IO;
using Aspose.Html;
...
// Load a document from 'https://docs.aspose.com/html/net/creating-a-document/' web page
using (var document = new HTMLDocument("https://docs.aspose.com/html/net/creating-a-document/"))
{
var html = document.DocumentElement.OuterHTML;
// Write the document content to the output stream
Console.WriteLine(html);
}
Завантажити HTML із рядка
Завантаження HTML із рядка є важливою можливістю, яка дозволяє вам керувати вмістом HTML і перетворювати неструктуровані рядки HTML у структурований документ, яким можна керувати, аналізувати або відображати:
- Спочатку підготуйте код для документа HTML.
- Використовуйте конструктор HTMLDocument(content, baseUri) , щоб ініціалізувати HTML-документ із вмісту рядка з указаним baseUri.
- Збережіть файл HTML за допомогою методу Save() .
Код C# для завантаження HTML із рядка
using System.IO;
using Aspose.Html;
...
// Prepare HTML code
var html_code = "<p>Learn how to load HTML</p>";
// Initialize a document from the string variable
using (var document = new HTMLDocument(html_code, "."))
{
// Save the document to a disk
document.Save(Path.Combine(OutputDir, "load-html-from-string.html"));
}
Завантажити HTML із потоку пам’яті
Завантаження HTML із потоку корисно для ефективності пам’яті або роботи з даними в пам’яті. Наступний код C# демонструє, як завантажити HTML із MemoryStream і зберегти його у файл за допомогою Aspose.HTML для .NET:
- Ініціалізуйте об’єкти
MemoryStream
іStreamWriter
. StreamWriter використовується для запису HTML-коду в MemoryStream. - Запишіть HTML-код у MemoryStream за допомогою методу
Write()
. - Викличте
Flush()
, щоб переконатися, що всі буферизовані дані записуються в потік, і використовуйтеSeek(0, SeekOrigin.Begin)
, щоб встановити позицію потоку на початок. Це важливо, оскільки HTMLDocument читає вміст із поточної позиції в потоці. - Ініціалізуйте
HTMLDocument
з MemoryStream за допомогою конструктора HTMLDocument(content, baseUri) . Екземпляр HTMLDocument створюється шляхом передачі об’єкта MemoryStream і baseUri як параметрів. - Збережіть файл HTML на локальному диску за допомогою методу Save() .
Код C# для завантаження HTML із потоку пам’яті
using System.IO;
using Aspose.Html;
...
// Create a memory stream object
using (var mem = new MemoryStream())
using (var sw = new StreamWriter(mem))
{
// Write the HTML code into the memory object
sw.Write("<p>Load HTML from a memory stream</p>");
// It is important to set the position to the beginning, since HTMLDocument starts the reading exactly from the current position within the stream
sw.Flush();
mem.Seek(0, SeekOrigin.Begin);
// Initialize a document from the string variable
using (var document = new HTMLDocument(mem, "."))
{
// Save the document to a local disk
document.Save(Path.Combine(OutputDir, "load-html-from-stream.html"));
}
}
Щоб дізнатися більше про Aspose.HTML API, відвідайте наш посібник з документацією . У статті Create HTML Document ви знайдете інформацію про те, як завантажити документ із файлу, URL-адреси та потоку або створити його з нуля. Стаття документації Edit HTML Document містить основну інформацію про те, як читати або редагувати об’єктну модель документа за допомогою Aspose.HTML для .NET API. Ви дізнаєтеся, як створювати елементи HTML і як з ними працювати – змінювати документ, вставляючи нові вузли, видаляючи або редагуючи вміст існуючих вузлів.
Інші підтримувані редактори
Редагувати файли в інших форматах: