Cara Memuat HTML di C#
Pemuatan HTML adalah operasi mendasar untuk berbagai tugas web, termasuk pengembangan web, rendering halaman web, ekstraksi data, manajemen konten, pemrosesan dokumen, pengujian, dan banyak lagi. Pustaka Aspose.HTML for .NET menyediakan kelas HTMLDocument yang mengimplementasikan serangkaian konstruktor HTMLDocument() untuk menginisialisasi HTMLDocument. Dokumen HTML dapat dimuat dari file atau URL dan dapat dibuat dan dimuat dari string atau aliran memori. Jadi, mari kita lihat cara memuat HTML!
Pertama, pastikan Anda telah Aspose.HTML for .NET terinstal di proyek Anda. Proses instalasi perpustakaan ini relatif sederhana. Anda dapat menginstalnya melalui NuGet Package Manager Console menggunakan perintah berikut:
Instal Aspose.HTML for .NET
Install-Package Aspose.HTML
Muat HTML dari File
Memuat HTML dari sebuah file adalah titik awal yang baik untuk bekerja dengan file HTML, templat, atau data yang sudah ada yang disimpan dalam format HTML. Jika Anda diharuskan memuat file HTML yang ada dari sebuah file, mengerjakannya, dan menyimpannya, maka cuplikan kode berikut akan membantu Anda:
- Muat dokumen HTML dari file menggunakan konstruktor HTMLDocument(address) yang memuat dokumen HTML dari suatu alamat (jalur dokumen lokal).
- Simpan file HTML menggunakan metode Save() .
Pustaka Aspose.HTML for .NET menawarkan serangkaian konstruktor yang memungkinkan Anda memuat dokumen HTML dari sebuah file. Misalnya, HTMLDocument(address, configuration) memuat dokumen HTML dari alamat dengan pengaturan konfigurasi lingkungan tertentu. Untuk informasi lebih lanjut, silakan lihat bab Referensi API HTMLDocument .
Kode C# untuk memuat HTML dari file
using System.IO;
using Aspose.Html;
...
// Prepare a file path
string documentPath = Path.Combine(DataDir, "sprite.html");
// Initialize an HTML document from the file
using (var document = new HTMLDocument(documentPath))
{
// Work with the document
// Save the document to a disk
document.Save(Path.Combine(OutputDir, "sprite_out.html"));
}
Muat HTML dari URL
Memuat HTML dari URL dapat berguna saat Anda perlu mengekstrak informasi dari halaman web. Anda dapat memuat HTML langsung dari URL:
- Muat dokumen HTML dari URL menggunakan konstruktor HTMLDocument(Url) . Anda dapat menggunakan HTMLDocument(Url, configuration) jika Anda ingin memuat HTML dari URL dengan pengaturan konfigurasi lingkungan tertentu.
- Gunakan properti OuterHTM untuk mendapatkan konten HTML dokumen secara lengkap. Ini mencakup HTML seluruh dokumen, termasuk elemen HTML itu sendiri.
Jika Anda perlu menyimpan dokumen HTML di drive lokal Anda, gunakan metode Save() .
Kode C# untuk memuat HTML dari URL
using System.IO;
using Aspose.Html;
...
// Load a document from 'https://docs.aspose.com/html/net/creating-a-document/' web page
using (var document = new HTMLDocument("https://docs.aspose.com/html/net/creating-a-document/"))
{
var html = document.DocumentElement.OuterHTML;
// Write the document content to the output stream
Console.WriteLine(html);
}
Muat HTML dari string
Memuat HTML dari string adalah kemampuan penting yang memungkinkan Anda memanipulasi konten HTML dan mengubah string HTML tidak terstruktur menjadi dokumen terstruktur yang dapat Anda manipulasi, parse, atau tampilkan:
- Pertama, siapkan kode untuk dokumen HTML.
- Gunakan konstruktor HTMLDocument(content, baseUri) untuk menginisialisasi dokumen HTML dari konten string dengan baseUri yang ditentukan.
- Simpan file HTML menggunakan metode Save() .
Kode C# untuk memuat HTML dari sebuah string
using System.IO;
using Aspose.Html;
...
// Prepare HTML code
var html_code = "<p>Learn how to load HTML</p>";
// Initialize a document from the string variable
using (var document = new HTMLDocument(html_code, "."))
{
// Save the document to a disk
document.Save(Path.Combine(OutputDir, "load-html-from-string.html"));
}
Muat HTML dari aliran memori
Memuat HTML dari aliran berguna untuk efisiensi memori atau bekerja dengan data dalam memori. Kode C# berikut menunjukkan cara memuat HTML dari MemoryStream dan menyimpannya ke file menggunakan Aspose.HTML for .NET:
- Inisialisasi objek
MemoryStream
danStreamWriter
. StreamWriter digunakan untuk menulis kode HTML ke dalam MemoryStream. - Tulis kode HTML ke MemoryStream menggunakan metode
Write()
. - Panggil
Flush()
untuk memastikan bahwa data yang di-buffer ditulis ke aliran, dan gunakanSeek(0, SeekOrigin.Begin)
untuk mengatur posisi aliran ke awal. Hal ini penting karena Dokumen HTML membaca konten dari posisi saat ini dalam aliran. - Inisialisasi
HTMLDocument
dari MemoryStream menggunakan konstruktor HTMLDocument(content, baseUri) . Contoh HTMLDocument dibuat dengan meneruskan objek MemoryStream dan baseUri sebagai parameter. - Simpan file HTML ke drive lokal menggunakan metode Save() .
Kode C# untuk memuat HTML dari aliran memori
using System.IO;
using Aspose.Html;
...
// Create a memory stream object
using (var mem = new MemoryStream())
using (var sw = new StreamWriter(mem))
{
// Write the HTML code into the memory object
sw.Write("<p>Load HTML from a memory stream</p>");
// It is important to set the position to the beginning, since HTMLDocument starts the reading exactly from the current position within the stream
sw.Flush();
mem.Seek(0, SeekOrigin.Begin);
// Initialize a document from the string variable
using (var document = new HTMLDocument(mem, "."))
{
// Save the document to a local disk
document.Save(Path.Combine(OutputDir, "load-html-from-stream.html"));
}
}
Untuk mempelajari lebih lanjut tentang Aspose.HTML API, silakan kunjungi panduan dokumentasi kami. Dari artikel Create HTML Document , Anda akan menemukan informasi tentang cara memuat dokumen dari file, URL, dan streaming atau membuatnya dari awal. Artikel dokumentasi Edit HTML Document memberi Anda informasi dasar tentang cara membaca atau mengedit Model Objek Dokumen menggunakan Aspose.HTML for .NET API. Anda akan mempelajari cara membuat elemen HTML dan cara menggunakannya – memodifikasi dokumen dengan menyisipkan node baru, menghapus, atau mengedit konten node yang ada.
Editor yang Didukung Lainnya
Edit file dalam format file lain: