Cara Memuat HTML di C#

Pemuatan HTML adalah operasi mendasar untuk berbagai tugas web, termasuk pengembangan web, rendering halaman web, ekstraksi data, manajemen konten, pemrosesan dokumen, pengujian, dan banyak lagi. Pustaka Aspose.HTML for .NET menyediakan kelas HTMLDocument yang mengimplementasikan serangkaian konstruktor HTMLDocument() untuk menginisialisasi HTMLDocument. Dokumen HTML dapat dimuat dari file atau URL dan dapat dibuat dan dimuat dari string atau aliran memori. Jadi, mari kita lihat cara memuat HTML!

Pertama, pastikan Anda telah Aspose.HTML untuk .NET terinstal di proyek Anda. Proses instalasi perpustakaan ini relatif sederhana. Anda dapat menginstalnya melalui NuGet Package Manager Console menggunakan perintah berikut:


Instal Aspose.HTML untuk .NET

Install-Package Aspose.HTML

Muat HTML dari File

Memuat HTML dari sebuah file adalah titik awal yang baik untuk bekerja dengan file HTML, templat, atau data yang sudah ada yang disimpan dalam format HTML. Jika Anda diharuskan memuat file HTML yang ada dari sebuah file, mengerjakannya, dan menyimpannya, maka cuplikan kode berikut akan membantu Anda:

  1. Muat dokumen HTML dari file menggunakan konstruktor HTMLDocument(address) yang memuat dokumen HTML dari suatu alamat (jalur dokumen lokal).
  2. Simpan file HTML menggunakan metode Save() .

Pustaka Aspose.HTML untuk .NET menawarkan serangkaian konstruktor yang memungkinkan Anda memuat dokumen HTML dari sebuah file. Misalnya, HTMLDocument(address, configuration) memuat dokumen HTML dari alamat dengan pengaturan konfigurasi lingkungan tertentu. Untuk informasi lebih lanjut, silakan lihat bab Referensi API HTMLDocument .


Kode C# untuk memuat HTML dari file

using System.IO;
using Aspose.Html;
...

    // Prepare a file path
	string documentPath = Path.Combine(DataDir, "sprite.html");

	// Initialize an HTML document from the file
	using (var document = new HTMLDocument(documentPath))
	{
		// Work with the document

		// Save the document to a disk
		document.Save(Path.Combine(OutputDir, "sprite_out.html"));
	}

Muat HTML dari URL

Memuat HTML dari URL dapat berguna saat Anda perlu mengekstrak informasi dari halaman web. Anda dapat memuat HTML langsung dari URL:

  1. Muat dokumen HTML dari URL menggunakan konstruktor HTMLDocument(Url) . Anda dapat menggunakan HTMLDocument(Url, configuration) jika Anda ingin memuat HTML dari URL dengan pengaturan konfigurasi lingkungan tertentu.
  2. Gunakan properti OuterHTM untuk mendapatkan konten HTML dokumen secara lengkap. Ini mencakup HTML seluruh dokumen, termasuk elemen HTML itu sendiri.

Jika Anda perlu menyimpan dokumen HTML di drive lokal Anda, gunakan metode Save() .


Kode C# untuk memuat HTML dari URL

using System.IO;
using Aspose.Html;
...

	// Load a document from 'https://docs.aspose.com/html/net/creating-a-document/' web page
	using (var document = new HTMLDocument("https://docs.aspose.com/html/net/creating-a-document/"))
	{
		var html = document.DocumentElement.OuterHTML;

		// Write the document content to the output stream
		Console.WriteLine(html);
	}

Muat HTML dari string

Memuat HTML dari string adalah kemampuan penting yang memungkinkan Anda memanipulasi konten HTML dan mengubah string HTML tidak terstruktur menjadi dokumen terstruktur yang dapat Anda manipulasi, parse, atau tampilkan:

  1. Pertama, siapkan kode untuk dokumen HTML.
  2. Gunakan konstruktor HTMLDocument(content, baseUri) untuk menginisialisasi dokumen HTML dari konten string dengan baseUri yang ditentukan.
  3. Simpan file HTML menggunakan metode Save() .

Kode C# untuk memuat HTML dari sebuah string

using System.IO;
using Aspose.Html;
...

	// Prepare HTML code
    var html_code = "<p>Learn how to load HTML</p>";

    // Initialize a document from the string variable
    using (var document = new HTMLDocument(html_code, "."))
    {
        // Save the document to a disk
        document.Save(Path.Combine(OutputDir, "load-html-from-string.html"));
    }

Muat HTML dari aliran memori

Memuat HTML dari aliran berguna untuk efisiensi memori atau bekerja dengan data dalam memori. Kode C# berikut menunjukkan cara memuat HTML dari MemoryStream dan menyimpannya ke file menggunakan Aspose.HTML untuk .NET:

  1. Inisialisasi objek MemoryStream dan StreamWriter. StreamWriter digunakan untuk menulis kode HTML ke dalam MemoryStream.
  2. Tulis kode HTML ke MemoryStream menggunakan metode Write().
  3. Panggil Flush() untuk memastikan bahwa data yang di-buffer ditulis ke aliran, dan gunakan Seek(0, SeekOrigin.Begin) untuk mengatur posisi aliran ke awal. Hal ini penting karena Dokumen HTML membaca konten dari posisi saat ini dalam aliran.
  4. Inisialisasi HTMLDocument dari MemoryStream menggunakan konstruktor HTMLDocument(content, baseUri) . Contoh HTMLDocument dibuat dengan meneruskan objek MemoryStream dan baseUri sebagai parameter.
  5. Simpan file HTML ke drive lokal menggunakan metode Save() .

Kode C# untuk memuat HTML dari aliran memori

using System.IO;
using Aspose.Html;
...

    // Create a memory stream object
	using (var mem = new MemoryStream())
	using (var sw = new StreamWriter(mem))
	{
		// Write the HTML code into the memory object
		sw.Write("<p>Load HTML from a memory stream</p>");

		// It is important to set the position to the beginning, since HTMLDocument starts the reading exactly from the current position within the stream
		sw.Flush();
		mem.Seek(0, SeekOrigin.Begin);

		// Initialize a document from the string variable
		using (var document = new HTMLDocument(mem, "."))
		{
			// Save the document to a local disk
			document.Save(Path.Combine(OutputDir, "load-html-from-stream.html"));
		}
	}

Untuk mempelajari lebih lanjut tentang Aspose.HTML API, silakan kunjungi panduan dokumentasi kami. Dari artikel Create HTML Document , Anda akan menemukan informasi tentang cara memuat dokumen dari file, URL, dan streaming atau membuatnya dari awal. Artikel dokumentasi Edit HTML Document memberi Anda informasi dasar tentang cara membaca atau mengedit Model Objek Dokumen menggunakan Aspose.HTML untuk .NET API. Anda akan mempelajari cara membuat elemen HTML dan cara menggunakannya – memodifikasi dokumen dengan menyisipkan node baru, menghapus, atau mengedit konten node yang ada.