Cómo cargar HTML en C#

La carga de HTML es una operación fundamental para diversas tareas web, incluido el desarrollo web, la representación de páginas web, la extracción de datos, la gestión de contenidos, el procesamiento de documentos, las pruebas y más. La biblioteca Aspose.HTML para .NET proporciona una clase HTMLDocument con un conjunto de constructores HTMLDocument() que cargan HTML e inicializan un objeto HTMLDocument para manipulación futura. Los documentos HTML se pueden cargar desde un archivo o URL y se pueden crear y cargar desde una cadena o flujo de memoria. Entonces, ¡veamos formas de cargar HTML!

Primero, asegúrese de tener Aspose.HTML para .NET instalado en su proyecto. El proceso de instalación de esta biblioteca es relativamente simple. Puede instalarlo a través de la consola del Administrador de paquetes NuGet usando el siguiente comando:


Instalar Aspose.HTML para .NET

Install-Package Aspose.HTML

Cargar HTML desde un archivo

Cargar HTML desde un archivo es un buen punto de partida para trabajar con archivos HTML, plantillas o datos almacenados en formato HTML existentes. Si necesita cargar un archivo HTML existente desde un archivo, trabajar en él y guardarlo, el siguiente fragmento de código le ayudará:

  1. Cargue un documento HTML desde un archivo utilizando el constructor HTMLDocument(address) que carga el documento HTML desde una dirección (ruta del documento local).
  2. Guarde el archivo HTML usando el método Save() .

La biblioteca Aspose.HTML para .NET ofrece un conjunto de constructores que le permiten cargar documentos HTML desde un archivo. Por ejemplo, HTMLDocument(address, сonfiguration) carga un documento HTML desde una dirección con ajustes de configuración de entorno específicos. Para obtener más información, consulte el capítulo Referencia de API HTMLDocument .


Código C# para cargar HTML desde un archivo

using System.IO;
using Aspose.Html;
...

    // Prepare a file path
	string documentPath = Path.Combine(DataDir, "sprite.html");

	// Initialize an HTML document from the file
	using (var document = new HTMLDocument(documentPath))
	{
		// Work with the document

		// Save the document to a disk
		document.Save(Path.Combine(OutputDir, "sprite_out.html"));
	}

Cargar HTML desde una URL

Cargar HTML desde una URL puede resultar útil cuando necesita extraer información de una página web. Puede cargar HTML directamente desde una URL:

  1. Cargue un documento HTML desde una URL usando el constructor HTMLDocument(Url) . Puede utilizar HTMLDocument(Url, сonfiguration) si desea cargar HTML desde una URL con ajustes de configuración de entorno específicos.
  2. Utilice la propiedad OuterHTM para obtener el contenido HTML completo del documento. Esto incluye el HTML de todo el documento, incluido el propio elemento HTML.

Si necesita guardar el documento HTML en su disco local, utilice el método Save() .


Código C# para cargar HTML desde una URL

using System.IO;
using Aspose.Html;
...

	// Load a document from 'https://docs.aspose.com/html/net/creating-a-document/' web page
	using (var document = new HTMLDocument("https://docs.aspose.com/html/net/creating-a-document/"))
	{
		var html = document.DocumentElement.OuterHTML;

		// Write the document content to the output stream
		Console.WriteLine(html);
	}

Cargar HTML desde una cadena

Cargar HTML desde una cadena es una capacidad importante que le permite manipular contenido HTML y convertir cadenas HTML no estructuradas en un documento estructurado que puede manipular, analizar o mostrar:

  1. Primero, prepare el código para un documento HTML.
  2. Utilice el constructor HTMLDocument(content, baseUri) para inicializar un documento HTML a partir de un contenido de cadena con baseUri especificado.
  3. Guarde el archivo HTML usando el método Save() .

Código C# para cargar HTML desde una cadena

using System.IO;
using Aspose.Html;
...

	// Prepare HTML code
    var html_code = "<p>Learn how to load HTML</p>";

    // Initialize a document from the string variable
    using (var document = new HTMLDocument(html_code, "."))
    {
        // Save the document to a disk
        document.Save(Path.Combine(OutputDir, "load-html-from-string.html"));
    }

Cargar HTML desde un flujo de memoria

Cargar HTML desde una secuencia es útil para la eficiencia de la memoria o para trabajar con datos en memoria. El siguiente código C# demuestra cómo cargar HTML desde MemoryStream y guardarlo en un archivo usando Aspose.HTML para .NET:

  1. Inicialice los objetos de MemoryStream y StreamWriter. StreamWriter se utiliza para escribir el código HTML en MemoryStream.
  2. Escriba el código HTML en MemoryStream usando el método Write().
  3. Llame a Flush() para asegurarse de que todos los datos almacenados en el búfer se escriban en la secuencia y utilice Seek(0, SeekOrigin.Begin) para establecer la posición de la secuencia al principio. Esto es importante porque un HTMLDocument lee el contenido desde la posición actual dentro de la secuencia.
  4. Inicialice HTMLDocument desde MemoryStream usando el constructor HTMLDocument(content, baseUri) . La instancia de HTMLDocument se crea pasando el objeto MemoryStream y baseUri como parámetros.
  5. Guarde el archivo HTML en una unidad local usando el método Save() .

Código C# para cargar HTML desde un flujo de memoria

using System.IO;
using Aspose.Html;
...

    // Create a memory stream object
	using (var mem = new MemoryStream())
	using (var sw = new StreamWriter(mem))
	{
		// Write the HTML code into the memory object
		sw.Write("<p>Load HTML from a memory stream</p>");

		// It is important to set the position to the beginning, since HTMLDocument starts the reading exactly from the current position within the stream
		sw.Flush();
		mem.Seek(0, SeekOrigin.Begin);

		// Initialize a document from the string variable
		using (var document = new HTMLDocument(mem, "."))
		{
			// Save the document to a local disk
			document.Save(Path.Combine(OutputDir, "load-html-from-stream.html"));
		}
	}

Para obtener más información sobre la API Aspose.HTML, visite nuestra guía de documentación . En el artículo Create HTML Document , encontrará información sobre cómo cargar un documento desde un archivo, URL y transmitirlo o crearlo desde cero. El artículo de documentación Edit HTML Document le brinda información básica sobre cómo leer o editar el modelo de objetos de documento usando Aspose.HTML para .NET API. Explorará cómo crear elementos HTML y cómo trabajar con ellos: modificar el documento insertando nuevos nodos, eliminando o editando el contenido de los nodos existentes.