Extraiga el PDF a través de C#

Cómo extraer texto e imágenes de un PDF mediante la biblioteca de .NET

Acción más popular con Parser

Cómo analizar un PDF con la biblioteca .NET

¿Necesitas extraer un PDF? La modificación programática de los documentos PDF es una parte esencial de los flujos de trabajo digitales modernos. Con bibliotecas de.NET como Aspose.PDF, los desarrolladores pueden extraer texto de un PDF o extraer imágenes de un PDF. Estas bibliotecas son soluciones independientes que no dependen de otro software y están listas para su uso comercial. Cubren todas las necesidades posibles de los desarrolladores profesionales de C#.

  • Extrae datos PDF: textos, imágenes, formularios, campos, etc.
  • Extraer texto de un PDF
  • Extraer imágenes de PDF
  • Extraer fuentes de PDF
  • Extraer datos del formulario
  • Extraer texto de los sellos
  • Extraer datos de la tabla

Para extraer un archivo PDF, utilizaremos la API Aspose.PDF para .NET, que es una API de manipulación de documentos rica en funciones, potente y fácil de usar para la plataforma net. Abre el administrador de paquetes NuGet, busca Aspose.pdf e instálalo. También puede usar el siguiente comando desde la consola del administrador de paquetes.

Package Manager Console

PM > Install-Package Aspose.PDF

Analiza PDF a través de C#


Para probar el código en su entorno, necesita Aspose.PDF for .NET.

  1. Cargue el PDF con una instancia de Document.
  2. Crea un objeto TextAbsorber para extraer texto.
  3. Acepte el absorbedor para todas las páginas.
  4. Obtenga el texto extraído
  5. Crea un escritor y abre el archivo, escribe una línea de texto en el archivo

Extraer archivos PDF - C#

Este código de ejemplo muestra cómo extraer documentos PDF

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

    // Create TextAbsorber object to extract text
    TextAbsorber textAbsorber = new TextAbsorber();
    // Accept the absorber for all the pages
    pdfDocument.Pages.Accept(textAbsorber);
    // Get the extracted text
    string extractedText = textAbsorber.Text;
    // Create a writer and open the file
    TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
    // Write a line of text to the file
    tw.WriteLine(extractedText);
    // Close the stream
    tw.Close();

Acerca de Aspose.PDF para la API .NET

La API Aspose.PDF para .NET ofrece una amplia gama de funciones para trabajar con archivos PDF. Algunas de las funciones incluyen:

  • Crea documentos PDF desde cero o a partir de HTML, XML o imágenes.
  • Edite los documentos PDF existentes añadiendo o eliminando páginas, texto, imágenes y otro contenido.
  • Convierte documentos PDF a otros formatos como HTML, XML e imágenes.
  • Renderice documentos PDF a imágenes o formato XPS.
  • Imprima documentos PDF directamente desde su aplicación.
  • Firme digitalmente documentos PDF.

Puedes encontrar más información sobre la API Aspose.PDF para C# en esta documentación de Aspose