Extraer texto de un PDF en C#

Cómo extraer texto de un PDF con .NET

C# Java C++ Python

Cómo extraer texto de un PDF con Aspose.PDF para .NET

¿Necesita extraer texto de un PDF? La modificación programática de los documentos PDF es una parte esencial de los flujos de trabajo digitales modernos. Con librerías de.NET como Aspose.PDF, los desarrolladores pueden extraer texto de un PDF. Estas bibliotecas son soluciones independientes que no dependen de otro software y están listas para su uso comercial. Cubren todas las necesidades posibles de los desarrolladores profesionales de C#.

Extraer texto de un PDF
Extraer imágenes de un PDF
Extraer fuentes de un PDF
Extraer datos del formulario
Extraer texto de sellos
Extraer datos de la tabla

Para extraer texto de un archivo PDF, utilizaremos la API Aspose.PDF for.NET, que es una API de manipulación de documentos potente, fácil de usar y rica en funciones para la plataforma net. Abre el administrador de paquetes NuGet, busca Aspose.PDF e instálalo. También puede usar el siguiente comando desde la consola del administrador de paquetes.

Package Manager Console

PM > Install-Package Aspose.PDF

Extraer texto de un PDF en C#

Para probar el código en su entorno, necesita Aspose.PDF for .NET.

Cargue el PDF con una instancia de Document.
Crea un objeto TextAbsorber para extraer texto.
Acepta el absorbente para todas las páginas.
Obtenga el texto extraído
Crea un escritor y abre el archivo, escribe una línea de texto en el archivo

Extrae texto de un PDF con C#

Este código de ejemplo muestra cómo extraer texto de documentos PDF

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

var inputFile = Path.Combine(dataDir, "ExtractTextAll.pdf");
var outputFile = Path.Combine(dataDir, "ExtractedText.txt");
var pdfDocument = new Aspose.Pdf.Document(inputFile);
var textAbsorber = new Aspose.Pdf.Text.TextAbsorber();
textAbsorber.TextSearchOptions.LimitToPageBounds = true;
textAbsorber.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
pdfDocument.Pages.Accept(textAbsorber);
File.WriteAllText(outputFile, textAbsorber.Text);

Acerca de Aspose.PDF for la API de C#

La API Aspose.PDF for .NET ofrece una amplia gama de funciones para trabajar con archivos PDF. Algunas de las funciones incluyen:

Crea documentos PDF desde cero o a partir de HTML, XML o imágenes.
Edite los documentos PDF existentes añadiendo o eliminando páginas, texto, imágenes y otro contenido.
Convierte documentos PDF a otros formatos como HTML, XML e imágenes.
Renderice documentos PDF a imágenes o formato XPS.
Imprima documentos PDF directamente desde su aplicación.
Firme digitalmente documentos PDF.

Puedes encontrar más información sobre la API Aspose.PDF for C# en esta documentación de Aspose