Solución de extracción de documentos PDF

Extraiga imágenes y texto de documentos PDF con aplicaciones y API multiplataforma gratuitas

Cómo analizar un archivo PDF usando la biblioteca Aspose

** ¿Por qué usar el análisis de documentos PDF?** Para analizar el archivo PDF, utilizaremos la API Aspose.PDF, que es una API de manipulación de documentos rica en funciones, potente y fácil de usar. Abra el administrador de paquetes NuGet, busque Aspose.PDF e instálelo. También puede usar el siguiente comando de la consola del administrador de paquetes. Analizar documentos PDF es un término relacionado con la extracción de varios tipos de información de un archivo PDF. Analiza el documento PDF para extraer texto e imágenes. Además, para separar PDF como texto e imágenes. La biblioteca Aspose.PDF le permite extraer texto de PDF y sellos, extraer imágenes y fuentes de PDF, extraer datos de tablas y formularios.

API de código alto para analizar documentos API nativas para archivos PDF con .NET, .NET Core, Java, C++ y Android

Analizar archivos PDF

// Open document
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

// Create TextAbsorber object to extract text
TextAbsorber textAbsorber = new TextAbsorber();
// Accept the absorber for all the pages
pdfDocument.Pages.Accept(textAbsorber);
// Get the extracted text
string extractedText = textAbsorber.Text;
// Create a writer and open the file
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Write a line of text to the file
tw.WriteLine(extractedText);
// Close the stream
tw.Close();