Extraer PDF en C++

Cómo extraer texto e imágenes de un PDF mediante la biblioteca de C++

Acción más popular con Parser

Cómo extraer un PDF con la biblioteca C++

¿Necesitas extraer un PDF? La modificación programática de los documentos PDF es una parte esencial de los flujos de trabajo digitales modernos. Con bibliotecas de C++ como Aspose.PDF, los desarrolladores pueden extraer texto de un PDF o extraer imágenes de un PDF. Estas bibliotecas son soluciones independientes que no dependen de otro software y están listas para su uso comercial. Cubren todas las necesidades posibles de los desarrolladores profesionales de C++.

  • Extrae datos de PDF: textos, imágenes, formularios, campos, etc.
  • Extraer texto de un PDF
  • Extraer imágenes de un PDF
  • Extraer fuentes de un PDF
  • Extraer datos del formulario
  • Extraer texto de sellos
  • Extraer datos de la tabla

Para extraer un archivo PDF, utilizaremos la API Aspose.PDF para C++, que es una API de manipulación de documentos potente, fácil de usar y rica en funciones para la plataforma cpp. Abre el administrador de paquetes NuGet, busca Aspose.pdf e instálalo. También puede usar el siguiente comando desde la consola del administrador de paquetes.

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

Analiza PDF a través de C++


Necesitas Aspose.PDF for C++ para probar el código en tu entorno.

  1. Cargue el PDF con una instancia de Document.
  2. Cree un objeto TextAbsorber para extraer texto.
  3. Acepta el absorbedor para todas las páginas.
  4. Obtener el texto extraído
  5. Crea un escritor y abre el archivo, escribe una línea de texto en el archivo

Extraer archivos PDF - C++

Este código de ejemplo muestra cómo extraer documentos PDF

Input file:

File not added

Output format:

PDF

Output file:


    void ExtractTextFromAllThePages() {

    std::clog << __func__ << ": Start" << std::endl;
    // String for path name
    String _dataDir("C:\\Samples\\Parsing\\");

    // String for file name
    String infilename("sample-4pages.pdf");
    String outfilename("extracted-text.txt");

    // Open document
    auto document = MakeObject<Document>(_dataDir + infilename);

    // Create TextAbsorber object to extract text
    auto textAbsorber = MakeObject<TextAbsorber>();
    // Accept the absorber for all the pages
    document->get_Pages()->Accept(textAbsorber);
    // Get the extracted text
    auto extractedText = textAbsorber->get_Text();

    System::IO::File::WriteAllText(_dataDir + outfilename, extractedText);
    std::clog << __func__ << ": Finish" << std::endl;
}

Acerca de Aspose.PDF para la API C++

Aspose.PDF para C++ es una potente biblioteca de procesamiento que permite a los desarrolladores crear, leer y manipular documentos PDF sin utilizar Adobe Acrobat. Ofrece una amplia gama de funciones, como la creación de formularios, la agregación/edición de texto, la manipulación de páginas PDF, la adición de anotaciones, el manejo de fuentes personalizadas y mucho más.

Aspose.PDF para C++ es una biblioteca que permite a los desarrolladores añadir capacidades de procesamiento de PDF a sus aplicaciones. La API se puede usar para crear cualquier tipo de aplicaciones de 32 y 64 bits para generar o leer, convertir y manipular archivos PDF sin el uso de Adobe Acrobat.

Puedes encontrar una explicación detallada y ejemplos de cada clase y método en Aspose.PDF para la biblioteca de C++, en la referencia de la API. También recomendamos ver una Documentación.