Extraia o PDF em C++

Como extrair texto e imagens de PDF usando a biblioteca C++

Ação mais popular com Parser

Como extrair PDF com a biblioteca C++

Você precisa extrair o PDF? A modificação programática de documentos PDF é uma parte essencial dos fluxos de trabalho digitais modernos. Com bibliotecas de C++, como a Aspose.PDF, os desenvolvedores podem extrair texto do PDF ou extrair imagens do PDF. Essas bibliotecas são soluções autônomas que não dependem de outros softwares e estão prontas para uso comercial. Eles cobrem todas as necessidades possíveis dos desenvolvedores profissionais de C++.

  • Extraia dados em PDF: textos, imagens, formulários, campos, etc.
  • Extraia texto do PDF
  • Extraia imagens de PDF
  • Extrair fontes do PDF
  • Extrair dados do formulário
  • Extrair texto de carimbos
  • Extrair dados da tabela

Para extrair o arquivo PDF, usaremos a API Aspose.PDF para C++, que é uma API de manipulação de documentos rica em recursos, poderosa e fácil de usar para a plataforma cpp. Abra o gerenciador de pacotes NuGet, pesquise Aspose.pdf e instale. Você também pode usar o seguinte comando no console do Gerenciador de Pacotes.

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

Analise o PDF via C++


Você precisa do Aspose.PDF for C++ para testar o código em seu ambiente.

  1. Carregue o PDF com uma instância de Document.
  2. Crie um objeto TextAbsorber para extrair texto.
  3. Aceite o absorvedor para todas as páginas.
  4. Obter o texto extraído
  5. Crie um escritor e abra o arquivo, escreva uma linha de texto no arquivo

Extrair arquivos PDF - C++

Este código de exemplo mostra como extrair documentos PDF

Input file:

File not added

Output format:

PDF

Output file:


    void ExtractTextFromAllThePages() {

    std::clog << __func__ << ": Start" << std::endl;
    // String for path name
    String _dataDir("C:\\Samples\\Parsing\\");

    // String for file name
    String infilename("sample-4pages.pdf");
    String outfilename("extracted-text.txt");

    // Open document
    auto document = MakeObject<Document>(_dataDir + infilename);

    // Create TextAbsorber object to extract text
    auto textAbsorber = MakeObject<TextAbsorber>();
    // Accept the absorber for all the pages
    document->get_Pages()->Accept(textAbsorber);
    // Get the extracted text
    auto extractedText = textAbsorber->get_Text();

    System::IO::File::WriteAllText(_dataDir + outfilename, extractedText);
    std::clog << __func__ << ": Finish" << std::endl;
}

Sobre o Aspose.PDF para a API C++

O Aspose.PDF for C++ é uma poderosa biblioteca de processamento que permite aos desenvolvedores criar, ler e manipular documentos PDF sem usar o Adobe Acrobat. Ele fornece uma ampla variedade de recursos, como criar formulários, adicionar/editar texto, manipular páginas de PDF, adicionar anotações, lidar com fontes personalizadas e muito mais.

O Aspose.PDF for C++ é uma biblioteca que permite aos desenvolvedores adicionar recursos de processamento de PDF aos seus aplicativos. A API pode ser usada para criar qualquer tipo de aplicativo de 32 bits e 64 bits para gerar ou ler, converter e manipular arquivos PDF sem o uso do Adobe Acrobat.

Você pode encontrar explicações e exemplos detalhados para cada classe e método na biblioteca Aspose.PDF para C++ na referência da API. E também recomendo ver uma Documentação.