Извлеките PDF-файл на C++

Как извлечь текст и изображения из PDF с помощью библиотеки C++

Самый популярный экшен с Parser

Как извлечь PDF-файл с помощью библиотеки C++

Вам нужно извлечь PDF? Программная модификация PDF-документов — неотъемлемая часть современных цифровых рабочих процессов. С помощью библиотек C++, таких как Aspose.PDF, разработчики могут извлекать текст из PDF или извлекать изображения из PDF. Эти библиотеки представляют собой автономные решения, которые не полагаются на другое программное обеспечение и готовы к коммерческому использованию. Они удовлетворяют все возможные потребности профессиональных разработчиков на языке C++.

  • Извлечение данных PDF: текстов, изображений, форм, полей и т. д.
  • Извлечение текста из PDF
  • Извлечение изображений из PDF
  • Извлечение шрифтов из PDF
  • Извлечение данных из формы
  • Извлечение текста из марок
  • Извлечение данных из таблицы

Чтобы извлечь PDF-файл, мы будем использовать API Aspose.PDF для C++, который представляет собой многофункциональный, мощный и простой в использовании API для работы с документами для платформы cpp. Откройте менеджер пакетов NuGet, найдите Aspose.pdf и установите. Вы также можете использовать следующую команду в консоли диспетчера пакетов.

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

Анализ PDF с помощью C++


Вам понадобится Aspose.PDF для C++, чтобы попробовать код в своей среде.

  1. Загрузите PDF-файл с экземпляром документа.
  2. Создайте объект TextAbsorber для извлечения текста.
  3. Примите абсорбер для всех страниц.
  4. Получить извлеченный текст
  5. Создайте writer и откройте файл, напишите строку текста в файл

Извлечение PDF-файлов - C++

В этом примере кода показано, как извлекать PDF-документы

Input file:

File not added

Output format:

PDF

Output file:


    void ExtractTextFromAllThePages() {

    std::clog << __func__ << ": Start" << std::endl;
    // String for path name
    String _dataDir("C:\\Samples\\Parsing\\");

    // String for file name
    String infilename("sample-4pages.pdf");
    String outfilename("extracted-text.txt");

    // Open document
    auto document = MakeObject<Document>(_dataDir + infilename);

    // Create TextAbsorber object to extract text
    auto textAbsorber = MakeObject<TextAbsorber>();
    // Accept the absorber for all the pages
    document->get_Pages()->Accept(textAbsorber);
    // Get the extracted text
    auto extractedText = textAbsorber->get_Text();

    System::IO::File::WriteAllText(_dataDir + outfilename, extractedText);
    std::clog << __func__ << ": Finish" << std::endl;
}

О Aspose.PDF для API C++

Aspose.PDF для C++ — это мощная библиотека обработки, которая позволяет разработчикам создавать, читать и обрабатывать PDF-документы без использования Adobe Acrobat. Она предоставляет широкий спектр функций, таких как создание форм, добавление/редактирование текста, управление страницами PDF, добавление аннотаций, работа с пользовательскими шрифтами и многое другое.

Aspose.PDF для C++ — это библиотека, которая позволяет разработчикам добавлять в свои приложения возможности обработки PDF. API можно использовать для создания любых 32-битных и 64-разрядных приложений для создания, чтения, преобразования и обработки PDF-файлов без использования Adobe Acrobat.

Подробное объяснение и примеры каждого класса и метода можно найти в Aspose.PDF для библиотеки C++ в справочнике по API. А также рекомендуем ознакомиться с Документацией.