Извлечь текст из PDF в JavaScript

Как извлечь текст из PDF с помощью библиотеки Node.js via C++

Как извлечь текст из PDF с помощью библиотеки Node.js via C++

Чтобы извлечь текстовый PDF-файл, мы будем использовать API Aspose.PDF for .NET, который представляет собой многофункциональный, мощный и простой в использовании API для работы с документами для платформы nodejs-cpp. Откройте менеджер пакетов NuGet, найдите Aspose.pdf и установите. Вы также можете использовать следующую команду в консоли диспетчера пакетов.

Извлечь текст из PDF в JavaScript


Чтобы попробовать код в своей среде, вам понадобится библиотека Aspose.PDF.

  1. Загрузите PDF-файл вместе с экземпляром документа.
  2. Создайте объект TextAbsorber для извлечения текста.
  3. Примите абсорбер для всех страниц.
  4. Получите извлеченный текст
  5. Создайте писателя и откройте файл, напишите в файл строку текста

Извлечь текст из PDF - JavaScript

В этом примере кода показано, как извлекать текст из PDF-документов

Input file:

File not added

Output format:

PDF

Output file:

const AsposePdf = require('../AsposePDFforNode.js');
const pdf_file = '../ReadMe.pdf';
AsposePdf().then(AsposePdfModule => {
    /*Extract text from a PDF-file*/
    const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
    console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);
});

О Aspose.PDF для API Node.js via C++

Наша библиотека.NET может объединить документ из любого поддерживаемого формата загрузки в любой поддерживаемый формат сохранения. Библиотека Aspose.PDF для .NET предоставляет довольно универсальные решения, которые помогут вам решить задачи по объединению документов. Aspose.PDF поддерживает наибольшее количество популярных форматов документов как для загрузки, так и для сохранения. Обращаем ваше внимание, что в текущем разделе описаны только популярные слияния. На текущей странице представлена информация о слиянии TEXT с {{FILERESULT}}. Однако существует множество комбинаций для объединения файлов. Полный список поддерживаемых форматов см. в разделе Поддерживаемые форматы файлов.