以 JavaScript 从 PDF 中提取文本

如何使用 Node.js via C++ 库从 PDF 中提取文本

如何使用 Node.js via C++ 库从 PDF 中提取文本

为了提取文本 PDF 文件,我们将使用 Aspose.PDF for .NET API,这是一款适用于 nodejs-cpp 平台的功能丰富、功能强大且易于使用的文档处理 API。打开 NuGet 包管理器,搜索 aspose.pdf 然后安装。您也可以使用包管理器控制台中的以下命令。

以 JavaScript 从 PDF 中提取文本


你需要 Aspose.PDF 库 才能在你的环境中试用代码。

1.在 PDF 中加载 “文档” 实例。 1.创建 textabSorber 对象来提取文本。 1.接受所有页面的吸收器。 1.获取提取的文本 1.创建一个写入器并打开文件,在文件中写一行文本

从 PDF 中提取文本-JavaScript

此示例代码显示如何从 PDF 文档中提取文本

Input file:

File not added

Output format:

PDF

Output file:

const AsposePdf = require('../AsposePDFforNode.js');
const pdf_file = '../ReadMe.pdf';
AsposePdf().then(AsposePdfModule => {
    /*Extract text from a PDF-file*/
    const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
    console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);
});

关于 Aspose.PDF for Node.js via C++ API

我们的.NET 库可以将任何支持的下载格式的文档合并为任何支持的保存格式。Aspose.PDF for .NET 库提供了相当通用的解决方案,可以帮助您解决合并文档的任务。Aspose.PDF 支持最多的常用文档格式,无论是加载还是保存。请您注意,当前部分仅描述了流行的合并。当前页面提供有关合并 TEXT 到 {{FILERESULT}} 的信息。但是,合并文件有多种组合。有关支持格式的完整列表,请参阅 [支持的文件格式] 部分 (https://docs.aspose.com/pdf/net/supported-file-formats/)。