以 C++ 提取 PDF

如何使用 C++ 庫從PDF中提取文本和圖像

使用解析器最受欢迎的动作

如何使用 C++ 库提取 PDF

你需要提取 PDF 吗?以编程方式修改 PDF 文档是现代数字工作流程的重要组成部分。使用像 Aspose.PDF 这样的 C++ 库,开发人员可以从 PDF 中提取文本或从 PDF 中提取图像。这些库是独立的解决方案,不依赖其他软件,可以用于商业用途。它们涵盖了专业 C++ 开发人员的所有可能需求。

  • 提取 PDF 数据:文本、图像、表单、字段等
  • 从 PDF 中提取文本
  • 从 PDF 中提取图片
  • 从 PDF 中提取字体
  • 从表单中提取数据
  • 从邮票中提取文本
  • 从表中提取数据

为了提取 PDF 文件,我们将使用 Aspose.PDF for C++ API,这是一款适用于 cpp 平台的功能丰富、功能强大且易于使用的文档处理 API。打开 NuGet 包管理器,搜索 aspose.pdf 然后安装。您也可以使用包管理器控制台中的以下命令。

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

通过 C++ 解析 PDF


您需要為 [Aspose.PDF for C++](https://releases.aspose.com/pdf/cpp) 才能在您的環境中嘗試代碼。

  1. 載入包含文件實例的 PDF。
  2. 建立文字吸收器物件以提取文字。 1.接受所有頁面的吸收器。
  3. 獲取提取的文字 1.創建一個編寫器並打開檔,向檔寫入一行文本

提取 PDF 文件-C++

此示例代码显示如何提取 PDF 文档

Input file:

File not added

Output format:

PDF

Output file:


    void ExtractTextFromAllThePages() {

    std::clog << __func__ << ": Start" << std::endl;
    // String for path name
    String _dataDir("C:\\Samples\\Parsing\\");

    // String for file name
    String infilename("sample-4pages.pdf");
    String outfilename("extracted-text.txt");

    // Open document
    auto document = MakeObject<Document>(_dataDir + infilename);

    // Create TextAbsorber object to extract text
    auto textAbsorber = MakeObject<TextAbsorber>();
    // Accept the absorber for all the pages
    document->get_Pages()->Accept(textAbsorber);
    // Get the extracted text
    auto extractedText = textAbsorber->get_Text();

    System::IO::File::WriteAllText(_dataDir + outfilename, extractedText);
    std::clog << __func__ << ": Finish" << std::endl;
}

關於 C++ API 的 aspose.PDF

Aspose.PDF for C++ 是一个功能强大的处理库,使开发人员无需使用 Adobe Acrobat 即可创建、读取和操作 PDF 文档。它提供了广泛的功能,例如创建表单、添加/编辑文本、操作 PDF 页面、添加注释、处理自定义字体等等。

Aspose.PDF for C++ 是一个库,它使开发人员能够为他们的应用程序添加 PDF 处理功能。API 可用于构建任何类型的 32 位和 64 位应用程序,无需使用 Adobe Acrobat 即可生成或读取、转换和操作 PDF 文件。

你可以在 API 参考的 Aspose.PDF for C++ 库 中找到每个类和方法的详细解释和示例。还建议查看 文档