以 C# 提取 PDF

如何使用 .NET 庫從PDF中提取文本和圖像

使用解析器最受欢迎的动作

如何使用 .NET 库提取 PDF

你需要提取 PDF 吗?以编程方式修改 PDF 文档是现代数字工作流程的重要组成部分。使用像 Aspose.PDF 这样的.NET 库,开发人员可以从 PDF 中提取文本或从 PDF 中提取图像。这些库是独立的解决方案,不依赖其他软件,可以用于商业用途。它们涵盖了专业 C# 开发人员的所有可能需求。

  • 提取 PDF 数据:文本、图像、表单、字段等
  • 从 PDF 中提取文本
  • 从 PDF 中提取图片
  • 从 PDF 中提取字体
  • 从表单中提取数据
  • 从邮票中提取文本
  • 从表中提取数据

为了提取 PDF 文件,我们将使用 Aspose.PDF for .NET API,这是一款适用于 net 平台的功能丰富、功能强大且易于使用的文档处理 API。打开 NuGet 包管理器,搜索 aspose.pdf 然后安装。您也可以使用包管理器控制台中的以下命令。

Package Manager Console

PM > Install-Package Aspose.PDF

通过 C# 解析 PDF


若要在您的環境中試用代碼,您需要 [Aspose.PDF用於 .NET](https://releases.aspose.com/pdf/net)。

  1. 載入包含文件實例的 PDF。
  2. 建立文字吸收器物件以提取文字。 1.接受所有頁面的吸收器。
  3. 獲取提取的文字 1.創建一個編寫器並打開檔,向檔寫入一行文本

提取 PDF 文件-C#

此示例代码显示如何提取 PDF 文档

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

    // Create TextAbsorber object to extract text
    TextAbsorber textAbsorber = new TextAbsorber();
    // Accept the absorber for all the pages
    pdfDocument.Pages.Accept(textAbsorber);
    // Get the extracted text
    string extractedText = textAbsorber.Text;
    // Create a writer and open the file
    TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
    // Write a line of text to the file
    tw.WriteLine(extractedText);
    // Close the stream
    tw.Close();

關於 .NET API 的 aspose.PDF

Aspose.PDF for C# API 为处理 PDF 文件提供了广泛的功能。其中一些功能包括:

  • 从头开始或从 HTML、XML 或图像创建 PDF 文档。
  • 通过添加或删除页面、文本、图像和其他内容来编辑现有 PDF 文档。
  • 将 PDF 文档转换为其他格式,例如 HTML、XML 和图像。
  • 将 PDF 文档渲染为图像或 XPS 格式。
  • 直接从您的应用程序打印 PDF 文档。
  • 对 PDF 文档进行数字签名。

你可以在这个 Aspose 文档 中找到有关 C# API 的 Aspose.PDF 的更多信息