通过 C# 提取 PDF

如何使用 .NET 库从 PDF 中提取文本和图像

C# Java C++ Python

使用解析器最受欢迎的动作

提取文本

提取图像

提取字体

如何使用 .NET 库解析 PDF

你需要提取 PDF 吗？PDF 文档的编程修改是现代数字工作流程的重要组成部分。使用像 Aspose.PDF 这样的.NET 库，开发人员可以从 PDF 中提取文本或从 PDF 中提取图像。这些库是独立的解决方案，不依赖其他软件，可以用于商业用途。它们涵盖了专业 C# 开发人员的所有可能需求。

提取 PDF 数据：文本、图像、表单、字段等。
从 PDF 中提取文本
从 PDF 中提取图像
从 PDF 中提取字体
从表单中提取数据
从邮票中提取文本
从表中提取数据

要提取 PDF 文件，我们将使用 Aspose.PDF for .NET API，这是一款功能丰富、功能强大且易于使用的文档操作 API，适用于 net 平台。打开 NuGet 软件包管理器，搜索 Aspose.PDF 并安装。您也可以使用包管理器控制台中的以下命令。

Package Manager Console

PM > Install-Package Aspose.PDF

通过 C# 解析 PDF

要在你的环境中试用这些代码，你需要 Aspose.PDF for .NET。

使用 Document 实例加载 PDF。
创建 TextabSorber 对象来提取文本。
接受所有页面的吸收剂。
获取提取的文本
创建写入器并打开文件，向文件写入一行文本

提取 PDF 文件-C#

此示例代码显示如何提取 PDF 文档

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

var inputFile = Path.Combine(dataDir, "ExtractTextAll.pdf");
var outputFile = Path.Combine(dataDir, "ExtractedText.txt");
var pdfDocument = new Aspose.Pdf.Document(inputFile);
var textAbsorber = new Aspose.Pdf.Text.TextAbsorber();
pdfDocument.Pages.Accept(textAbsorber);
File.WriteAllText(outputFile, textAbsorber.Text);

关于 Aspose.PDF for .NET API

Aspose.PDF for .NET API 为处理 PDF 文件提供了广泛的功能。其中一些功能包括：

从头开始创建 PDF 文档，或者从 HTML、XML 或图像创建 PDF 文档。
通过添加或删除页面、文本、图像和其他内容来编辑现有 PDF 文档。
将 PDF 文档转换为其他格式，例如 HTML、XML 和图像。
将 PDF 文档渲染为图像或 XPS 格式。
直接从您的应用程序打印 PDF 文档。
对 PDF 文档进行数字签名。

你可以在这个 Aspose 文档中找到有关 Aspose.PDF for C# API 的更多信息