通过 Python 提取 PDF

如何使用 Python for .NET 库从 PDF 中提取文本和图像

C# Java C++ Python

使用解析器最受欢迎的动作

提取文本

提取图像

提取字体

如何使用 Python for .NET 库解析 PDF

你需要提取 PDF 吗？以编程方式修改 PDF 文档是现代数字工作流程的重要组成部分。使用像 Aspose.PDF 这样的 Python 库，开发者可以从 PDF 中提取文本或从 PDF 中提取图像。这些库是独立的解决方案，不依赖其他软件，可以用于商业用途。它们涵盖了专业 Python 开发人员的所有可能需求。

提取 PDF 数据：文本、图像、表单、字段等
从 PDF 中提取文本
从 PDF 中提取图片
从 PDF 中提取字体
从表单中提取数据
从邮票中提取文本
从表中提取数据

为了提取 PDF 文件，我们将使用 Aspose.PDF for .NET API，这是一款适用于 python-net 平台的功能丰富、功能强大且易于使用的文档处理 API。打开 NuGet 包管理器，搜索 aspose.pdf 然后安装。您也可以使用包管理器控制台中的以下命令。

Console

pip install aspose-pdf

通过 Python 解析 PDF

要在你的环境中试用这些代码，你需要 Aspose.PDF for .NET。

使用 Document 实例加载 PDF。
创建 TextabSorber 对象来提取文本。
接受所有页面的吸收剂。
获取提取的文本
创建写入器并打开文件，向文件写入一行文本

提取 PDF 文件-Python

此示例代码显示如何提取 PDF 文档

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

document = apdf.Document(path_infile)
textAbsorber = apdf.text.TextAbsorber()

document.pages.accept(textAbsorber)
extractedText = textAbsorber.text

with open(path_outfile, 'w') as f:
    f.write(extractedText)

关于 Aspose.PDF for Python for .NET API

通过 .NET API for Python 的 Aspose.PDF 支持大多数既定的 PDF 标准和 PDF 规范。它允许开发人员将表格、图表、图像、超链接、自定义字体等插入到 PDF 文档中。此外，还可以压缩 PDF 文档。通过.NET for Python 的 Aspose.PDF 为开发安全的 PDF 文档提供了出色的安全功能。通过 .NET API 实现的 Aspose.PDF for Python 的一些关键功能包括：

能够读取和导出多种图像格式的 PDF，包括 BMP、GIF、JPEG 和 PNG。
设置 PDF 文档的基本信息（例如作者、创建者）。
转换功能：将 PDF 转换为 Word、Excel 和 PowerPoint。将 PDF 转换为图像格式。将 PDF 文件转换为 HTML 格式，反之亦然。将 PDF 转换为 EPUB、文本、XPS 等

关于 API 的使用，你可以在我们的文档中通过.NET API 找到有关 Aspose.PDF for Python 的更多信息。