以 Python 从 PDF 中提取文本

如何使用 Python for .NET 库从 PDF 中提取文本

如何使用 Python for .NET 库从 PDF 中提取文本

你需要从 PDF 中提取文本吗?以编程方式修改 PDF 文档是现代数字工作流程的重要组成部分。使用像 Aspose.PDF 这样的 Python 库,开发者可以从 PDF 中提取文本。这些库是独立的解决方案,不依赖其他软件,可以用于商业用途。它们涵盖了专业 Python 开发人员的所有可能需求。

  • 从 PDF 中提取文本
  • 从 PDF 中提取图片
  • 从 PDF 中提取字体
  • 从表单中提取数据
  • 从邮票中提取文本
  • 从表中提取数据

为了从 PDF 文件中提取文本,我们将使用 Aspose.PDF for .NET API,这是一款适用于 python-net 平台的功能丰富、功能强大且易于使用的文档处理 API。打开 NuGet 包管理器,搜索 aspose.pdf 然后安装。您也可以使用包管理器控制台中的以下命令。

Python Package Manager Console

pip install aspose-pdf

以 Python 从 PDF 中提取文本


要在你的环境中试用代码,你需要 Aspose.PDF for Python

1.在 PDF 中加载 “文档” 实例。 1.创建 textabSorber 对象来提取文本。 1.接受所有页面的吸收器。 1.获取提取的文本 1.创建一个写入器并打开文件,在文件中写一行文本

从 PDF 中提取文本-Python

此示例代码显示如何从 PDF 文档中提取文本

Input file:

File not added

Output format:

PDF

Output file:

    # Open document
    document = Document(dataDir + "ExtractTextAll.pdf")

    # Create TextAbsorber object to extract text
    textAbsorber = TextAbsorber()
    # Accept the absorber for all the pages
    document.Pages.Accept(textAbsorber)
    # Get the extracted text
    extractedText = textAbsorber.Text
    # Create a writer and open the file
    tw = new StreamWriter(dataDir + "extracted-text.txt")
    # Write a line of text to the file
    tw.WriteLine(extractedText)
    # Close the stream
    tw.Close()

关于 Aspose.PDF for Python for .NET API

通过 .NET API 适用于 Python 的 Aspose.PDF 支持大多数成熟的 PDF 标准和 PDF 规范。它允许开发人员在 PDF 文档中插入表格、图形、图像、超链接、自定义字体等。此外,还可以压缩 PDF 文档。通过.NET for Python 的 Aspose.PDF 为开发安全的 PDF 文档提供了出色的安全功能。通过 .NET API 提供的 Aspose.PDF for Python 的一些关键功能包括:

  • 能够读取和导出多种图像格式的 PDF,包括 BMP、GIF、JPEG 和 PNG。
  • 设置 PDF 文档的基本信息(例如作者、创建者)。
  • 转换功能:将 PDF 转换为 Word、Excel 和 PowerPoint。将 PDF 转换为图像格式。将 PDF 文件转换为 HTML 格式,反之亦然。将 PDF 转换为 EPUB、文本、XPS 等

你可以在我们关于如何使用 API 的 文档 上通过 .NET API 找到有关 Aspose.PDF for Python 的更多信息。