Извлечь текст из PDF в Python

Как извлечь текст из PDF с помощью библиотеки Python for .NET

Как извлечь текст из PDF с помощью библиотеки Python for .NET

Вам нужно извлечь текст из PDF? Программная модификация PDF-документов — неотъемлемая часть современных цифровых рабочих процессов. С помощью библиотек Python, таких как Aspose.PDF, разработчики могут извлекать текст из PDF. Эти библиотеки представляют собой автономные решения, которые не зависят от другого программного обеспечения и готовы к коммерческому использованию. Они удовлетворяют все возможные потребности профессиональных разработчиков Python.

  • Извлечение текста из PDF
  • Извлечение изображений из PDF
  • Извлечение шрифтов из PDF
  • Извлечение данных из формы
  • Извлечение текста из марок
  • Извлечение данных из таблицы

Чтобы извлечь текст из PDF-файла, мы будем использовать API Aspose.PDF for .NET, который представляет собой многофункциональный, мощный и простой в использовании API для работы с документами для платформы python-net. Откройте менеджер пакетов NuGet, найдите aspose.pdf и установите. Вы также можете использовать следующую команду в консоли диспетчера пакетов.

Python Package Manager Console

pip install aspose-pdf

Извлечь текст из PDF в Python


Чтобы попробовать код в своей среде, вам понадобится Aspose.PDF для Python.

  1. Загрузите PDF-файл вместе с экземпляром документа.
  2. Создайте объект TextAbsorber для извлечения текста.
  3. Примите абсорбер для всех страниц.
  4. Получите извлеченный текст
  5. Создайте писателя и откройте файл, напишите в файл строку текста

Извлечь текст из PDF - Python

В этом примере кода показано, как извлекать текст из PDF-документов

Input file:

File not added

Output format:

PDF

Output file:

    # Open document
    document = Document(dataDir + "ExtractTextAll.pdf")

    # Create TextAbsorber object to extract text
    textAbsorber = TextAbsorber()
    # Accept the absorber for all the pages
    document.Pages.Accept(textAbsorber)
    # Get the extracted text
    extractedText = textAbsorber.Text
    # Create a writer and open the file
    tw = new StreamWriter(dataDir + "extracted-text.txt")
    # Write a line of text to the file
    tw.WriteLine(extractedText)
    # Close the stream
    tw.Close()

О Aspose.PDF для API Python for .NET

Aspose.PDF для Python через .NET API поддерживает большинство установленных стандартов PDF и спецификаций PDF. Он позволяет разработчикам вставлять таблицы, графики, изображения, гиперссылки, собственные шрифты и многое другое в PDF-документы. Кроме того, можно сжимать PDF-документы. Aspose.PDF для Python через .NET предоставляет отличные функции безопасности для разработки защищенных PDF-документов. Некоторые из ключевых функций Aspose.PDF для Python через .NET API включают в себя:

  • Возможность чтения и экспорта PDF-файлов в нескольких форматах изображений, включая BMP, GIF, JPEG и PNG.
  • Задайте основную информацию (например, об авторе, создателе) PDF-документа.
  • Функции конвертации: конвертируйте PDF в Word, Excel и PowerPoint. Конвертируйте PDF в форматы изображений. Конвертируйте PDF-файл в формат HTML и наоборот. Конвертируйте PDF в EPUB, текст, XPS и т. д.

Дополнительную информацию о Aspose.PDF для Python с помощью .NET API можно найти в нашей документации об использовании API.