Извлечь текст из PDF в Python

Как извлечь текст из PDF с помощью Python

Как извлечь текст из PDF с помощью файла Aspose.PDF для Python for .NET

Вам нужно извлечь текст из PDF? Программная модификация PDF-документов — неотъемлемая часть современных цифровых рабочих процессов. С помощью библиотек Python, таких как Aspose.PDF, разработчики могут извлекать текст из PDF. Эти библиотеки представляют собой автономные решения, которые не зависят от другого программного обеспечения и готовы к коммерческому использованию. Они удовлетворяют все возможные потребности профессиональных разработчиков Python.

Извлечение текста из PDF
Извлечение изображений из PDF
Извлечение шрифтов из PDF
Извлечение данных из формы
Извлечение текста из марок
Извлечение данных из таблицы

Чтобы извлечь текст из PDF-файла, мы будем использовать API Aspose.PDF for .NET, который представляет собой многофункциональный, мощный и простой в использовании API для работы с документами для платформы python-net. Откройте менеджер пакетов NuGet, найдите aspose.pdf и установите. Вы также можете использовать следующую команду в консоли диспетчера пакетов.

Console

pip install aspose-pdf

Извлечь текст из PDF в Python

Чтобы попробовать код в своей среде, вам понадобится Aspose.PDF для Python.

Загрузите PDF-файл вместе с экземпляром документа.
Создайте объект TextAbsorber для извлечения текста.
Примите абсорбер для всех страниц.
Получите извлеченный текст
Создайте писателя и откройте файл, напишите в файл строку текста

Извлеките текст из PDF с помощью Python

В этом примере кода показано, как извлекать текст из PDF-документов

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

import aspose.pdf as apdf
from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

document = apdf.Document(path_infile)
# Create TextAbsorber object to extract text
textAbsorber = apdf.text.TextAbsorber()
document.pages.accept(textAbsorber)
extractedText = textAbsorber.text

with open(path_outfile, 'w') as f:
    f.write(extractedText)

О файле Aspose.PDF для API Python for .NET

Aspose.PDF для Python через API.NET поддерживает большинство устоявшихся стандартов PDF и спецификаций PDF. Он позволяет разработчикам вставлять таблицы, графики, изображения, гиперссылки, пользовательские шрифты и многое другое в PDF-документы. Кроме того, можно сжимать PDF-документы. Aspose.PDF для Python через .NET предоставляет отличные функции безопасности для разработки защищенных PDF-документов. Некоторые из важнейших функций Aspose.PDF для Python с помощью .NET API включают в себя:

Возможность чтения и экспорта PDF в нескольких форматах изображений, включая BMP, GIF, JPEG и PNG.
Задайте основную информацию (например, об авторе, создателе) PDF-документа.
Функции конвертации: конвертируйте PDF в Word, Excel и PowerPoint. Конвертируйте PDF в форматы изображений. Конвертируйте PDF-файлы в формат HTML и наоборот. Конвертируйте PDF в EPUB, текст, XPS и т. д.

Подробнее об использовании API вы можете найти дополнительную информацию о Aspose.PDF для Python через API.NET в нашей документации.