Извлечение изображений из PDF в Python

Как извлечь изображения из PDF с помощью Python

C# Java C++ Python

Как извлечь изображения из PDF с помощью инструмента Aspose.PDF для Python for .NET

Нужно ли извлекать изображения из PDF? Программная модификация PDF-документов — неотъемлемая часть современных цифровых рабочих процессов. С помощью библиотек Python, таких как Aspose.PDF, разработчики могут извлекать изображения из PDF. Эти библиотеки представляют собой автономные решения, которые не зависят от другого программного обеспечения и готовы к коммерческому использованию. Они удовлетворяют все возможные потребности профессиональных разработчиков Python.

Извлечение текста из PDF
Извлечение изображений из PDF
Извлечение шрифтов из PDF
Извлечение данных из формы
Извлечение текста из марок
Извлечение данных из таблицы

Для извлечения изображений из PDF-файла мы будем использовать API Aspose.PDF for .NET, который представляет собой многофункциональный, мощный и простой в использовании API для работы с документами для платформы python-net. Откройте менеджер пакетов NuGet, найдите aspose.pdf и установите. Вы также можете использовать следующую команду в консоли диспетчера пакетов.

Console

pip install aspose-pdf

Извлечение изображений из PDF в Python

Чтобы попробовать код в своей среде, вам понадобится Aspose.PDF для Python.

Загрузите PDF-файл вместе с экземпляром документа.
Создайте объект Ximage для извлечения изображений.
Сохраните выходное изображение в файл jpeg.
Сохраните обновленный PDF-файл.

Извлечение изображений из PDF - Python

В этом примере кода показано, как извлекать изображения из PDF-документов.

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

import aspose.pdf as apdf
from os import path
from io import FileIO

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

document = apdf.Document(path_infile)
xImage = document.pages[2].resources.images[1]
output_image = FileIO(path_outfile, "w")

# Save output image
xImage.save(output_image)
output_image.close()

О файле Aspose.PDF для API Python for .NET

Aspose.PDF для Python через API.NET поддерживает большинство устоявшихся стандартов PDF и спецификаций PDF. Он позволяет разработчикам вставлять таблицы, графики, изображения, гиперссылки, пользовательские шрифты и многое другое в PDF-документы. Кроме того, можно сжимать PDF-документы. Aspose.PDF для Python через .NET предоставляет отличные функции безопасности для разработки защищенных PDF-документов. Некоторые из важнейших функций Aspose.PDF для Python с помощью .NET API включают в себя:

Возможность чтения и экспорта PDF в нескольких форматах изображений, включая BMP, GIF, JPEG и PNG.
Задайте основную информацию (например, об авторе, создателе) PDF-документа.
Функции конвертации: конвертируйте PDF в Word, Excel и PowerPoint. Конвертируйте PDF в форматы изображений. Конвертируйте PDF-файлы в формат HTML и наоборот. Конвертируйте PDF в EPUB, текст, XPS и т. д.

Подробнее об использовании API вы можете найти дополнительную информацию о Aspose.PDF для Python через API.NET в нашей документации.