Извлеките PDF-файл с помощью Python

Как извлечь текст и изображения из PDF с помощью библиотеки Python for .NET

C# Java C++ Python

Самый популярный экшен с Parser

Извлечь текст

Извлечь изображения

Извлечь шрифты

Как анализировать PDF-файлы с помощью библиотеки Python for .NET

Вам нужно извлечь PDF? Программная модификация PDF-документов — неотъемлемая часть современных цифровых рабочих процессов. С помощью библиотек Python, таких как Aspose.PDF, разработчики могут извлекать текст из PDF или извлекать изображения из PDF. Эти библиотеки представляют собой автономные решения, которые не полагаются на другое программное обеспечение и готовы к коммерческому использованию. Они удовлетворяют все возможные потребности профессиональных разработчиков Python.

Извлечение данных PDF: текстов, изображений, форм, полей и т. д.
Извлечение текста из PDF
Извлечение изображений из PDF
Извлечение шрифтов из PDF
Извлечение данных из формы
Извлечение текста из марок
Извлечение данных из таблицы

Чтобы извлечь PDF-файл, мы будем использовать API Aspose.PDF for .NET, который представляет собой многофункциональный, мощный и простой в использовании API для работы с документами для платформы python-net. Откройте менеджер пакетов NuGet, найдите Aspose.PDF и установите. Вы также можете использовать следующую команду в консоли диспетчера пакетов.

Console

pip install aspose-pdf

Анализ PDF с помощью Python

Чтобы попробовать код в своей среде, вам нужно Aspose.PDF for .NET.

Загрузите PDF-файл вместе с экземпляром документа.
Создайте объект TextAbsorber для извлечения текста.
Примите абсорбер для всех страниц.
Получите извлеченный текст
Создайте устройство записи и откройте файл, запишите в файл строку текста

Извлечение PDF-файлов - Python

В этом примере кода показано, как извлекать PDF-документы

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

document = apdf.Document(path_infile)
textAbsorber = apdf.text.TextAbsorber()

document.pages.accept(textAbsorber)
extractedText = textAbsorber.text

with open(path_outfile, 'w') as f:
    f.write(extractedText)

О файле Aspose.PDF для API Python for .NET

Aspose.PDF для Python через API.NET поддерживает большинство устоявшихся стандартов PDF и спецификаций PDF. Он позволяет разработчикам вставлять таблицы, графики, изображения, гиперссылки, пользовательские шрифты и многое другое в PDF-документы. Кроме того, можно сжимать PDF-документы. Aspose.PDF для Python через .NET предоставляет отличные функции безопасности для разработки защищенных PDF-документов. Некоторые из важнейших функций Aspose.PDF для Python с помощью .NET API включают в себя:

Возможность чтения и экспорта PDF в нескольких форматах изображений, включая BMP, GIF, JPEG и PNG.
Задайте основную информацию (например, об авторе, создателе) PDF-документа.
Функции конвертации: конвертируйте PDF в Word, Excel и PowerPoint. Конвертируйте PDF в форматы изображений. Конвертируйте PDF-файлы в формат HTML и наоборот. Конвертируйте PDF в EPUB, текст, XPS и т. д.

Подробнее об использовании API вы можете найти дополнительную информацию о Aspose.PDF для Python через API.NET в нашей документации.