Преобразование PDF-документов через Python for .NET

Экспорт PDF в Microsoft Office® Word, Excel, PowerPoint, презентации, изображения, HTML и форматы с фиксированной разметкой

C# Java C++ Python

Обзор

В редких случаях возникает необходимость манипулировать документами, отличными от PDF, при наличии данных синтаксического анализа в форматах PDF. Таким образом, для таких приложений будет два сценария: либо они добавляют функциональность синтаксического анализа PDF в свое собственное решение, либо добавляют функцию преобразования PDF для манипулирования данными в поддерживаемых форматах. Для второго сценария преобразования PDF в Word**, Excel, HTML, изображения или любой требуемый формат реализовать код программы чтения и конвертераC# PDF-файла в базе.NET очень просто. Здесь мы обсуждаем несколько случаев, чтобы программисты могли изменять эти фрагменты кода преобразования в соответствии со своими требованиями.

Преобразование PDF-файлов в формат Microsoft Word 2003-2019

Пример: код C# для преобразования PDF в Word

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc.doc"

// Загрузите исходный PDF-файл
document = ap.Document(input_pdf)

// Сохранить с помощью опций сохранения
// Создать объект DocSaveOptions
 save_options = ap.DocSaveOptions()
save_options.format = ap.DocSaveOptions.DocFormat.DOCX

// Установите режим распознавания как Flow означает режим полного распознавания
save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW

// Два других режима: RecognitionMode.TextBox и RecognitionMode.EnhancedFlow

// Установите горизонтальную близость как 2,5
save_options.relative_horizontal_proximity = 2.5

// Включить значение для распознавания маркеров в процессе преобразования
save_options.recognize_bullets = True

// Сохраните полученный DOC-файл
document.save(output_pdf, save_options)

Библиотека Aspose.PDF для .NET поддерживает все преобразования PDF в Word. Если мы просто конвертируем документы Microsoft Word без каких-либо специальных настроек, мы просто загружаем PDF-файл методом Save из класса Document и будем использовать путь к выходному документу Word и SaveFormat в качестве параметров. Для особых случаев, когда необходимо увеличить расстояние между линиями, разрешение изображения и другие настройки, в API есть класс DocSaveOptions, который предоставляет все эти настройки.

PDF to WORD PDF to DOC PDF to DOCX

Сохранение PDF в виде файлов Excel

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_excel.xlsx"
// Загрузить PDF-документ
document = ap.Document(input_pdf)
// Инициализация параметров сохранения Excel
save_option = ap.ExcelSaveOptions()
// Установить выходной формат Excel XLSX
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
// Минимизировать количество рабочих листов
save_option.minimize_the_number_of_worksheets = True
// Преобразовать PDF в выходной файл Excel
document.save(output_pdf, save_option)

Специализированное SaveFormat.excel Доступно перечисление для сохранения PDF в определенные выходные форматы Microsoft Excel XLS XLSX. Кроме того, .NET PDF-библиотека также имеет специальный класс ExcelSaveOptions, который не только занимается сохранением в форматах Excel, но также предоставляет различные функции и свойства для установки различных атрибутов, таких как точный выходной формат, минимизация количество рабочих листов и многое другое.

PDF to EXCEL PDF to XLS PDF to XLSX

Преобразование PDF в презентации PowerPoint

Пример: преобразование кода C# из PDF в PowerPoint

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_pptx.pptx
// Загрузить PDF-документ
document = ap.Document(input_pdf)
save_option = ap.PptxSaveOptions()
save_option.slides_as_images = True
// Сохранить выходной файл
document.save(output_pdf, save_option)

.NET PDF API поддерживает преобразование страниц PDF в слайды презентации PowerPoint с выбираемым текстом или изображениями путем рендеринга слайдов как изображений. Шаблон сохранения Portable Document Format в PowerPoint почти такой же: загрузка файла с использованием класса Document, а затем вызов метода Save с путем к выходному файлу и SaveFormat в качестве параметров. В случае рендеринга со специальными параметрами представления программисты могут использовать класс PptxSaveOptions с любыми соответствующими конкретными параметрами рендеринга. Вызов метода сохранения и передача параметров в качестве параметра.

Конвертация формата переносимого документа PDF в HTML

Пример: код C# для преобразования PDF в HTML

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_html.html"

// Загрузить исходный PDF-документ
document = ap.Document(input_pdf)

// Создать экземпляр объекта параметров сохранения HTML
save_options = ap.HtmlSaveOptions()

// Включение опции для встраивания всех ресурсов в HTML
save_options.parts_embedding_mode = ap.HtmlSaveOptions.PartsEmbeddingModes.EMBED_ALL_INTO_HTML

// Указание отдельной папки для PDF в HTML с изображениями
save_options.special_folder_for_all_images = "ImagesFolder"

// Указание параметра разделения результирующего HTML на несколько страниц
save_options.split_into_pages = True

document.save(output_pdf, save_options)

Библиотека разбора PDF поддерживает сохранение PDF в HTML как целиком, так и со встроенными ресурсами, включая изображения. Процедура преобразования аналогична процедуре преобразования PDF в другие форматы для общих случаев, таких как загрузка исходного документа и вызов метода Save с выходным путем к файлу HTML и SaveFormat.Html в качестве параметров. В случае сохранения со встроенными ресурсами существует класс HTMLSaveOptions с несколькими опциями, такими как сохранение изображений в определенную папку во время преобразования, разделение полученного HTML на несколько страниц и многое другое.

PDF to HTML PDF to TEXT PDF to SVG

Преобразование PDF в изображения

Пример: код C# для преобразования PDF в изображения

import aspose.pdf as ap

input_pdf = DIR_INPUT + "many_pages.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_jpeg"
imageStream = io.FileIO(output_pdf + "_page_1_out.jpeg", "x")

// Загрузить документ
document = ap.Document(input_pdf)

// Создать объект «Разрешение»
resolution = ap.devices.Resolution(300)

// Создать устройство Image с заданными атрибутами
// Ширина, высота, разрешение
device = ap.devices.JpegDevice(resolution)
// Для BMP, PNG, TIFF это будет устройство BMP, устройство PNG, устройство TIFF соответственно

// Преобразование определенной страницы и сохранение изображения в потоковом режиме
device.process(document.pages[i + 1], imageStream)

// Закрыть стрим
imageStream.close()

Преобразование страниц PDF в изображения, включая PNG, JPEG, TIFF, BMP и т. д., легко в приложениях на базе файла.NET с помощью приведенных ниже фрагментов кода. Разработчики могут просматривать страницы PDF после загрузки файла и преобразовывать страницу за страницей в требуемый формат изображения. Разработчики могут устанавливать горизонтальное и вертикальное разрешение изображений с помощью Класс разрешения

PDF to TIFF PDF to PNG PDF to GIF