Конвертер формата PDF с помощью программы Aspose.PDF для .NET

Экспорт PDF в Microsoft Office® Word, Excel, презентации PowerPoint, изображения, HTML и форматы с фиксированным макетом

Обзор

В редких случаях возникает необходимость манипулировать документами, отличными от PDF, при этом данные синтаксического анализа доступны в форматах PDF. Таким образом, для таких приложений будет два сценария: либо они добавят функциональность синтаксического анализа PDF в свое собственное решение, либо добавят функцию преобразования PDF для обработки данных в поддерживаемых форматах. Во втором сценарии, позволяющем конвертировать PDF в Word, Excel, HTML, изображения или любой другой необходимый формат, достаточно просто внедрить PDF-читалку и конвертерC# PDF-код на базе.NET. Здесь мы рассмотрим несколько случаев, чтобы программисты могли изменять эти фрагменты кода преобразования в соответствии со своими требованиями.

Преобразование PDF в Microsoft Word 2003-2019 гг.

Пример: код C# для преобразования PDF в Word

// Загрузите исходный PDF-файл
Document pdfFile = new Document("Source-PDF-File.pdf");

// Для простого преобразования PDF в Word

// pdfFile.Save("PDF-To-Word.doc", SaveFormat.Doc);

// Сохранить с помощью опций сохранения
// Создать объект DocSaveOptions
DocSaveOptions saveOpts = new DocSaveOptions();

// Установите режим распознавания следующим образом: Flow означает режим полного распознавания
saveOpts.Mode = DocSaveOptions.RecognitionMode.Flow;

// Два других режима — режим распознавания.TextBox и режим распознавания.EnhancedFlow

// Установите горизонтальную близость как 2,5
saveOpts.RelativeHorizontalProximity = 2.5f;

// Включите значение для распознавания маркеров во время процесса преобразования
saveOpts.RecognizeBullets = true;

// Сохраните полученный файл DOC
pdfFile.Save("PDF-To-Word.doc", saveOpts);

Библиотека Aspose.PDF для .NET поддерживает все преобразования PDF в Word. Если мы просто конвертируем документы Microsoft Word без каких-либо специальных настроек, мы просто загружаем PDF-файл методом Save из класса Document и будем использовать путь к выходному документу Word и SaveFormat в качестве параметров. Для особых случаев, когда необходимо увеличить расстояние между линиями, разрешение изображения и другие настройки, в API есть класс DocSaveOptions, который предоставляет все такие настройки.

Сохранить PDF в виде файлов Excel

Сохранить PDF в виде файлов Excel

// Загрузить PDF-документ
Document pdfDoc = new Document("sample-file.pdf");
// Инициализируйте параметры сохранения Excel
ExcelSaveOptions opts = new ExcelSaveOptions();
// Установите выходной формат Excel XLSX
opts.Format = ExcelSaveOptions.ExcelFormat.XLSX;
// Минимизируйте количество рабочих листов
opts.MinimizeTheNumberOfWorksheets = true;
// Конвертируйте PDF в выходной файл Excel
pdfDoc.Save("pdf-to-excel-output.xlsx", opts);

Доступно специализированное перечисление SaveFormat.excel для сохранения PDF в определенных выходных форматах Microsoft Excel XLS XLSX. Кроме того, в библиотеке**.NET PDF Library** также есть специальный класс ExcelSaveOptions, который не только обеспечивает сохранение в форматах Excel, но и предоставляет различные функции и свойства для настройки различных атрибутов, таких как точный формат вывода, минимизация количества рабочих листов и многое другое.

Конвертируйте PDF в презентации PowerPoint

Пример: преобразование кода C# из PDF в PowerPoint

// Загрузить PDF-документ
Document pdfDocument = new Document("document.pdf");
PptxSaveOptions pptxOptions = new PptxSaveOptions();
pptxOptions.SlidesAsImages = true;
// Сохранить выходной файл
pdfDocument.Save("PDF to PPT.ppt", pptxOptions);

.NET PDF API поддерживает преобразование страниц PDF в слайды презентаций PowerPoint с выбираемым текстом или изображениями путем визуализации слайдов в виде изображений. Схема сохранения формата переносимых документов в PowerPoint почти такая же: загрузка файла с использованием класса Document и последующий вызов метода Save с указанием пути к выходному файлу и SaveFormat в качестве параметров. В случае рендеринга со специальными параметрами презентации программисты могут использовать класс pptxSaveOptions с любыми соответствующими специальными опциями рендеринга. Вызов метода save и передача опций в качестве параметра.

Конвертация портативных документов PDF в HTML

Пример: код C# для преобразования PDF в HTML

// Загрузить исходный PDF-документ
Document doc = new Document("source-input-file.pdf");

// Создать экземпляр объекта «Параметры сохранения» в формате HTML
HtmlSaveOptions conversionOptions = new HtmlSaveOptions();

// Включение опции встраивания всех ресурсов в HTML
conversionOptions.PartsEmbeddingMode = HtmlSaveOptions.PartsEmbeddingModes.EmbedAllIntoHtml;

// Указание отдельной папки для PDF-HTML с изображениями
conversionOptions.SpecialFolderForAllImages = "ImagesFolder";

// Указание опции разделения полученного HTML-кода на несколько страниц
conversionOptions.SplitIntoPages = true;

doc.Save("converted-pdf-to.html", conversionOptions);

Библиотека парсинга PDF поддерживает сохранение PDF в формате HTML целиком, а также со встроенными ресурсами, включая изображения. Процедура преобразования аналогична процедуре преобразования PDF в другие форматы для стандартных случаев, таких как загрузка исходного документа и вызов метода Save с указанием пути к выходному HTML-файлу и SaveFormat.Html в качестве параметров. В случае сохранения с помощью встроенных ресурсов существует класс HTMLSaveOptions с несколькими опциями, такими как сохранение изображений в определенной папке во время преобразования, разделение полученного HTML-кода на несколько страниц и многое другое.

Конвертируйте PDF в изображения

Пример: код C# для преобразования PDF в изображения

// Загрузить документ
Document srcFile = new Document("pdf-pages-to-image.pdf");

using (FileStream streamObj = new FileStream("pdf-to-image.jpeg", FileMode.Create)){

// Создать объект Resolution
Resolution resolution = new Resolution(300);

// Создать устройство Image с заданными атрибутами
// Ширина, высота, разрешение
JpegDevice renderToImages = new JpegDevice(500, 700, resolution);
// Для BMP, PNG, TIFF это будет устройство BMP, устройство PNG, устройство TIFF соответственно

// Преобразуйте определенную страницу и сохраните изображение для потоковой передачи
renderToImages.Process(srcFile.Pages[1], streamObj);

// Закрыть трансляцию
streamObj.Close();
}

Конвертировать страницы PDF в изображения, включая PNG, JPEG, TIFF, BMP и т. д., легко в приложениях на основе платформы.NET с использованием приведенных ниже фрагментов кода. Разработчики могут просматривать страницы PDF после загрузки файла и преобразовывать страницу за страницей в необходимый формат изображения. Разработчики могут устанавливать горизонтальное и вертикальное разрешение изображений, используя Класс разрешения