Конвертер формата PDF с помощью программы Aspose.PDF для Java

Экспорт PDF в Microsoft Office® Word, Excel, презентации PowerPoint, изображения, HTML и форматы с фиксированным макетом

Обзор

В редких случаях возникает необходимость манипулировать документами, отличными от PDF, при этом данные синтаксического анализа доступны в форматах PDF. Таким образом, для таких приложений будет два сценария: либо они добавят функциональность синтаксического анализа PDF в свое собственное решение, либо добавят функцию преобразования PDF для обработки данных в поддерживаемых форматах. Во втором сценарии, позволяющем конвертировать PDF в Word, Excel, HTML, изображения или любой другой необходимый формат, достаточно просто внедрить PDF-читалку и конвертерC# PDF-код на базе.NET. Здесь мы рассмотрим несколько случаев, чтобы программисты могли изменять эти фрагменты кода преобразования в соответствии со своими требованиями.

Преобразование PDF в Microsoft Word 2003-2019 гг.

Пример: код C# для преобразования PDF в Word

// Загрузите исходный PDF-файл
Document pdfFile = new Document("Source-PDF-File.pdf");

// Сохранить с помощью опций сохранения
// Создать объект DocSaveOptions
DocSaveOptions saveOptions = new DocSaveOptions();

// Установите режим распознавания следующим образом: Flow означает режим полного распознавания
saveOptions.setMode(DocSaveOptions.RecognitionMode.Flow);

// Два других режима — режим распознавания.TextBox и режим распознавания.EnhancedFlow

// Установите горизонтальную близость как 2,5
saveOptions.setRelativeHorizontalProximity(2.5f);

// Включите значение для распознавания маркеров во время процесса преобразования
saveOptions.setRecognizeBullets(true);

// Сохраните полученный файл DOC
pdfDocument.save(docFile.toString(), saveOptions);

Библиотека Aspose.PDF для .NET поддерживает все преобразования PDF в Word. Если мы просто конвертируем документы Microsoft Word без каких-либо специальных настроек, мы просто загружаем PDF-файл методом Save из класса Document и будем использовать путь к выходному документу Word и SaveFormat в качестве параметров. Для особых случаев, когда необходимо увеличить расстояние между линиями, разрешение изображения и другие настройки, в API есть класс DocSaveOptions, который предоставляет все такие настройки.

Сохранить PDF в виде файлов Excel

Сохранить PDF в виде файлов Excel

// Загрузить PDF-документ
Document pdfDoc = new Document("sample-file.pdf");
// Инициализируйте параметры сохранения Excel
ExcelSaveOptions excelSave = new ExcelSaveOptions();
// Установите выходной формат Excel XLSX
excelSave.setFormat(ExcelSaveOptions.ExcelFormat.XLSX);
// Минимизируйте количество рабочих листов
excelsave.setMinimizeTheNumberOfWorksheets(true);
// Конвертируйте PDF в выходной файл Excel
pdfDoc.Save("pdf-to-excel-output.xlsx", excelSave);

Доступно специализированное перечисление SaveFormat.excel для сохранения PDF в определенных выходных форматах Microsoft Excel XLS XLSX. Кроме того, в библиотеке**.NET PDF Library** также есть специальный класс ExcelSaveOptions, который не только обеспечивает сохранение в форматах Excel, но и предоставляет различные функции и свойства для настройки различных атрибутов, таких как точный формат вывода, минимизация количества рабочих листов и многое другое.

Конвертируйте PDF в презентации PowerPoint

Пример: преобразование кода C# из PDF в PowerPoint

// Загрузить PDF-документ
Document pdfDocument = new Document("document.pdf");
PptxSaveOptions pptxOptions = new PptxSaveOptions();
pptxOptions.setSlidesAsImages(true);
// Сохранить выходной файл
pdfDocument.save("PDF to PPT.pptx", pptxOptions);

.NET PDF API поддерживает преобразование страниц PDF в слайды презентаций PowerPoint с выбираемым текстом или изображениями путем визуализации слайдов в виде изображений. Схема сохранения формата переносимых документов в PowerPoint почти такая же: загрузка файла с использованием класса Document и последующий вызов метода Save с указанием пути к выходному файлу и SaveFormat в качестве параметров. В случае рендеринга со специальными параметрами презентации программисты могут использовать класс pptxSaveOptions с любыми соответствующими специальными опциями рендеринга. Вызов метода save и передача опций в качестве параметра.

Конвертация портативных документов PDF в HTML

Пример: код C# для преобразования PDF в HTML

// Загрузить исходный PDF-документ
Document doc = new Document("source-input-file.pdf");

// Создать экземпляр объекта «Параметры сохранения» в формате HTML
HtmlSaveOptions conversionOptions = new HtmlSaveOptions();

// Включение опции встраивания всех ресурсов в HTML
conversionOptions.PartsEmbeddingMode = HtmlSaveOptions.PartsEmbeddingModes.EmbedAllIntoHtml;

// Указание отдельной папки для PDF-HTML с изображениями
conversionOptions.SpecialFolderForAllImages = "ImagesFolder";

// Указание опции разделения полученного HTML-кода на несколько страниц
conversionOptions.setSplitIntoPages(true);

doc.save("converted-pdf-to.html", conversionOptions);

Библиотека парсинга PDF поддерживает сохранение PDF в формате HTML целиком, а также со встроенными ресурсами, включая изображения. Процедура преобразования аналогична процедуре преобразования PDF в другие форматы для стандартных случаев, таких как загрузка исходного документа и вызов метода Save с указанием пути к выходному HTML-файлу и SaveFormat.Html в качестве параметров. В случае сохранения с помощью встроенных ресурсов существует класс HTMLSaveOptions с несколькими опциями, такими как сохранение изображений в определенной папке во время преобразования, разделение полученного HTML-кода на несколько страниц и многое другое.

Конвертируйте PDF в изображения

Пример: код C# для преобразования PDF в изображения

// Загрузить документ
Document srcFile = new Document("pdf-pages-to-image.pdf");

java.io.OutputStream outputBinImageFile = new java.io.FileOutputStream(
                    _dataDir + "image" + pageCount + "_out." + ext);

// Создать объект Resolution
Resolution resolution = new Resolution(300);

// Создать устройство Image с заданными атрибутами
// Ширина, высота, разрешение
JpegDevice renderToImages = new JpegDevice(500, 700, resolution);
// Для BMP, PNG, TIFF это будет устройство BMP, устройство PNG, устройство TIFF соответственно

// Преобразуйте определенную страницу и сохраните изображение для потоковой передачи
renderToImages.Process(srcFile.Pages[1], outputBinImageFile);

// Закрыть трансляцию
outputBinImageFile.Close();

Конвертировать страницы PDF в изображения, включая PNG, JPEG, TIFF, BMP и т. д., легко в приложениях на основе платформы.NET с использованием приведенных ниже фрагментов кода. Разработчики могут просматривать страницы PDF после загрузки файла и преобразовывать страницу за страницей в необходимый формат изображения. Разработчики могут устанавливать горизонтальное и вертикальное разрешение изображений, используя Класс разрешения