Conversor de formato PDF mediante Python for .NET

Exportar PDF a Microsoft Office® Word, Excel, presentaciones de PowerPoint, imágenes, HTML y formatos de diseño fijo

Descripción general

Hay pocos casos en los que es necesario manipular documentos que no sean PDF mientras se tienen los datos de análisis disponibles en formatos PDF. Por lo tanto, para tales aplicaciones, habrá dos escenarios: agregar la funcionalidad de análisis de PDF dentro de su propia solución o agregar la funcionalidad de conversión de PDF para manipular datos a partir de los formatos admitidos. Para el segundo escenario deconvertir PDF a Word, Excel, HTML, imágenes o cualquier formato requerido, implementar el códigoC# PDF reader and converter dentro de .NET es simple. Estamos discutiendo aquí algunos casos para que los programadores puedan modificar estos fragmentos de código de conversión según sus requisitos.

Conversión de PDF a Microsoft Word 2003-2019

Ejemplo: Código C# para la conversión de PDF a Word

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc.doc"

// Cargue el archivo PDF de origen
document = ap.Document(input_pdf)

// Guardar con las opciones de guardado
// Crear objeto DocSaveOptions
 save_options = ap.DocSaveOptions()
save_options.format = ap.DocSaveOptions.DocFormat.DOCX

// Establezca el modo de reconocimiento como Flow significa modo de reconocimiento completo
save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW

// Otros dos modos son RecognitionMode.TextBox y RecognitionMode.EnhancedFlow

// Establezca la Proximidad horizontal como 2.5
save_options.relative_horizontal_proximity = 2.5

// Habilitar el valor para reconocer viñetas durante el proceso de conversión
save_options.recognize_bullets = True

// Guarde el archivo DOC resultante
document.save(output_pdf, save_options)

La biblioteca Aspose.PDF para .NET admite todas las conversiones de PDF a Word. En caso de que solo estemos convirtiendo documentos de Microsoft Word sin ninguna configuración especial, simplemente cargaremos el archivo PDF con el método Save de la clase Document y usaremos la ruta del documento de Word de salida y SaveFormat como parámetros. Para los casos especiales en los que sea necesario mejorar la distancia de las líneas, la resolución de la imagen y más ajustes, la API tiene la clase DocSaveOptions que expone todos esos ajustes.

Guardar PDF como archivos de Excel

Guardar PDF como archivos de Excel

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_excel.xlsx"
// Cargar documento PDF
document = ap.Document(input_pdf)
// Inicializar opciones de guardado de Excel
save_option = ap.ExcelSaveOptions()
// Establecer el formato Excel XLSX de salida
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
// Minimizar el número de hojas de
save_option.minimize_the_number_of_worksheets = True
// Convertir PDF a archivo de salida de Excel
document.save(output_pdf, save_option)

SaveFormat.excel especializado Enumeración disponible para guardar PDF en formatos de salida XLS XLSX específicos de Microsoft Excel. Además, la**.NET PDF Library** también tiene una clase ExcelSaveOptions específica que no solo se ocupa de guardar en formatos de Excel, sino que también proporciona diferentes funciones y propiedades para configurar diferentes atributos, como el formato de salida exacto, minimizar número de hojas de trabajo y más.

Convertir PDF a presentaciones de PowerPoint

Ejemplo: Conversión de PDF a PowerPoint de código C#

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_pptx.pptx
// Cargar documento PDF
document = ap.Document(input_pdf)
save_option = ap.PptxSaveOptions()
save_option.slides_as_images = True
// Guardar el archivo de salida
document.save(output_pdf, save_option)

La API PDF .NET permite convertir páginas PDF en diapositivas de presentación de PowerPoint con texto o imágenes seleccionables al representar las diapositivas como imágenes. El patrón para guardar el formato de documento portátil en PowerPoint es casi el mismo: se carga el archivo mediante la clase Document y, a continuación, se llama al método Save con la ruta del archivo de salida y SaveFormat como parámetros. En el caso de la renderización con opciones de presentación especiales, los programadores pueden usar clase pptxSaveOptions con cualquier opción de renderizado específica relevante. Llamar al método de guardado y pasar las opciones como parámetro.

Conversión de formato de documento portátil PDF a HTML

Ejemplo: Código C# para la conversión de PDF a HTML

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_html.html"

// Cargar documento PDF de origen
document = ap.Document(input_pdf)

// Instanciar objeto de opciones de guardado de HTML
save_options = ap.HtmlSaveOptions()

// Habilitar la opción de incrustar todos los recursos dentro del HTML
save_options.parts_embedding_mode = ap.HtmlSaveOptions.PartsEmbeddingModes.EMBED_ALL_INTO_HTML

// Especificar la carpeta independiente para PDF a HTML con imágenes
save_options.special_folder_for_all_images = "ImagesFolder"

// Especificar la opción de división para el HTML resultante en varias páginas
save_options.split_into_pages = True

document.save(output_pdf, save_options)

La biblioteca de análisis de PDF admite guardar PDF en HTML en su conjunto, así como con recursos incrustados, incluidas imágenes. El procedimiento de conversión es el mismo que el de PDF a otros formatos para casos genéricos, como cargar el documento fuente y llamar al método Save con la ruta del archivo HTML de salida y SaveFormat.Html como parámetros. En caso de guardar con recursos incrustados, hay una clase HTMLSaveOptions que tiene varias opciones, como guardar imágenes en una carpeta específica durante la conversión, dividir el HTML resultante en varias páginas y más.

Convertir PDF a imágenes

Ejemplo: Código C# para la conversión de PDF a imágenes

import aspose.pdf as ap

input_pdf = DIR_INPUT + "many_pages.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_jpeg"
imageStream = io.FileIO(output_pdf + "_page_1_out.jpeg", "x")

// Cargar documento
document = ap.Document(input_pdf)

// Crear objeto Resolución
resolution = ap.devices.Resolution(300)

// Crear dispositivo de imagen con atributos especificados
// Ancho, altura, resolución
device = ap.devices.JpegDevice(resolution)
// Para BMP, PNG, TIFF será BMPDevice, PNGDevice, TiffDevice respectivamente

// Convertir una página en particular y guardar la imagen para transmitirla
device.process(document.pages[i + 1], imageStream)

// Cerrar stream
imageStream.close()

Convertir páginas PDF en imágenes como PNG, JPEG, TIFF, BMP, etc. es fácil dentro de las aplicaciones basadas en.NET utilizando los fragmentos de código que se enumeran a continuación. Los desarrolladores pueden recorrer las páginas PDF después de cargar el archivo y convertir página por página al formato de imagen requerido. Los desarrolladores pueden establecer la resolución horizontal y vertical de las imágenes mediante Clase de resolución