Convertisseur de format PDF via Python for .NET

Exportez des fichiers PDF vers Microsoft Office® Word, Excel, présentations PowerPoint, Images, HTML et formats à mise en page fixe

Aperçu

Il existe peu de cas où il est nécessaire de manipuler des documents autres que PDF tout en ayant les données d’analyse disponibles au format PDF. Ainsi, pour de telles applications, il y aura deux scénarios : soit ajouter la fonctionnalité d’analyse PDF dans leur propre solution, soit ajouter la fonctionnalité de conversion PDF pour manipuler les données dans les formats pris en charge. Pour le second scénario qui consiste à convertir un PDF en Word, Excel, HTML, Images ou tout autre format requis, l’implémentation du codeC# PDF reader and converter dans .NET est simple. Nous discutons ici de quelques cas afin que les programmeurs puissent modifier ces extraits de code de conversion selon leurs besoins.

Conversion de PDF vers Microsoft Word 2003-2019

Exemple : Code C# pour la conversion de PDF en Word

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc.doc"

// Chargez le fichier PDF source
document = ap.Document(input_pdf)

// Enregistrer en utilisant les options d'enregistrement
// Créer un objet DocSaveOptions
 save_options = ap.DocSaveOptions()
save_options.format = ap.DocSaveOptions.DocFormat.DOCX

// Définissez le mode de reconnaissance comme Flow signifie Mode de reconnaissance complète
save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW

// Les deux autres modes sont RecognitionMode.TextBox et RecognitionMode.EnhancedFlow

// Réglez la proximité horizontale sur 2,5
save_options.relative_horizontal_proximity = 2.5

// Activer la valeur pour reconnaître les puces pendant le processus de conversion
save_options.recognize_bullets = True

// Enregistrer le fichier DOC résultant
document.save(output_pdf, save_options)

La bibliothèque Aspose.PDF pour .NET prend en charge toutes les conversions de PDF vers Word. Dans le cas où nous convertissons simplement des documents Microsoft Word sans paramètres spéciaux, nous chargeons simplement le fichier PDF en utilisant la méthode Save de la classe Document et utiliserons le chemin du document Word en sortie et le SaveFormat comme paramètres. Pour les cas particuliers où il est nécessaire d’améliorer la distance des lignes, la résolution de l’image et d’autres paramètres, l’API dispose de la classe DocSaveOptions qui expose tous ces paramètres.

Enregistrer le PDF en tant que fichiers Excel

Enregistrer le PDF en tant que fichiers Excel

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_excel.xlsx"
// Charger un document PDF
document = ap.Document(input_pdf)
// Initialiser ExcelSaveOptions
save_option = ap.ExcelSaveOptions()
// Définir le format Excel XLSX de sortie
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
// Réduire le nombre de feuilles de calcul
save_option.minimize_the_number_of_worksheets = True
// Convertir un PDF en fichier de sortie Excel
document.save(output_pdf, save_option)

SaveFormat.Excel Énumération spécialisée disponible pour l’enregistrement de PDF dans des formats de sortie Microsoft Excel XLS XLSX spécifiques. De plus, .NET PDF Library possède également une classe ExcelSaveOptions spécifique qui traite non seulement de l’enregistrement aux formats Excel, mais fournit également différentes fonctions et propriétés pour définir différents attributs tels que le format de sortie exact, minimiser nombre de feuilles de calcul et plus encore.

Convertir des fichiers PDF en présentations PowerPoint

Exemple : conversion de code C# PDF en PowerPoint

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_pptx.pptx
// Charger un document PDF
document = ap.Document(input_pdf)
save_option = ap.PptxSaveOptions()
save_option.slides_as_images = True
// Enregistrer le fichier de sortie
document.save(output_pdf, save_option)

L’API .NET PDF prend en charge la conversion de pages PDF en diapositives de présentation PowerPoint avec du texte ou des images sélectionnables en affichant les diapositives sous forme d’images. Le modèle d’enregistrement du format de document portable dans PowerPoint est presque le même : chargement du fichier à l’aide de la classe Document, puis appel de la méthode Save avec le chemin du fichier de sortie et SaveFormat comme paramètres. En cas de rendu avec des options de présentation spéciales, les programmeurs peuvent utiliser classe PPTXSaveOptions avec toutes les options de rendu spécifiques pertinentes. Appel de la méthode save et transmission des options en paramètre.

Conversion PDF en HTML au format de document portable

Exemple : Code C# pour la conversion de PDF en HTML

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_html.html"

// Charger le document PDF source
document = ap.Document(input_pdf)

// Instanciate HTML Save options objet
save_options = ap.HtmlSaveOptions()

// Activation de l'option pour intégrer toutes les ressources dans le code HTML
save_options.parts_embedding_mode = ap.HtmlSaveOptions.PartsEmbeddingModes.EMBED_ALL_INTO_HTML

// Spécification du dossier séparé pour PDF en HTML avec images
save_options.special_folder_for_all_images = "ImagesFolder"

// Spécification de l'option de fractionnement du code HTML résultant en plusieurs pages
save_options.split_into_pages = True

document.save(output_pdf, save_options)

PDF Parsing Library prend en charge l’enregistrement de PDF au format HTML dans son ensemble ainsi qu’avec des ressources intégrées, y compris des images. La procédure de conversion est identique à celle du PDF vers d’autres formats pour les cas génériques, comme le chargement du document source et l’appel de la méthode Save avec le chemin du fichier HTML de sortie et SaveFormat.Html comme paramètres. En cas d’enregistrement avec des ressources intégrées, il existe une classe HTMLSaveOptions ayant plusieurs options telles que l’enregistrement des images dans un dossier spécifique pendant la conversion, la division du code HTML résultant en plusieurs pages, etc.

Convertir un PDF en images

Exemple : Code C# pour la conversion de PDF en images

import aspose.pdf as ap

input_pdf = DIR_INPUT + "many_pages.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_jpeg"
imageStream = io.FileIO(output_pdf + "_page_1_out.jpeg", "x")

// Charger le document
document = ap.Document(input_pdf)

// Créer un objet Resolution
resolution = ap.devices.Resolution(300)

// Créer un périphérique d'image avec des attributs spécifiés
// Largeur, hauteur, résolution
device = ap.devices.JpegDevice(resolution)
// Pour BMP, PNG, TIFF, ce sera BMPDevice, PNGDevice, TIFFDevice respectivement

// Convertissez une page particulière et enregistrez l'image en streaming
device.process(document.pages[i + 1], imageStream)

// Fermer le flux
imageStream.close()

La conversion de pages PDF en images telles que PNG, JPEG, TIFF, BMP, etc. est facile dans les applications basées sur .NET à l’aide des extraits de code répertoriés ci-dessous. Les développeurs peuvent parcourir les pages PDF en boucle après avoir chargé le fichier et convertir page par page au format d’image requis. Les développeurs peuvent définir la résolution horizontale et verticale des images à l’aide de Classe de résolution