Conversion de documents PDF via .NET

Exportez des fichiers PDF vers Microsoft Office® Word, Excel, présentations PowerPoint, Images, HTML et formats à mise en page fixe

Aperçu

Il existe peu de cas où il est nécessaire de manipuler des documents autres que PDF tout en ayant les données d’analyse disponibles au format PDF. Ainsi, pour de telles applications, il y aura deux scénarios : soit ajouter la fonctionnalité d’analyse PDF dans leur propre solution, soit ajouter la fonctionnalité de conversion PDF pour manipuler les données dans les formats pris en charge. Pour le second scénario qui consiste à convertir un PDF en Word, Excel, HTML, Images ou tout autre format requis, l’implémentation du codeC# PDF reader and converter dans .NET est simple. Nous discutons ici de quelques cas afin que les programmeurs puissent modifier ces extraits de code de conversion selon leurs besoins.

Conversion de PDF vers Microsoft Word 2003-2019

Exemple : Code C# pour la conversion de PDF en Word

// Chargez le fichier PDF source
Document pdfFile = new Document("Source-PDF-File.pdf");

// Pour une simple conversion PDF en Word

// pdfFile.Save("PDF-To-Word.doc", SaveFormat.Doc);

// Enregistrer en utilisant les options d'enregistrement
// Créer un objet DocSaveOptions
DocSaveOptions saveOpts = new DocSaveOptions();

// Définissez le mode de reconnaissance comme Flow signifie Mode de reconnaissance complète
saveOpts.Mode = DocSaveOptions.RecognitionMode.Flow;

// Les deux autres modes sont RecognitionMode.TextBox et RecognitionMode.EnhancedFlow

// Réglez la proximité horizontale sur 2,5
saveOpts.RelativeHorizontalProximity = 2.5f;

// Activer la valeur pour reconnaître les puces pendant le processus de conversion
saveOpts.RecognizeBullets = true;

// Enregistrer le fichier DOC résultant
pdfFile.Save("PDF-To-Word.doc", saveOpts);

La bibliothèque Aspose.PDF pour .NET prend en charge toutes les conversions de PDF vers Word. Dans le cas où nous convertissons simplement des documents Microsoft Word sans paramètres spéciaux, nous chargeons simplement le fichier PDF en utilisant la méthode Save de la classe Document et utiliserons le chemin du document Word en sortie et le SaveFormat comme paramètres. Pour les cas particuliers où il est nécessaire d’améliorer la distance des lignes, la résolution de l’image et d’autres paramètres, l’API dispose de la classe DocSaveOptions qui expose tous ces paramètres.

Enregistrer le PDF en tant que fichiers Excel

Enregistrer le PDF en tant que fichiers Excel

// Charger un document PDF
Document pdfDoc = new Document("sample-file.pdf");
// Initialiser ExcelSaveOptions
ExcelSaveOptions opts = new ExcelSaveOptions();
// Définir le format Excel XLSX de sortie
opts.Format = ExcelSaveOptions.ExcelFormat.XLSX;
// Réduire le nombre de feuilles de calcul
opts.MinimizeTheNumberOfWorksheets = true;
// Convertir un PDF en fichier de sortie Excel
pdfDoc.Save("pdf-to-excel-output.xlsx", opts);

SaveFormat.Excel Énumération spécialisée disponible pour l’enregistrement de PDF dans des formats de sortie Microsoft Excel XLS XLSX spécifiques. De plus, .NET PDF Library possède également une classe ExcelSaveOptions spécifique qui traite non seulement de l’enregistrement aux formats Excel, mais fournit également différentes fonctions et propriétés pour définir différents attributs tels que le format de sortie exact, minimiser nombre de feuilles de calcul et plus encore.

Convertir des fichiers PDF en présentations PowerPoint

Exemple : conversion de code C# PDF en PowerPoint

// Charger un document PDF
Document pdfDocument = new Document("document.pdf");
PptxSaveOptions pptxOptions = new PptxSaveOptions();
pptxOptions.SlidesAsImages = true;
// Enregistrer le fichier de sortie
pdfDocument.Save("PDF to PPT.ppt", pptxOptions);

L’API .NET PDF prend en charge la conversion de pages PDF en diapositives de présentation PowerPoint avec du texte ou des images sélectionnables en affichant les diapositives sous forme d’images. Le modèle d’enregistrement du format de document portable dans PowerPoint est presque le même : chargement du fichier à l’aide de la classe Document, puis appel de la méthode Save avec le chemin du fichier de sortie et SaveFormat comme paramètres. En cas de rendu avec des options de présentation spéciales, les programmeurs peuvent utiliser classe PPTXSaveOptions avec toutes les options de rendu spécifiques pertinentes. Appel de la méthode save et transmission des options en paramètre.

Conversion PDF en HTML au format de document portable

Exemple : Code C# pour la conversion de PDF en HTML

// Charger le document PDF source
Document doc = new Document("source-input-file.pdf");

// Instanciate HTML Save options objet
HtmlSaveOptions conversionOptions = new HtmlSaveOptions();

// Activation de l'option pour intégrer toutes les ressources dans le code HTML
conversionOptions.PartsEmbeddingMode = HtmlSaveOptions.PartsEmbeddingModes.EmbedAllIntoHtml;

// Spécification du dossier séparé pour PDF en HTML avec images
conversionOptions.SpecialFolderForAllImages = "ImagesFolder";

// Spécification de l'option de fractionnement du code HTML résultant en plusieurs pages
conversionOptions.SplitIntoPages = true;

doc.Save("converted-pdf-to.html", conversionOptions);

PDF Parsing Library prend en charge l’enregistrement de PDF au format HTML dans son ensemble ainsi qu’avec des ressources intégrées, y compris des images. La procédure de conversion est identique à celle du PDF vers d’autres formats pour les cas génériques, comme le chargement du document source et l’appel de la méthode Save avec le chemin du fichier HTML de sortie et SaveFormat.Html comme paramètres. En cas d’enregistrement avec des ressources intégrées, il existe une classe HTMLSaveOptions ayant plusieurs options telles que l’enregistrement des images dans un dossier spécifique pendant la conversion, la division du code HTML résultant en plusieurs pages, etc.

Convertir un PDF en images

Exemple : Code C# pour la conversion de PDF en images

// Charger le document
Document srcFile = new Document("pdf-pages-to-image.pdf");

using (FileStream streamObj = new FileStream("pdf-to-image.jpeg", FileMode.Create)){

// Créer un objet Resolution
Resolution resolution = new Resolution(300);

// Créer un périphérique d'image avec des attributs spécifiés
// Largeur, hauteur, résolution
JpegDevice renderToImages = new JpegDevice(500, 700, resolution);
// Pour BMP, PNG, TIFF, ce sera BMPDevice, PNGDevice, TIFFDevice respectivement

// Convertissez une page particulière et enregistrez l'image en streaming
renderToImages.Process(srcFile.Pages[1], streamObj);

// Fermer le flux
streamObj.Close();
}

La conversion de pages PDF en images telles que PNG, JPEG, TIFF, BMP, etc. est facile dans les applications basées sur .NET à l’aide des extraits de code répertoriés ci-dessous. Les développeurs peuvent parcourir les pages PDF en boucle après avoir chargé le fichier et convertir page par page au format d’image requis. Les développeurs peuvent définir la résolution horizontale et verticale des images à l’aide de Classe de résolution