Konvertierung von PDF-Dokumenten über Python for .NET

Exportieren von PDF-Dateien in Microsoft Office® Word-, Excel-, PowerPoint-Präsentationen, Bilder, HTML- und Formate mit festem Layout

Überschau

Es gibt nur wenige Fälle, in denen andere Dokumente als PDF bearbeitet werden müssen, während die Analysedaten in PDF-Formaten verfügbar sind. Für solche Anwendungen gibt es also zwei Szenarien: Entweder fügen sie die Funktionalität des PDF-Parsing innerhalb ihrer eigenen Lösung hinzu oder fügen die PDF-Konvertierungsfunktion hinzu, um Daten in unterstützten Formaten zu bearbeiten. Für das zweite Szenario zum Konvertieren von PDF in Word, Excel, HTML, Bilder oder ein anderes benötigtes Format ist die Implementierung von C# PDF-Reader und -Konverter -Code innerhalb von .NET einfach. Wir diskutieren hier einige Fälle, damit Programmierer diese Konvertierungscode-Snippets nach ihren Anforderungen ändern können.

Konvertierung von PDF zu Microsoft Word 2003-2019

Beispiel: C#-Code für die Konvertierung von PDF in Word

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc.doc"

// Laden Sie die Quell-PDF-Datei
document = ap.Document(input_pdf)

// Speichern mit Speicheroptionen
// DocSaveOptions-Objekt erstellen
 save_options = ap.DocSaveOptions()
save_options.format = ap.DocSaveOptions.DocFormat.DOCX

// Stellen Sie den Erkennungsmodus ein, da Flow den Modus Vollständiger
save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW

// Andere zwei Modi sind RecognitionMode.TextBox und RecognitionMode.EnhancedFlow

// Stellen Sie die horizontale Nähe auf 2,5 ein
save_options.relative_horizontal_proximity = 2.5

// Aktivieren Sie den Wert, um Aufzählungszeichen während des Konvertierungsprozesses
save_options.recognize_bullets = True

// Speichern Sie die resultierende DOC-Datei
document.save(output_pdf, save_options)

Die Bibliothek Aspose.PDF for .NET unterstützt alle PDF-zu-Word-Konvertierungen. Falls wir nur Microsoft Word-Dokumente ohne spezielle Einstellungen konvertieren, laden wir die PDF-Datei einfach mit der Save-Methode aus der Document-Klasse und verwenden bei der Ausgabe den Word-Dokumentpfad und SaveFormat als Parameter. Für die Sonderfälle, in denen der Linienabstand, die Bildauflösung und weitere Einstellungen verbessert werden müssen, verfügt die API über die DocSaveOptions-Klasse, die all diese Einstellungen verfügbar macht.

Speichern Sie PDF als Excel-Dateien

Speichern Sie PDF als Excel-Dateien

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_excel.xlsx"
// PDF-Dokument laden
document = ap.Document(input_pdf)
// ExcelSaveOptions initialisieren
save_option = ap.ExcelSaveOptions()
// Setzen Sie das Excel-XLSX-Ausgabeformat
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
// Minimierung der Anzahl von Arbeitsblättern
save_option.minimize_the_number_of_worksheets = True
// PDF in Excel-Ausgabedatei konvertieren
document.save(output_pdf, save_option)

Spezialisierte SaveFormat.Excel -Enumeration zum Speichern von PDF in bestimmten Microsoft Excel XLS XLSX-Ausgabeformaten verfügbar. Darüber hinaus verfügt .NET PDF Library auch über eine spezielle ExcelSaveOptions-Klasse, die nicht nur das Speichern in Excel-Formaten behandelt, sondern auch verschiedene Funktionen und Eigenschaften zum Festlegen verschiedener Attribute wie exaktes Ausgabeformat, Minimierung bietet Anzahl der Arbeitsblätter und mehr.

PDF in PowerPoint-Präsentationen konvertieren

Beispiel: Konvertierung von C#-Code von PDF in PowerPoint

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_pptx.pptx
// PDF-Dokument laden
document = ap.Document(input_pdf)
save_option = ap.PptxSaveOptions()
save_option.slides_as_images = True
// Ausgabedatei speichern
document.save(output_pdf, save_option)

Die .NET PDF-API unterstützt die Konvertierung von PDF-Seiten in PowerPoint-Präsentationsfolien mit auswählbarem Text oder Bildern, indem Folien als Bilder gerendert werden. Das Muster zum Speichern des Portable Document Format in PowerPoint ist fast dasselbe. Laden Sie die Datei mithilfe der Document-Klasse und rufen Sie dann die Save-Methode mit dem Ausgabedateipfad und SaveFormat als Parameter auf. Beim Rendern mit speziellen Darstellungsoptionen können Programmierer PptxSaveOptions-Klasse mit allen relevanten spezifischen Rendering-Optionen verwenden. Aufruf der save-Methode und Übergabe der Optionen als Parameter.

Konvertierung von PDF in HTML im tragbaren Dokumentformat

Beispiel: C#-Code für die Konvertierung von PDF in HTML

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_html.html"

// Quell-PDF-Dokument laden
document = ap.Document(input_pdf)

// Objekt HTML-Speicheroptionen instanziieren
save_options = ap.HtmlSaveOptions()

// Option zum Einbetten aller Ressourcen in den HTML-Code aktivieren
save_options.parts_embedding_mode = ap.HtmlSaveOptions.PartsEmbeddingModes.EMBED_ALL_INTO_HTML

// Festlegen des separaten Ordners für PDF zu HTML mit Bildern
save_options.special_folder_for_all_images = "ImagesFolder"

// Festlegen der Aufteilungsoption für den resultierenden HTML-Code in mehrere Seiten
save_options.split_into_pages = True

document.save(output_pdf, save_options)

Die PDF Parsing Library unterstützt das Speichern von PDF in HTML als Ganzes sowie mit eingebetteten Ressourcen, einschließlich Bildern. Die Prozedur der Konvertierung ist dieselbe wie bei PDF in andere Formate für allgemeine Fälle, wie das Laden des Quelldokuments und das Aufrufen der Methode Save mit dem Ausgabepfad der HTML-Datei und SaveFormat.Html als Parameter. Beim Speichern mit eingebetteten Ressourcen gibt es eine HtmlSaveOptions-Klasse, die mehrere Optionen bietet, z. B. das Speichern von Bildern in einem bestimmten Ordner während der Konvertierung, das Aufteilen des resultierenden HTML-Codes in mehrere Seiten und mehr.

PDF in Bilder konvertieren

Beispiel: C#-Code für die Konvertierung von PDF in Bilder

import aspose.pdf as ap

input_pdf = DIR_INPUT + "many_pages.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_jpeg"
imageStream = io.FileIO(output_pdf + "_page_1_out.jpeg", "x")

// Dokument laden
document = ap.Document(input_pdf)

// Resolution-Objekt erstellen
resolution = ap.devices.Resolution(300)

// Image-Gerät mit angegebenen Attributen erstellen
// Breite, Höhe, Auflösung
device = ap.devices.JpegDevice(resolution)
// Für BMP, PNG, TIFF ist es bmpDevice, PNGDevice, TIFFDevice bzw

// Eine bestimmte Seite konvertieren und das Bild zum Streamen speichern
device.process(document.pages[i + 1], imageStream)

// Stream schließen
imageStream.close()

Das Konvertieren von PDF-Seiten in Bilder wie PNG, JPEG, TIFF, BMP usw. ist in .NET-basierten Anwendungen mithilfe der unten aufgeführten Codefragmente einfach. Entwickler können nach dem Laden der Datei PDF-Seiten durchlaufen und Seite für Seite in das gewünschte Bildformat konvertieren. Entwickler können die horizontale und vertikale Auflösung von Bildern mithilfe der Auflösungsklasse festlegen