PDF-Formatkonverter über Java

Exportieren von PDF-Dateien in Microsoft Office® Word-, Excel-, PowerPoint-Präsentationen, Bilder, HTML- und Formate mit festem Layout

Überschau

Es gibt nur wenige Fälle, in denen andere Dokumente als PDF bearbeitet werden müssen, während die Analysedaten in PDF-Formaten verfügbar sind. Für solche Anwendungen gibt es also zwei Szenarien: Entweder fügen sie die Funktionalität des PDF-Parsing innerhalb ihrer eigenen Lösung hinzu oder fügen die PDF-Konvertierungsfunktion hinzu, um Daten in unterstützten Formaten zu bearbeiten. Für das zweite Szenario zum Konvertieren von PDF in Word, Excel, HTML, Bilder oder ein anderes benötigtes Format ist die Implementierung von C# PDF-Reader und -Konverter -Code innerhalb von .NET einfach. Wir diskutieren hier einige Fälle, damit Programmierer diese Konvertierungscode-Snippets nach ihren Anforderungen ändern können.

Konvertierung von PDF zu Microsoft Word 2003-2019

Beispiel: C#-Code für die Konvertierung von PDF in Word

// Laden Sie die Quell-PDF-Datei
Document pdfFile = new Document("Source-PDF-File.pdf");

// Speichern mit Speicheroptionen
// DocSaveOptions-Objekt erstellen
DocSaveOptions saveOptions = new DocSaveOptions();

// Stellen Sie den Erkennungsmodus ein, da Flow den Modus Vollständiger
saveOptions.setMode(DocSaveOptions.RecognitionMode.Flow);

// Andere zwei Modi sind RecognitionMode.TextBox und RecognitionMode.EnhancedFlow

// Stellen Sie die horizontale Nähe auf 2,5 ein
saveOptions.setRelativeHorizontalProximity(2.5f);

// Aktivieren Sie den Wert, um Aufzählungszeichen während des Konvertierungsprozesses
saveOptions.setRecognizeBullets(true);

// Speichern Sie die resultierende DOC-Datei
pdfDocument.save(docFile.toString(), saveOptions);

Die Bibliothek Aspose.PDF for .NET unterstützt alle PDF-zu-Word-Konvertierungen. Falls wir nur Microsoft Word-Dokumente ohne spezielle Einstellungen konvertieren, laden wir die PDF-Datei einfach mit der Save-Methode aus der Document-Klasse und verwenden bei der Ausgabe den Word-Dokumentpfad und SaveFormat als Parameter. Für die Sonderfälle, in denen der Linienabstand, die Bildauflösung und weitere Einstellungen verbessert werden müssen, verfügt die API über die DocSaveOptions-Klasse, die all diese Einstellungen verfügbar macht.

Speichern Sie PDF als Excel-Dateien

Speichern Sie PDF als Excel-Dateien

// PDF-Dokument laden
Document pdfDoc = new Document("sample-file.pdf");
// ExcelSaveOptions initialisieren
ExcelSaveOptions excelSave = new ExcelSaveOptions();
// Setzen Sie das Excel-XLSX-Ausgabeformat
excelSave.setFormat(ExcelSaveOptions.ExcelFormat.XLSX);
// Minimierung der Anzahl von Arbeitsblättern
excelsave.setMinimizeTheNumberOfWorksheets(true);
// PDF in Excel-Ausgabedatei konvertieren
pdfDoc.Save("pdf-to-excel-output.xlsx", excelSave);

Spezialisierte SaveFormat.Excel -Enumeration zum Speichern von PDF in bestimmten Microsoft Excel XLS XLSX-Ausgabeformaten verfügbar. Darüber hinaus verfügt .NET PDF Library auch über eine spezielle ExcelSaveOptions-Klasse, die nicht nur das Speichern in Excel-Formaten behandelt, sondern auch verschiedene Funktionen und Eigenschaften zum Festlegen verschiedener Attribute wie exaktes Ausgabeformat, Minimierung bietet Anzahl der Arbeitsblätter und mehr.

PDF in PowerPoint-Präsentationen konvertieren

Beispiel: Konvertierung von C#-Code von PDF in PowerPoint

// PDF-Dokument laden
Document pdfDocument = new Document("document.pdf");
PptxSaveOptions pptxOptions = new PptxSaveOptions();
pptxOptions.setSlidesAsImages(true);
// Ausgabedatei speichern
pdfDocument.save("PDF to PPT.pptx", pptxOptions);

Die .NET PDF-API unterstützt die Konvertierung von PDF-Seiten in PowerPoint-Präsentationsfolien mit auswählbarem Text oder Bildern, indem Folien als Bilder gerendert werden. Das Muster zum Speichern des Portable Document Format in PowerPoint ist fast dasselbe. Laden Sie die Datei mithilfe der Document-Klasse und rufen Sie dann die Save-Methode mit dem Ausgabedateipfad und SaveFormat als Parameter auf. Beim Rendern mit speziellen Darstellungsoptionen können Programmierer PptxSaveOptions-Klasse mit allen relevanten spezifischen Rendering-Optionen verwenden. Aufruf der save-Methode und Übergabe der Optionen als Parameter.

Konvertierung von PDF in HTML im tragbaren Dokumentformat

Beispiel: C#-Code für die Konvertierung von PDF in HTML

// Quell-PDF-Dokument laden
Document doc = new Document("source-input-file.pdf");

// Objekt „HTML-Speicheroptionen“ instanziieren
HtmlSaveOptions conversionOptions = new HtmlSaveOptions();

// Option zum Einbetten aller Ressourcen in den HTML-Code aktivieren
conversionOptions.PartsEmbeddingMode = HtmlSaveOptions.PartsEmbeddingModes.EmbedAllIntoHtml;

// Festlegen des separaten Ordners für PDF zu HTML mit Bildern
conversionOptions.SpecialFolderForAllImages = "ImagesFolder";

// Festlegen der Aufteilungsoption für den resultierenden HTML-Code in mehrere Seiten
conversionOptions.setSplitIntoPages(true);

doc.save("converted-pdf-to.html", conversionOptions);

Die PDF Parsing Library unterstützt das Speichern von PDF in HTML als Ganzes sowie mit eingebetteten Ressourcen, einschließlich Bildern. Die Prozedur der Konvertierung ist dieselbe wie bei PDF in andere Formate für allgemeine Fälle, wie das Laden des Quelldokuments und das Aufrufen der Methode Save mit dem Ausgabepfad der HTML-Datei und SaveFormat.Html als Parameter. Beim Speichern mit eingebetteten Ressourcen gibt es eine HtmlSaveOptions-Klasse, die mehrere Optionen bietet, z. B. das Speichern von Bildern in einem bestimmten Ordner während der Konvertierung, das Aufteilen des resultierenden HTML-Codes in mehrere Seiten und mehr.

PDF in Bilder konvertieren

Beispiel: C#-Code für die Konvertierung von PDF in Bilder

// Dokument laden
Document srcFile = new Document("pdf-pages-to-image.pdf");

java.io.OutputStream outputBinImageFile = new java.io.FileOutputStream(
                    _dataDir + "image" + pageCount + "_out." + ext);

// Resolution-Objekt erstellen
Resolution resolution = new Resolution(300);

// Image-Gerät mit angegebenen Attributen erstellen
// Breite, Höhe, Auflösung
JpegDevice renderToImages = new JpegDevice(500, 700, resolution);
// Für BMP, PNG, TIFF ist es bmpDevice, PNGDevice, TIFFDevice bzw

// Eine bestimmte Seite konvertieren und das Bild zum Streamen speichern
renderToImages.Process(srcFile.Pages[1], outputBinImageFile);

// Stream schließen
outputBinImageFile.Close();

Das Konvertieren von PDF-Seiten in Bilder wie PNG, JPEG, TIFF, BMP usw. ist in .NET-basierten Anwendungen mithilfe der unten aufgeführten Codefragmente einfach. Entwickler können nach dem Laden der Datei PDF-Seiten durchlaufen und Seite für Seite in das gewünschte Bildformat konvertieren. Entwickler können die horizontale und vertikale Auflösung von Bildern mithilfe der Auflösungsklasse festlegen