Convertitore di formato PDF tramite Java

Esportazione di PDF in Microsoft Office® Word, Excel, presentazioni PowerPoint, immagini, HTML e formati a layout fisso

Panoramica

Ci sono pochi casi in cui è necessario manipolare documenti diversi dal PDF pur avendo i dati di analisi disponibili nei formati PDF. Quindi per tali applicazioni ci saranno due scenari: aggiungere funzionalità di analisi PDF all’interno della propria soluzione o aggiungere la funzionalità di conversione PDF per manipolare i dati a partire dai formati supportati. Per il secondo scenario di convertire PDF in Word, Excel, HTML, immagini o qualsiasi formato richiesto, implementare il codice C# PDF reader and converter all’interno di.NET è semplice. Stiamo discutendo qui alcuni casi in modo che i programmatori possano modificare questi frammenti di codice di conversione in base alle loro esigenze.

Converti PDF in Word, DOC, DOCX e altri formati

Esempio: codice C# per la conversione da PDF a Word

// Carica il file PDF di origine
Document pdfFile = new Document("Source-PDF-File.pdf");

// Salvare utilizzando le opzioni di salvataggio
// Crea oggetto DocSaveOptions
DocSaveOptions saveOptions = new DocSaveOptions();

// Impostare la modalità di riconoscimento come Flusso significa Modalità di riconoscimento completo
saveOptions.setMode(DocSaveOptions.RecognitionMode.Flow);

// Altre due modalità sono RecognitionMode.TextBox e RecognitionMode.EnhancedFlow

// Impostare la prossimità orizzontale su 2,5
saveOptions.setRelativeHorizontalProximity(2.5f);

// Abilitare il valore per riconoscere i punti elenco durante il processo di conversione
saveOptions.setRecognizeBullets(true);

// Salvare il file DOC risultante
pdfDocument.save(docFile.toString(), saveOptions);

La libreria Aspose.PDF per .NET supporta tutte le conversioni da PDF a Word. Nel caso in cui stiamo solo convertendo documenti Microsoft Word senza impostazioni speciali, carichiamo semplicemente il file PDF utilizzando il metodo Save dalla classe Document e utilizzeremo come parametri come parametri il percorso del documento Word in uscita e SaveFormat. Per i casi speciali in cui è necessario migliorare la distanza delle linee, la risoluzione dell’immagine e altre impostazioni, l’API dispone della classe DocSaveOptions che espone tutte queste impostazioni.

Salva PDF come file Excel

Salva PDF come file Excel

// Carica documento PDF
Document pdfDoc = new Document("sample-file.pdf");
// Inizializza opzioni di salvataggio di Excel
ExcelSaveOptions excelSave = new ExcelSaveOptions();
// Imposta il formato Excel XLSX di output
excelSave.setFormat(ExcelSaveOptions.ExcelFormat.XLSX);
// Ridurre il numero di fogli di lavoro
excelsave.setMinimizeTheNumberOfWorksheets(true);
// Converti PDF in file di output Excel
pdfDoc.Save("pdf-to-excel-output.xlsx", excelSave);

Enumerazione specializzata SaveFormat.excel disponibile per il salvataggio di PDF in specifici formati di output XLS XLSX di Microsoft Excel. Inoltre, .NET PDF Library ha anche una specifica classe ExcelSaveOptions che non solo si occupa del salvataggio in formati Excel, ma fornisce anche diverse funzioni e proprietà per l’impostazione di attributi diversi come il formato di output esatto, minimizza numero di fogli di lavoro e altro ancora.

Conversione di presentazioni da PDF a PowerPoint

Esempio: conversione da PDF a PowerPoint di codice C#

// Carica documento PDF
Document pdfDocument = new Document("document.pdf");
PptxSaveOptions pptxOptions = new PptxSaveOptions();
pptxOptions.setSlidesAsImages(true);
// Salva file di output
pdfDocument.save("PDF to PPT.pptx", pptxOptions);

L’API .NET PDF supporta la conversione di pagine PDF in diapositive di presentazione PowerPoint con testo o immagini selezionabili mediante il rendering delle diapositive come immagini. Lo schema di salvataggio del formato di documento portatile in PowerPoint è quasi lo stesso: si carica il file utilizzando la classe Document e quindi si chiama il metodo Save con il percorso del file di output e SaveFormat come parametri. In caso di rendering con opzioni di presentazione speciali, i programmatori possono utilizzare classe PPTXSaveOptions con qualsiasi opzione di rendering specifica pertinente. Chiamare il metodo save e passare le opzioni come parametro.

Conversione da PDF a HTML in formato documento portatile

Esempio: codice C# per la conversione da PDF a HTML

// Carica documento PDF sorgente
Document doc = new Document("source-input-file.pdf");

// Crea un'istanza dell'oggetto opzioni di salvataggio HTML
HtmlSaveOptions conversionOptions = new HtmlSaveOptions();

// Abilitazione dell'opzione per incorporare tutte le risorse all'interno dell'HTML
conversionOptions.PartsEmbeddingMode = HtmlSaveOptions.PartsEmbeddingModes.EmbedAllIntoHtml;

// Specifica della cartella separata per PDF in HTML con immagini
conversionOptions.SpecialFolderForAllImages = "ImagesFolder";

// Specifica dell'opzione di divisione per l'HTML risultante in più pagine
conversionOptions.setSplitIntoPages(true);

doc.save("converted-pdf-to.html", conversionOptions);

PDF Parsing Library supporta il salvataggio di PDF in HTML nel suo complesso e con risorse incorporate, comprese le immagini. La procedura di conversione è la stessa del PDF in altri formati per casi generici, come il caricamento del documento di origine e la chiamata al metodo Save con percorso del file HTML di output e SaveFormat.Html come parametri. In caso di salvataggio con risorse incorporate, esiste una classe HTMLSaveOptions con più opzioni come il salvataggio delle immagini in una cartella specifica durante la conversione, la suddivisione dell’HTML risultante in più pagine e altro ancora.

Converti PDF in immagini

Esempio: codice C# per la conversione da PDF a immagini

// Carica documento
Document srcFile = new Document("pdf-pages-to-image.pdf");

java.io.OutputStream outputBinImageFile = new java.io.FileOutputStream(
                    _dataDir + "image" + pageCount + "_out." + ext);

// Crea oggetto Resolution
Resolution resolution = new Resolution(300);

// Crea dispositivo immagine con attributi specificati
// Larghezza, altezza, risoluzione
JpegDevice renderToImages = new JpegDevice(500, 700, resolution);
// Per BMP, PNG, TIFF saranno rispettivamente BMPDevice, PNGDevice, TIFFDevice

// Converti una pagina particolare e salva l'immagine in streaming
renderToImages.Process(srcFile.Pages[1], outputBinImageFile);

// Chiudi stream
outputBinImageFile.Close();

La conversione di pagine PDF in immagini tra cui PNG, JPEG, TIFF, BMP ecc. È facile all’interno delle applicazioni basate su .NET utilizzando i frammenti di codice elencati di seguito. Gli sviluppatori possono scorrere le pagine PDF dopo aver caricato il file e convertire Pagina per pagina nel formato immagine richiesto. Gli sviluppatori possono impostare la risoluzione orizzontale e verticale delle immagini utilizzando Resolution class