Conversione di documenti PDF tramite Python for .NET

Esportazione di PDF in Microsoft Office® Word, Excel, presentazioni PowerPoint, immagini, HTML e formati a layout fisso

Panoramica

Ci sono pochi casi in cui è necessario manipolare documenti diversi dal PDF pur avendo i dati di analisi disponibili nei formati PDF. Quindi per tali applicazioni ci saranno due scenari: aggiungere funzionalità di analisi PDF all’interno della propria soluzione o aggiungere la funzionalità di conversione PDF per manipolare i dati a partire dai formati supportati. Per il secondo scenario di convertire PDF in Word, Excel, HTML, immagini o qualsiasi formato richiesto, implementare il codice C# PDF reader and converter all’interno di.NET è semplice. Stiamo discutendo qui alcuni casi in modo che i programmatori possano modificare questi frammenti di codice di conversione in base alle loro esigenze.

Converti PDF in Word, DOC, DOCX e altri formati

Esempio: codice C# per la conversione da PDF a Word

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc.doc"

// Carica il file PDF di origine
document = ap.Document(input_pdf)

// Salvare utilizzando le opzioni di salvataggio
// Crea oggetto DocSaveOptions
 save_options = ap.DocSaveOptions()
save_options.format = ap.DocSaveOptions.DocFormat.DOCX

// Impostare la modalità di riconoscimento come Flusso significa Modalità di riconoscimento completo
save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW

// Altre due modalità sono RecognitionMode.TextBox e RecognitionMode.EnhancedFlow

// Impostare la prossimità orizzontale su 2,5
save_options.relative_horizontal_proximity = 2.5

// Abilitare il valore per riconoscere i punti elenco durante il processo di conversione
save_options.recognize_bullets = True

// Salvare il file DOC risultante
document.save(output_pdf, save_options)

La libreria Aspose.PDF per .NET supporta tutte le conversioni da PDF a Word. Nel caso in cui stiamo solo convertendo documenti Microsoft Word senza impostazioni speciali, carichiamo semplicemente il file PDF utilizzando il metodo Save dalla classe Document e utilizzeremo come parametri come parametri il percorso del documento Word in uscita e SaveFormat. Per i casi speciali in cui è necessario migliorare la distanza delle linee, la risoluzione dell’immagine e altre impostazioni, l’API dispone della classe DocSaveOptions che espone tutte queste impostazioni.

Salva PDF come file Excel

Salva PDF come file Excel

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_excel.xlsx"
// Carica documento PDF
document = ap.Document(input_pdf)
// Inizializza opzioni di salvataggio di Excel
save_option = ap.ExcelSaveOptions()
// Imposta il formato Excel XLSX di output
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
// Ridurre il numero di fogli di lavoro
save_option.minimize_the_number_of_worksheets = True
// Converti PDF in file di output Excel
document.save(output_pdf, save_option)

Enumerazione specializzata SaveFormat.excel disponibile per il salvataggio di PDF in specifici formati di output XLS XLSX di Microsoft Excel. Inoltre, .NET PDF Library ha anche una specifica classe ExcelSaveOptions che non solo si occupa del salvataggio in formati Excel, ma fornisce anche diverse funzioni e proprietà per l’impostazione di attributi diversi come il formato di output esatto, minimizza numero di fogli di lavoro e altro ancora.

Conversione di presentazioni da PDF a PowerPoint

Esempio: conversione da PDF a PowerPoint di codice C#

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_pptx.pptx
// Carica documento PDF
document = ap.Document(input_pdf)
save_option = ap.PptxSaveOptions()
save_option.slides_as_images = True
// Salva file di output
document.save(output_pdf, save_option)

L’API .NET PDF supporta la conversione di pagine PDF in diapositive di presentazione PowerPoint con testo o immagini selezionabili mediante il rendering delle diapositive come immagini. Lo schema di salvataggio del formato di documento portatile in PowerPoint è quasi lo stesso: si carica il file utilizzando la classe Document e quindi si chiama il metodo Save con il percorso del file di output e SaveFormat come parametri. In caso di rendering con opzioni di presentazione speciali, i programmatori possono utilizzare classe PPTXSaveOptions con qualsiasi opzione di rendering specifica pertinente. Chiamare il metodo save e passare le opzioni come parametro.

Conversione da PDF a HTML in formato documento portatile

Esempio: codice C# per la conversione da PDF a HTML

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_html.html"

// Carica documento PDF sorgente
document = ap.Document(input_pdf)

// Crea un'istanza dell'oggetto opzioni di salvataggio HTML
save_options = ap.HtmlSaveOptions()

// Abilitazione dell'opzione per incorporare tutte le risorse all'interno dell'HTML
save_options.parts_embedding_mode = ap.HtmlSaveOptions.PartsEmbeddingModes.EMBED_ALL_INTO_HTML

// Specifica della cartella separata per PDF in HTML con immagini
save_options.special_folder_for_all_images = "ImagesFolder"

// Specifica dell'opzione di divisione per l'HTML risultante in più pagine
save_options.split_into_pages = True

document.save(output_pdf, save_options)

PDF Parsing Library supporta il salvataggio di PDF in HTML nel suo complesso e con risorse incorporate, comprese le immagini. La procedura di conversione è la stessa del PDF in altri formati per casi generici, come il caricamento del documento di origine e la chiamata al metodo Save con percorso del file HTML di output e SaveFormat.Html come parametri. In caso di salvataggio con risorse incorporate, esiste una classe HTMLSaveOptions con più opzioni come il salvataggio delle immagini in una cartella specifica durante la conversione, la suddivisione dell’HTML risultante in più pagine e altro ancora.

Converti PDF in immagini

Esempio: codice C# per la conversione da PDF a immagini

import aspose.pdf as ap

input_pdf = DIR_INPUT + "many_pages.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_jpeg"
imageStream = io.FileIO(output_pdf + "_page_1_out.jpeg", "x")

// Carica documento
document = ap.Document(input_pdf)

// Crea oggetto Resolution
resolution = ap.devices.Resolution(300)

// Crea dispositivo immagine con attributi specificati
// Larghezza, altezza, risoluzione
device = ap.devices.JpegDevice(resolution)
// Per BMP, PNG, TIFF saranno rispettivamente BMPDevice, PNGDevice, TIFFDevice

// Converti una pagina particolare e salva l'immagine in streaming
device.process(document.pages[i + 1], imageStream)

// Chiudi stream
imageStream.close()

La conversione di pagine PDF in immagini tra cui PNG, JPEG, TIFF, BMP ecc. È facile all’interno delle applicazioni basate su .NET utilizzando i frammenti di codice elencati di seguito. Gli sviluppatori possono scorrere le pagine PDF dopo aver caricato il file e convertire Pagina per pagina nel formato immagine richiesto. Gli sviluppatori possono impostare la risoluzione orizzontale e verticale delle immagini utilizzando Resolution class