Conversão de documentos PDF via Python for .NET

Exporte PDF para o Microsoft Office® Word, Excel, apresentações do PowerPoint, imagens, HTML e formatos de layout fixo

C# Java C++ Python

Visão geral

Há poucos casos em que é necessário manipular documentos que não sejam PDF, ao mesmo tempo em que os dados de análise estão disponíveis em formatos PDF. Portanto, para esses aplicativos, haverá dois cenários: eles adicionam a funcionalidade de análise de PDF em sua própria solução ou adicionam a funcionalidade de conversão de PDF para manipular dados a partir dos formatos suportados. Para o segundo cenário para converter PDF para Word, Excel, HTML, Imagens ou qualquer formato necessário, implementar o códigoC# PDF reader and converter dentro do .NET é simples. Estamos discutindo aqui alguns casos para que os programadores possam modificar esses trechos de código de conversão conforme seus requisitos.

Conversão de PDF para Microsoft Word 2003-2019

Exemplo: Código C# para conversão de PDF em Word

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc.doc"

// Carregar o arquivo PDF de origem
document = ap.Document(input_pdf)

// Salvar usando as opções de salvamento
// Criar objeto DocSaveOptions
 save_options = ap.DocSaveOptions()
save_options.format = ap.DocSaveOptions.DocFormat.DOCX

// Defina o modo de reconhecimento como Fluxo significa Modo de reconhecimento total
save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW

// Outros dois modos são RecognitionMode.TextBox e RecognitionMode.ENHANCEDFLOW

// Defina a proximidade horizontal como 2,5
save_options.relative_horizontal_proximity = 2.5

// Ative o valor para reconhecer marcadores durante o processo de conversão
save_options.recognize_bullets = True

// Salve o arquivo DOC resultante
document.save(output_pdf, save_options)

A biblioteca Aspose.PDF for .NET suporta todas as conversões de PDF para Word. Caso estejamos apenas convertendo documentos do Microsoft Word sem nenhuma configuração especial, basta carregar o arquivo PDF usando o método Save da classe Document e usaremos com saída o caminho do documento Word e o SaveFormat como parâmetros. Para os casos especiais em que é necessário melhorar a distância das linhas, a resolução da imagem e mais configurações, a API tem a classe DocSaveOptions que expõe todas essas configurações.

PDF to WORD PDF to DOC PDF to DOCX

Salvar PDF como arquivos do Excel

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_excel.xlsx"
// Carregar documento PDF
document = ap.Document(input_pdf)
// Inicializar opções de salvamento do Excel
save_option = ap.ExcelSaveOptions()
// Definir formato XLSX do Excel de saída
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
// Minimizar o número de planilhas
save_option.minimize_the_number_of_worksheets = True
// Converter PDF em arquivo de saída do Excel
document.save(output_pdf, save_option)

Enumeração especializada SaveFormat.excel disponível para salvar PDF em formatos de saída XLS XLSX específicos do Microsoft Excel. Além disso, .NET PDF Library também tem uma classe ExcelSaveOptions específica que não apenas lida com o salvamento em formatos do Excel, mas também fornece diferentes funções e propriedades para definir diferentes atributos, como formato de saída exato, minimizar número de planilhas e muito mais.

PDF to EXCEL PDF to XLS PDF to XLSX

Converter PDF em apresentações do PowerPoint

Exemplo: Conversão de código C# de PDF para PowerPoint

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_pptx.pptx
// Carregar documento PDF
document = ap.Document(input_pdf)
save_option = ap.PptxSaveOptions()
save_option.slides_as_images = True
// Salvar arquivo de saída
document.save(output_pdf, save_option)

A API .NET PDF suporta a conversão de páginas PDF em slides de apresentação do PowerPoint com texto ou imagens selecionáveis, renderizando slides como imagens. O padrão de salvar o Portable Document Format no PowerPoint é quase o mesmo, carregando o arquivo usando a classe Document e, em seguida, chamando o método Save com o caminho do arquivo de saída e SaveFormat como parâmetros. No caso de renderização com opções especiais de apresentação, os programadores podem usar a classe pptxSaveOptions com qualquer opção de renderização específica relevante. Chamando o método save e passando as opções como parâmetro.

Conversão de PDF para HTML em formato de documento portátil

Exemplo: Código C# para conversão de PDF em HTML

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_html.html"

// Carregar documento PDF de origem
document = ap.Document(input_pdf)

// Instanciar objeto de opções de salvamento HTML
save_options = ap.HtmlSaveOptions()

// Opção de ativação para incorporar todos os recursos dentro do HTML
save_options.parts_embedding_mode = ap.HtmlSaveOptions.PartsEmbeddingModes.EMBED_ALL_INTO_HTML

// Especificando a pasta separada de PDF para HTML com imagens
save_options.special_folder_for_all_images = "ImagesFolder"

// Especificando a opção de divisão para o HTML resultante em várias páginas
save_options.split_into_pages = True

document.save(output_pdf, save_options)

A PDF Parsing Library suporta salvar PDF em HTML como um todo, bem como com recursos incorporados, incluindo imagens. O procedimento de conversão é igual ao PDF para outros formatos para casos genéricos, como carregar o documento de origem e chamar o método Save com o caminho do arquivo HTML de saída e SaveFormat.Html como parâmetros. No caso de salvar com recursos incorporados, há uma classe HTMLSaveOptions com várias opções, como salvar imagens em uma pasta específica durante a conversão, dividir o HTML resultante em várias páginas e muito mais.

PDF to HTML PDF to TEXT PDF to SVG

Converter PDF em imagens

Exemplo: Código C# para conversão de PDF em imagens

import aspose.pdf as ap

input_pdf = DIR_INPUT + "many_pages.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_jpeg"
imageStream = io.FileIO(output_pdf + "_page_1_out.jpeg", "x")

// Carregar documento
document = ap.Document(input_pdf)

// Criar objeto Resolution
resolution = ap.devices.Resolution(300)

// Criar dispositivo de imagem com atributos especificados
// Largura, altura, resolução
device = ap.devices.JpegDevice(resolution)
// Para BMP, PNG, TIFF, será BMPDevice, PNGDevice, TiffDevice, respectivamente

// Converta uma página específica e salve a imagem em stream
device.process(document.pages[i + 1], imageStream)

// Fechar fluxo
imageStream.close()

Converter páginas PDF em imagens, incluindo PNG, JPEG, TIFF, BMP etc. é fácil em aplicativos baseados em .NET usando trechos de código listados abaixo. Os desenvolvedores podem percorrer as páginas do PDF depois de carregar o arquivo e converter Página por Página para o formato de imagem necessário. Os desenvolvedores podem definir a resolução horizontal e vertical das imagens usando Classe de resolução

PDF to TIFF PDF to PNG PDF to GIF