Conversão de documentos PDF via Python for Java

Exporte PDF para o Microsoft Office® Word, Excel, apresentações do PowerPoint, imagens, HTML e formatos de layout fixo

Visão geral

Você está procurando uma maneira de converter arquivos PDF em outros formatos usando Python e Java? O Aspose.PDF para Python via Java é a solução ideal para converter documentos PDF. Python é uma linguagem de programação orientada a objetos que é comumente usada para desenvolver protótipos de software para aplicativos da web e processamento de dados. Neste artigo, mostraremos como converter PDF em texto usando Python via Java. Os arquivos PDF podem conter uma variedade de conteúdo, incluindo texto, imagens, botões clicáveis, hiperlinks, fontes incorporadas, assinaturas e carimbos. Ao converter um arquivo PDF em um formato diferente, os usuários geralmente estão interessados em poder editar o conteúdo do PDF. Com o Aspose.PDF para Python via Java, você pode converter de forma fácil e rápida seus documentos PDF para os formatos mais populares e vice-versa. Nossa biblioteca garante que seus arquivos PDF sejam convertidos com sucesso e precisão.

Converter PDF em Word

Exemplo: Python via Java para conversão de PDF em Word

    from asposepdf import Api

    DIR_INPUT = "testdata/"
    DIR_OUTPUT = "testout/"

    input_pdf = DIR_INPUT + "Hello.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.docx"
    # Open PDF document
    document = Api.Document(input_pdf)

    save_options = Api.DocSaveOptions()
    save_options.format = Api.DocSaveOptions.DocFormat.Docx
    # Set the recognition mode as Flow
    save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
    # Set the Horizontal proximity as 2.5
    save_options.relative_horizontal_proximity = 2.5
    # Enable the value to recognize bullets during conversion process
    save_options.recognize_bullets = True

    # Save the file into MS Word document format
    document.save(output_pdf, save_options)

Usando a API Aspose.PDF para Python, você pode facilmente ler e converter documentos PDF para o formato DOCX em Python via Java. O DOCX é um formato de arquivo amplamente usado para documentos do Microsoft Word, que tem uma estrutura que combina arquivos XML e binários, ao contrário do formato binário simples usado por seu antecessor, DOC. Embora os arquivos DOCX possam ser abertos com o Word 2007 e versões posteriores, as versões anteriores do MS Word que suportam extensões de arquivo DOC não conseguem abri-los. Com esse código, você pode converter facilmente seus documentos PDF para o formato DOCX usando a API Aspose.PDF para Python.

Converter arquivos PDF em Excel

Converter arquivos PDF em Excel

    documentName = "testdata/source.pdf"
    doc = Api.Document(documentName)
    documentOutName = "testout/result2.xls"
    doc.save(documentOutName, Api.SaveFormat.Excel)

O Aspose.PDF para Python via Java fornece um recurso para converter arquivos PDF em formatos Excel e CSV. Isso permite que você extraia facilmente dados tabulares de arquivos PDF e os use no Excel ou em outros aplicativos compatíveis com arquivos CSV. O Aspose.PDF para Python via Java é um poderoso componente de manipulação de PDF que agora inclui um recurso para renderizar arquivos PDF como pastas de trabalho do Excel (arquivos XLSX). Com esse recurso, cada página do arquivo PDF é convertida em uma planilha separada do Excel, facilitando o trabalho e a análise dos dados no Excel. Se você precisa extrair dados de arquivos PDF ou convertê-los em Excel para análise posterior, o Aspose.PDF para Python via Java pode fornecer a funcionalidade necessária para realizar o trabalho com rapidez e facilidade.

Converter PDF em apresentações do PowerPoint

Exemplo: conversão de Python via Java PDF para PowerPoint

    DIR_INPUT = "testdata/"
    DIR_OUTPUT = "testout/"

    input_pdf = DIR_INPUT + "Hello.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_pptx_with_options.pptx"
    # Open PDF document
    document = Api.Document(input_pdf)

    save_options = Api.PptxSaveOptions()
    save_options._ImageResolution = 300
    save_options._SeparateImages = True
    save_options._OptimizeTextBoxes = True

    # Save the file into MS Word document format
    document.save(output_pdf, save_options)

Com o Aspose.PDF para Python via Java, você pode acompanhar facilmente o progresso da conversão de PDF em PPTX. Isso pode ser útil ao trabalhar com arquivos PDF grandes ou complexos que levam algum tempo para serem convertidos. Além da conversão para Aspose.PDF, também oferecemos a API Aspose.Slides, que fornece a capacidade de criar e manipular apresentações PPT/PPTX. Essa API inclui um recurso para converter arquivos PPT/PPTX em formato PDF. Durante esse processo de conversão, cada página do arquivo PDF é convertida em um slide separado no arquivo PPTX, facilitando o trabalho e a edição da apresentação. Se você precisa converter arquivos PDF em PPTX ou criar e manipular apresentações, o Aspose.PDF para Python via Java e a API Aspose.Slides pode fornecer a funcionalidade necessária para otimizar seu fluxo de trabalho e realizar o trabalho com eficiência.

Converter PDF em arquivo HTML

Exemplo: Python via Java para conversão de PDF em HTML

    from asposepdf import Api

    documentName = "../../testdata/source.pdf"
    documentOutName = "../../testout/result.html"
    # Open PDF document
    document = Api.Document(documentName)

    # save document in HTML format
    save_options = Api.HtmlSaveOptions()
    document.save(documentOutName, save_options)

O Aspose.PDF para Python via Java é uma ferramenta poderosa para converter vários formatos de arquivo em documentos PDF, bem como converter arquivos PDF em diferentes formatos de saída. Exploraremos como converter um arquivo PDF em HTML usando o Aspose.PDF para Python via Java. Converter PDF em HTML pode ser útil se você quiser criar um site ou adicionar conteúdo a um fórum on-line. Com apenas algumas linhas de código Python, você pode converter facilmente seus documentos PDF para o formato HTML. Esse processo pode ser automatizado usando Python, tornando-o uma maneira rápida e eficiente de converter um grande número de arquivos. Se você precisa converter um único arquivo PDF ou um grande lote de arquivos, o Aspose.PDF para Python via Java pode fornecer a funcionalidade necessária para otimizar seu fluxo de trabalho e realizar o trabalho com eficiência.

Converter PDF em imagens

Exemplo: Python via Java para conversão de PDF em imagens

    from asposepdf import Api, Device

    DIR_INPUT = "../../testdata/"
    DIR_OUTPUT = "../../testout/"

    input_pdf = DIR_INPUT + "source.pdf"
    output_pdf = DIR_OUTPUT + "image"
    # Open PDF document
    document = Api.Document(input_pdf)

    # Create Resolution object
    resolution = Device.Resolution(300)
    device = Device.JpegDevice(resolution)

    for i in range(0, document.getPages.size):
        # Create filename for save
        imageFileName = output_pdf + "_page_" + str(i + 1) + "_out.jpeg"
        # Convert a particular page and save the image to file
        device.process(document.getPages.getPage(i + 1), outputFileName=imageFileName)

O Aspose.PDF para Python fornece métodos diferentes para converter documentos PDF em imagens. Duas abordagens comuns são a abordagem Device e a abordagem SaveOption. Nesta seção, exploraremos como usar essas abordagens para converter PDF em formatos de imagem populares, como BMP, JPEG, GIF, PNG, EMF, TIFF e SVG. A biblioteca contém várias classes que permitem usar um dispositivo virtual para transformar imagens. A classe DocumentDevice foi projetada para converter o documento inteiro, enquanto a classe ImageDevice é destinada a uma página específica.