Conversion de documents PDF via Python for Java

Exportez des fichiers PDF vers Microsoft Office® Word, Excel, présentations PowerPoint, Images, HTML et formats à mise en page fixe

Aperçu

Vous recherchez un moyen de convertir des fichiers PDF vers d’autres formats à l’aide de Python et Java ? Aspose.PDF pour Python via Java est la solution idéale pour convertir des documents PDF. Python est un langage de programmation orienté objet couramment utilisé pour développer des prototypes logiciels pour des applications Web et le traitement de données. Dans cet article, nous allons vous montrer comment convertir un PDF en texte à l’aide de Python via Java. Les fichiers PDF peuvent contenir divers contenus, notamment du texte, des images, des boutons cliquables, des hyperliens, des polices intégrées, des signatures et des tampons. Lors de la conversion d’un fichier PDF dans un autre format, les utilisateurs souhaitent souvent pouvoir modifier le contenu du PDF. Avec Aspose.PDF pour Python via Java, vous pouvez facilement et rapidement convertir vos documents PDF vers les formats les plus courants et vice versa. Notre bibliothèque garantit que vos fichiers PDF sont convertis avec succès et précision.

Convertir un PDF en Word

Exemple : Python via Java pour la conversion de PDF en Word

    from asposepdf import Api

    DIR_INPUT = "testdata/"
    DIR_OUTPUT = "testout/"

    input_pdf = DIR_INPUT + "Hello.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.docx"
    # Open PDF document
    document = Api.Document(input_pdf)

    save_options = Api.DocSaveOptions()
    save_options.format = Api.DocSaveOptions.DocFormat.Docx
    # Set the recognition mode as Flow
    save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
    # Set the Horizontal proximity as 2.5
    save_options.relative_horizontal_proximity = 2.5
    # Enable the value to recognize bullets during conversion process
    save_options.recognize_bullets = True

    # Save the file into MS Word document format
    document.save(output_pdf, save_options)

À l’aide de l’API Aspose.PDF pour Python, vous pouvez facilement lire et convertir des documents PDF au format DOCX en Python via Java. Le DOCX est un format de fichier largement utilisé pour les documents Microsoft Word, dont la structure combine des fichiers XML et binaires, contrairement au format binaire brut utilisé par son prédécesseur, DOC. Bien que les fichiers DOCX puissent être ouverts avec Word 2007 et les versions ultérieures, les versions antérieures de MS Word qui prennent en charge les extensions de fichier DOC ne peuvent pas les ouvrir. Avec ce code, vous pouvez facilement convertir vos documents PDF au format DOCX à l’aide de l’API Aspose.PDF pour Python.

Convertir des fichiers PDF en fichiers Excel

Convertir des fichiers PDF en fichiers Excel

    documentName = "testdata/source.pdf"
    doc = Api.Document(documentName)
    documentOutName = "testout/result2.xls"
    doc.save(documentOutName, Api.SaveFormat.Excel)

Aspose.PDF pour Python via Java fournit une fonctionnalité permettant de convertir des fichiers PDF aux formats Excel et CSV. Cela vous permet d’extraire facilement des données tabulaires à partir de fichiers PDF et de les utiliser dans Excel ou d’autres applications prenant en charge les fichiers CSV. Aspose.PDF pour Python via Java est un puissant composant de manipulation de PDF qui inclut désormais une fonctionnalité de rendu des fichiers PDF sous forme de classeurs Excel (fichiers XLSX). Grâce à cette fonctionnalité, chaque page du fichier PDF est convertie en une feuille de calcul Excel distincte, ce qui facilite l’utilisation et l’analyse des données dans Excel. Que vous ayez besoin d’extraire des données de fichiers PDF ou de les convertir en Excel pour une analyse plus approfondie, Aspose.PDF pour Python via Java peut fournir les fonctionnalités dont vous avez besoin pour effectuer le travail rapidement et facilement.

Convertir un PDF en présentations PowerPoint

Exemple : conversion de Python via Java PDF vers PowerPoint

    DIR_INPUT = "testdata/"
    DIR_OUTPUT = "testout/"

    input_pdf = DIR_INPUT + "Hello.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_pptx_with_options.pptx"
    # Open PDF document
    document = Api.Document(input_pdf)

    save_options = Api.PptxSaveOptions()
    save_options._ImageResolution = 300
    save_options._SeparateImages = True
    save_options._OptimizeTextBoxes = True

    # Save the file into MS Word document format
    document.save(output_pdf, save_options)

Avec Aspose.PDF pour Python via Java, vous pouvez facilement suivre la progression de la conversion de PDF en PPTX. Cela peut s’avérer utile lorsque vous travaillez avec des fichiers PDF volumineux ou complexes dont la conversion prend un certain temps. Outre la conversion Aspose.PDF, nous proposons également l’API Aspose.Slides, qui permet de créer et de manipuler des présentations PPT/PPTX. Cette API inclut une fonctionnalité permettant de convertir des fichiers PPT/PPTX au format PDF. Au cours de ce processus de conversion, chaque page du fichier PDF est convertie en une diapositive distincte dans le fichier PPTX, ce qui facilite l’utilisation et la modification de la présentation. Que vous ayez besoin de convertir des fichiers PDF en PPTX ou de créer et manipuler des présentations, Aspose.PDF pour Python via Java et l’API Aspose.Slides peut fournir les fonctionnalités dont vous avez besoin pour rationaliser votre flux de travail et accomplir votre travail efficacement.

Convertir un fichier PDF en fichier HTML

Exemple : Python via Java pour la conversion de PDF en HTML

    from asposepdf import Api

    documentName = "../../testdata/source.pdf"
    documentOutName = "../../testout/result.html"
    # Open PDF document
    document = Api.Document(documentName)

    # save document in HTML format
    save_options = Api.HtmlSaveOptions()
    document.save(documentOutName, save_options)

Aspose.PDF pour Python via Java est un outil puissant permettant de convertir divers formats de fichiers en documents PDF, ainsi que de convertir des fichiers PDF en différents formats de sortie. Nous allons découvrir comment convertir un fichier PDF en HTML à l’aide de Aspose.PDF pour Python via Java. La conversion de PDF en HTML peut être utile si vous souhaitez créer un site Web ou ajouter du contenu à un forum en ligne. En quelques lignes de code Python, vous pouvez facilement convertir vos documents PDF au format HTML. Ce processus peut être automatisé à l’aide de Python, ce qui en fait un moyen rapide et efficace de convertir un grand nombre de fichiers. Que vous ayez besoin de convertir un seul fichier PDF ou un grand lot de fichiers, Aspose.PDF pour Python via Java peut fournir les fonctionnalités dont vous avez besoin pour rationaliser votre flux de travail et accomplir votre travail efficacement.

Convertir un PDF en images

Exemple : Python via Java pour la conversion de PDF en images

    from asposepdf import Api, Device

    DIR_INPUT = "../../testdata/"
    DIR_OUTPUT = "../../testout/"

    input_pdf = DIR_INPUT + "source.pdf"
    output_pdf = DIR_OUTPUT + "image"
    # Open PDF document
    document = Api.Document(input_pdf)

    # Create Resolution object
    resolution = Device.Resolution(300)
    device = Device.JpegDevice(resolution)

    for i in range(0, document.getPages.size):
        # Create filename for save
        imageFileName = output_pdf + "_page_" + str(i + 1) + "_out.jpeg"
        # Convert a particular page and save the image to file
        device.process(document.getPages.getPage(i + 1), outputFileName=imageFileName)

Aspose.PDF pour Python propose différentes méthodes pour convertir des documents PDF en images. Deux approches courantes sont l’approche Device et l’approche SaveOption. Dans cette section, nous allons découvrir comment utiliser ces approches pour convertir des PDF en formats d’image courants tels que BMP, JPEG, GIF, PNG, EMF, TIFF et SVG. La bibliothèque contient différentes classes qui vous permettent d’utiliser un périphérique virtuel pour transformer des images. La classe DocumentDevice est conçue pour convertir l’intégralité du document, tandis que la classe ImageDevice est destinée à une page spécifique.