通過 Python for Java 進行 PDF 文件轉換

將 PDF 匯出到微軟辦公®用字、Excel、簡報、圖像、HTML 和固定佈局格式

概述

你在寻找一种使用Python和Java将PDF文件转换为其他格式的方法吗?通过 Java 的 Aspose.PDF for Python 是转换 PDF 文档的理想解决方案。Python 是一种面向对象的编程语言,通常用于为 Web 应用程序和数据处理开发软件原型。在本文中,我们将向您展示如何通过 Java 使用 Python 将 PDF 转换为文本。PDF 文件可以包含各种内容,包括文本、图像、可点击的按钮、超链接、嵌入字体、签名和图章。将 PDF 文件转换为其他格式时,用户通常对能够编辑 PDF 内容感兴趣。通过 Java 使用 Aspose.PDF for Python,您可以轻松快速地将 PDF 文档转换为最流行的格式,反之亦然。我们的资料库可确保成功准确地转换您的PDF文件。

将 PDF 转换为 Word

示例:通过 Java 进行 PDF 到单词转换的 Python

    from asposepdf import Api

    DIR_INPUT = "testdata/"
    DIR_OUTPUT = "testout/"

    input_pdf = DIR_INPUT + "Hello.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.docx"
    # Open PDF document
    document = Api.Document(input_pdf)

    save_options = Api.DocSaveOptions()
    save_options.format = Api.DocSaveOptions.DocFormat.Docx
    # Set the recognition mode as Flow
    save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
    # Set the Horizontal proximity as 2.5
    save_options.relative_horizontal_proximity = 2.5
    # Enable the value to recognize bullets during conversion process
    save_options.recognize_bullets = True

    # Save the file into MS Word document format
    document.save(output_pdf, save_options)

使用适用于 Python API 的 Aspose.PDF,你可以通过 Java 在 Python 中轻松读取 PDF 文档并将其转换为 DOCX 格式。DOCX 是微软 Word 文档中广泛使用的文件格式,其结构结合了 XML 和二进制文件,这与其前身 DOC 使用的普通二进制格式不同。虽然 DOCX 文件可以使用 Word 2007 及更高版本打开,但支持 DOC 文件扩展名的 MS Word 的早期版本无法打开它们。有了这段代码,你可以使用适用于 Python API 的 Aspose.PDF 将你的 PDF 文档无缝转换为 DOCX 格式。

将 PDF 转换为 Excel 文件

将 PDF 转换为 Excel 文件

    documentName = "testdata/source.pdf"
    doc = Api.Document(documentName)
    documentOutName = "testout/result2.xls"
    doc.save(documentOutName, Api.SaveFormat.Excel)

通过 Java 的 Aspose.PDF for Python 提供了将 PDF 文件转换为 Excel 和 CSV 格式的功能。这使您可以轻松地从 PDF 文件中提取表格数据,并在 Excel 或其他支持 CSV 文件的应用程序中使用。Aspose.PDF for Python via Java 是一个强大的 PDF 操作组件,它现在包括将 PDF 文件呈现为 Excel 工作簿(XLSX 文件)的功能。借助此功能,PDF 文件的每一页都可转换为单独的 Excel 工作表,便于在 Excel 中处理和分析数据。无论您是需要从 PDF 文件中提取数据还是将其转换为 Excel 以进行进一步分析,Aspose.PDF for Python via Java 都可以提供快速轻松地完成工作所需的功能。

将 PDF 转换为幻灯片演示文稿

示例:通过 Java 将 PDF 转换为 PowerPoint

    DIR_INPUT = "testdata/"
    DIR_OUTPUT = "testout/"

    input_pdf = DIR_INPUT + "Hello.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_pptx_with_options.pptx"
    # Open PDF document
    document = Api.Document(input_pdf)

    save_options = Api.PptxSaveOptions()
    save_options._ImageResolution = 300
    save_options._SeparateImages = True
    save_options._OptimizeTextBoxes = True

    # Save the file into MS Word document format
    document.save(output_pdf, save_options)

通过 Java 使用适用于 Python 的 Aspose.PDF,你可以轻松跟踪 PDF 到 PPTX 的转换进度。这在处理需要一些时间才能转换的大型或复杂 PDF 文件时会很有用。除了 Aspose.PDF 转换外,我们还提供 Aspose.Slides API,它提供了创建和操作 PPT/PPTX 演示文稿的功能。此 API 包括将 PPT/PPTX 文件转换为 PDF 格式的功能。在此转换过程中,PDF 文件的每一页都将转换为 PPTX 文件中的单独幻灯片,便于处理和编辑演示文稿。无论你需要将 PDF 文件转换为 PPTX 还是创建和操作演示文稿,通过 Java 和 Aspose.Slides API 的 Aspose.PDF for Python 都可以提供你所需的功能,以简化工作流程和高效完成工作。

将 PDF 转换为 HTML 文件

示例:通过 Java 进行 PDF 到 HTML 转换的 Python

    from asposepdf import Api

    documentName = "../../testdata/source.pdf"
    documentOutName = "../../testout/result.html"
    # Open PDF document
    document = Api.Document(documentName)

    # save document in HTML format
    save_options = Api.HtmlSaveOptions()
    document.save(documentOutName, save_options)

通过 Java 的 Aspose.PDF for Python 是一款强大的工具,用于将各种文件格式转换为 PDF 文档,以及将 PDF 文件转换为不同的输出格式。我们将探讨如何通过 Java 使用 Aspose.PDF for Python 将 PDF 文件转换为 HTML。如果您想创建网站或向在线论坛添加内容,将 PDF 转换为 HTML 可能很有用。只需几行 Python 代码,您就可以轻松地将 PDF 文档转换为 HTML 格式。使用 Python 可以自动执行此过程,使其成为转换大量文件的快速而有效的方法。无论您是需要转换单个 PDF 文件还是大批文件,通过 Java 的 Aspose.PDF for Python 都可以提供简化工作流程和高效完成工作所需的功能。

将 PDF 转换为图像

示例:通过 Java 将 PDF 转换为图像

    from asposepdf import Api, Device

    DIR_INPUT = "../../testdata/"
    DIR_OUTPUT = "../../testout/"

    input_pdf = DIR_INPUT + "source.pdf"
    output_pdf = DIR_OUTPUT + "image"
    # Open PDF document
    document = Api.Document(input_pdf)

    # Create Resolution object
    resolution = Device.Resolution(300)
    device = Device.JpegDevice(resolution)

    for i in range(0, document.getPages.size):
        # Create filename for save
        imageFileName = output_pdf + "_page_" + str(i + 1) + "_out.jpeg"
        # Convert a particular page and save the image to file
        device.process(document.getPages.getPage(i + 1), outputFileName=imageFileName)

Aspose.PDF for Python 提供了将 PDF 文档转换为图像的不同方法。两种常见的方法是设备方法和 saveOption 方法。在本节中,我们将探讨如何使用这些方法将 PDF 转换为流行的图像格式,例如 BMP、JPEG、GIF、PNG、EMF、TIFF 和 SVG。该库包含各种类,使您能够使用虚拟设备转换图像。DocumentDevice 类旨在转换整个文档,而 ImageDevice 类则用于特定页面。