Преобразование PDF-документов через Python for Java

Экспорт PDF в Microsoft Office® Word, Excel, PowerPoint, презентации, изображения, HTML и форматы с фиксированной разметкой

Обзор

Вы ищете способ конвертировать PDF-файлы в другие форматы с помощью Python и Java? Aspose.PDF для Python через Java — идеальное решение для преобразования PDF-документов. Python — это объектно-ориентированный язык программирования, который обычно используется для разработки прототипов программного обеспечения для веб-приложений и обработки данных. В этой статье мы расскажем, как преобразовать PDF в текст с помощью Python через Java. PDF-файлы могут содержать различный контент, включая текст, изображения, нажатые кнопки, гиперссылки, встроенные шрифты, подписи и штампы. При преобразовании PDF-файла в другой формат пользователи часто заинтересованы в возможности редактировать содержимое PDF. С помощью Aspose.PDF для Python через Java вы можете легко и быстро конвертировать PDF-документы в самые популярные форматы и наоборот. Наша библиотека обеспечивает успешное и точное преобразование ваших PDF-файлов.

Конвертируйте PDF в Word

Пример: Python через Java для преобразования PDF в Word

    from asposepdf import Api

    DIR_INPUT = "testdata/"
    DIR_OUTPUT = "testout/"

    input_pdf = DIR_INPUT + "Hello.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.docx"
    # Open PDF document
    document = Api.Document(input_pdf)

    save_options = Api.DocSaveOptions()
    save_options.format = Api.DocSaveOptions.DocFormat.Docx
    # Set the recognition mode as Flow
    save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
    # Set the Horizontal proximity as 2.5
    save_options.relative_horizontal_proximity = 2.5
    # Enable the value to recognize bullets during conversion process
    save_options.recognize_bullets = True

    # Save the file into MS Word document format
    document.save(output_pdf, save_options)

Используя Aspose.PDF для Python API, вы можете легко читать и конвертировать PDF-документы в формат DOCX на Python через Java. DOCX — широко используемый формат файлов для документов Microsoft Word, который имеет структуру, объединяющую XML и двоичные файлы, в отличие от простого двоичного формата, используемого его предшественником DOC. Хотя файлы DOCX можно открывать в Word 2007 и более поздних версиях, более ранние версии MS Word, поддерживающие расширения файлов DOC, не могут их открыть. С помощью этого кода вы можете легко конвертировать PDF-документы в формат DOCX с помощью Aspose.PDF для Python API.

Конвертируйте PDF в файлы Excel

Конвертируйте PDF в файлы Excel

    documentName = "testdata/source.pdf"
    doc = Api.Document(documentName)
    documentOutName = "testout/result2.xls"
    doc.save(documentOutName, Api.SaveFormat.Excel)

Aspose.PDF для Python через Java предоставляет возможность преобразования PDF-файлов в форматы Excel и CSV. Это позволяет легко извлекать табличные данные из PDF-файлов и использовать их в Excel или других приложениях, поддерживающих файлы CSV. Aspose.PDF для Python через Java — это мощный компонент для обработки PDF-файлов, который теперь включает функцию рендеринга PDF-файлов в виде рабочих книг Excel (файлы XLSX). Благодаря этой функции каждая страница PDF-файла преобразуется в отдельный рабочий лист Excel, что упрощает работу с данными в Excel и их анализ. Если вам нужно извлечь данные из PDF-файлов или преобразовать их в Excel для дальнейшего анализа, Aspose.PDF для Python via Java может предоставить функциональность, необходимую для быстрого и простого выполнения работы.

Конвертируйте PDF в презентации PowerPoint

Пример: преобразование Python с помощью Java PDF в PowerPoint

    DIR_INPUT = "testdata/"
    DIR_OUTPUT = "testout/"

    input_pdf = DIR_INPUT + "Hello.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_pptx_with_options.pptx"
    # Open PDF document
    document = Api.Document(input_pdf)

    save_options = Api.PptxSaveOptions()
    save_options._ImageResolution = 300
    save_options._SeparateImages = True
    save_options._OptimizeTextBoxes = True

    # Save the file into MS Word document format
    document.save(output_pdf, save_options)

Используя Aspose.PDF для Python через Java, вы можете легко отслеживать прогресс преобразования PDF в PPTX. Это может быть полезно при работе с большими или сложными PDF-файлами, преобразование которых занимает некоторое время. Помимо конвертации Aspose.PDF, мы также предлагаем API Aspose.Slides, который предоставляет возможность создавать презентации PPT/PPTX и манипулировать ими. Этот API включает функцию преобразования файлов PPT/PPTX в формат PDF. Во время этого процесса преобразования каждая страница PDF-файла преобразуется в отдельный слайд в файле PPTX, что упрощает работу с презентацией и ее редактирование. Если вам нужно конвертировать PDF-файлы в PPTX или создавать презентации и манипулировать ими, Aspose.PDF для Python с помощью Java и Aspose.Slides API может предоставить функциональность, необходимую для оптимизации рабочего процесса и эффективного выполнения работы.

Преобразование PDF в файл HTML

Пример: Python через Java для преобразования PDF в HTML

    from asposepdf import Api

    documentName = "../../testdata/source.pdf"
    documentOutName = "../../testout/result.html"
    # Open PDF document
    document = Api.Document(documentName)

    # save document in HTML format
    save_options = Api.HtmlSaveOptions()
    document.save(documentOutName, save_options)

Aspose.PDF для Python через Java — это мощный инструмент для преобразования различных форматов файлов в документы PDF, а также для преобразования PDF-файлов в разные выходные форматы. Мы рассмотрим, как преобразовать PDF-файл в HTML с помощью Aspose.PDF для Python через Java. Преобразование PDF в HTML может быть полезно, если вы хотите создать веб-сайт или добавить контент на онлайн-форум. С помощью всего нескольких строк кода Python вы можете легко преобразовать PDF-документы в формат HTML. Этот процесс можно автоматизировать с помощью Python, что делает его быстрым и эффективным способом преобразования большого количества файлов. Если вам нужно преобразовать один PDF-файл или большую партию файлов, Aspose.PDF для Python через Java может предоставить функциональность, необходимую для оптимизации рабочего процесса и эффективного выполнения работы.

Конвертируйте PDF в изображения

Пример: Python через Java для преобразования PDF в изображения

    from asposepdf import Api, Device

    DIR_INPUT = "../../testdata/"
    DIR_OUTPUT = "../../testout/"

    input_pdf = DIR_INPUT + "source.pdf"
    output_pdf = DIR_OUTPUT + "image"
    # Open PDF document
    document = Api.Document(input_pdf)

    # Create Resolution object
    resolution = Device.Resolution(300)
    device = Device.JpegDevice(resolution)

    for i in range(0, document.getPages.size):
        # Create filename for save
        imageFileName = output_pdf + "_page_" + str(i + 1) + "_out.jpeg"
        # Convert a particular page and save the image to file
        device.process(document.getPages.getPage(i + 1), outputFileName=imageFileName)

Aspose.PDF для Python предоставляет различные методы преобразования PDF-документов в изображения. Двумя распространенными подходами являются подход Device и подход SaveOption. В этом разделе мы рассмотрим, как использовать эти подходы для преобразования PDF-файлов в популярные форматы изображений, такие как BMP, JPEG, GIF, PNG, EMF, TIFF и SVG. Библиотека содержит различные классы, позволяющие использовать виртуальное устройство для преобразования изображений. Класс DocumentDevice предназначен для преобразования всего документа, а класс ImageDevice предназначен для конкретной страницы.