Python for Java 経由の PDF ドキュメント変換

PDF を Microsoft Office® Word、Excel、PowerPoint プレゼンテーション、画像、HTML、および固定レイアウト形式にエクスポート

概要

PythonとJavaを使用してPDFファイルを他の形式に変換する方法をお探しですか?Java 経由の Python 用の Aspose.PDF は PDF ドキュメントを変換するための理想的なソリューションです。Pythonは、Webアプリケーションやデータ処理用のソフトウェアプロトタイプの開発によく使用されるオブジェクト指向プログラミング言語です。この記事では、Java 経由で Python を使用して PDF をテキストに変換する方法を紹介します。PDF ファイルには、テキスト、画像、クリック可能なボタン、ハイパーリンク、埋め込みフォント、署名、スタンプなど、さまざまなコンテンツを含めることができます。PDFファイルを別の形式に変換する場合、ユーザーはPDFコンテンツを編集できることに興味を持つことがよくあります。Java 経由の Python 用の Aspose.PDF を使用すると、PDF ドキュメントを最も一般的な形式に、またはその逆に簡単かつ迅速に変換できます。私たちのライブラリは、PDFファイルが正常かつ正確に変換されることを保証します。

PDF を Word に変換

例:Java 経由の Python で PDF をワードに変換する方法

    from asposepdf import Api

    DIR_INPUT = "testdata/"
    DIR_OUTPUT = "testout/"

    input_pdf = DIR_INPUT + "Hello.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.docx"
    # Open PDF document
    document = Api.Document(input_pdf)

    save_options = Api.DocSaveOptions()
    save_options.format = Api.DocSaveOptions.DocFormat.Docx
    # Set the recognition mode as Flow
    save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
    # Set the Horizontal proximity as 2.5
    save_options.relative_horizontal_proximity = 2.5
    # Enable the value to recognize bullets during conversion process
    save_options.recognize_bullets = True

    # Save the file into MS Word document format
    document.save(output_pdf, save_options)

Aspose.PDF for Python API を使用すると、Java 経由で Python で PDF ドキュメントを簡単に読み込んで DOCX 形式に変換できます。DOCXは、Microsoft Word文書で広く使用されているファイル形式で、その前身であるDOCで使用されていた単純なバイナリ形式とは異なり、XMLとバイナリファイルを組み合わせた構造になっています。DOCX ファイルは Word 2007 以降のバージョンで開くことができますが、DOC ファイル拡張子をサポートする以前のバージョンの MS Word では開くことができません。このコードを使用すると、Aspose.PDF for Python API を使用して PDF ドキュメントを DOCX 形式にシームレスに変換できます。

PDF をエクセルファイルに変換する

PDF をエクセルファイルに変換する

    documentName = "testdata/source.pdf"
    doc = Api.Document(documentName)
    documentOutName = "testout/result2.xls"
    doc.save(documentOutName, Api.SaveFormat.Excel)

Java 経由の Python 用の Aspose.PDF には、PDF ファイルを Excel 形式や CSV 形式に変換する機能があります。これにより、PDF ファイルから表形式のデータを簡単に抽出し、Excel や CSV ファイルをサポートする他のアプリケーションで使用できます。Java 経由の Python 用の Aspose.PDF は強力な PDF 操作コンポーネントで、PDF ファイルを Excel ワークブック (XLSX ファイル) としてレンダリングする機能が追加されました。この機能により、PDF ファイルの各ページが個別の Excel ワークシートに変換されるため、Excel でのデータの操作や分析が容易になります。PDF ファイルからデータを抽出する必要がある場合でも、さらに分析するために Excel に変換する必要がある場合でも、Java 経由の Aspose.PDF for Python は、作業を迅速かつ簡単に完了するために必要な機能を提供します。

PDF をパワーポイントのプレゼンテーションに変換

例:Python を Java PDF 経由で PowerPoint に変換

    DIR_INPUT = "testdata/"
    DIR_OUTPUT = "testout/"

    input_pdf = DIR_INPUT + "Hello.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_pptx_with_options.pptx"
    # Open PDF document
    document = Api.Document(input_pdf)

    save_options = Api.PptxSaveOptions()
    save_options._ImageResolution = 300
    save_options._SeparateImages = True
    save_options._OptimizeTextBoxes = True

    # Save the file into MS Word document format
    document.save(output_pdf, save_options)

Java 経由の Python 用の Aspose.PDF を使用すると、PDF から PPTX への変換の進行状況を簡単に追跡できます。これは、変換に時間がかかる大きな PDF ファイルや複雑な PDF ファイルを扱う場合に役立ちます。Aspose.PDF の変換に加えて、PPT/PPTX プレゼンテーションを作成および操作できる Aspose.Slides API も提供しています。この API には、PPT/PPTX ファイルを PDF 形式に変換する機能が含まれています。この変換プロセスでは、PDFファイルの各ページがPPTXファイル内の個別のスライドに変換されるため、プレゼンテーションの操作や編集が簡単になります。PDF ファイルを PPTX に変換する必要がある場合でも、プレゼンテーションを作成および操作する必要がある場合でも、Java 経由の Aspose.PDF for Python と Aspose.Slides API は、ワークフローを合理化し、作業を効率的に行うために必要な機能を提供します。

PDF ファイルから HTML ファイルへの変換

例:PDF から HTML への変換のための Java 経由の Python

    from asposepdf import Api

    documentName = "../../testdata/source.pdf"
    documentOutName = "../../testout/result.html"
    # Open PDF document
    document = Api.Document(documentName)

    # save document in HTML format
    save_options = Api.HtmlSaveOptions()
    document.save(documentOutName, save_options)

Java 経由の Python 用の Aspose.PDF は、さまざまなファイル形式を PDF ドキュメントに変換したり、PDF ファイルをさまざまな出力形式に変換したりするための強力なツールです。Java 経由の Python 用の Aspose.PDF を使用して PDF ファイルを HTML に変換する方法について説明します。PDF を HTML に変換すると、Web サイトを作成したり、オンラインフォーラムにコンテンツを追加したりする場合に便利です。わずか数行の Python コードで、PDF ドキュメントを HTML 形式に簡単に変換できます。このプロセスはPythonを使用して自動化できるため、多数のファイルを迅速かつ効率的に変換できます。単一の PDF ファイルを変換する必要がある場合でも、大量のファイルを変換する必要がある場合でも、Aspose.PDF for Python via Java はワークフローを合理化し、作業を効率的に行うために必要な機能を提供します。

PDF を画像に変換

例:Java 経由の Python で PDF を画像に変換する方法

    from asposepdf import Api, Device

    DIR_INPUT = "../../testdata/"
    DIR_OUTPUT = "../../testout/"

    input_pdf = DIR_INPUT + "source.pdf"
    output_pdf = DIR_OUTPUT + "image"
    # Open PDF document
    document = Api.Document(input_pdf)

    # Create Resolution object
    resolution = Device.Resolution(300)
    device = Device.JpegDevice(resolution)

    for i in range(0, document.getPages.size):
        # Create filename for save
        imageFileName = output_pdf + "_page_" + str(i + 1) + "_out.jpeg"
        # Convert a particular page and save the image to file
        device.process(document.getPages.getPage(i + 1), outputFileName=imageFileName)

Python 用の Aspose.PDF には、PDF ドキュメントを画像に変換するさまざまな方法が用意されています。一般的なアプローチは、デバイスアプローチとSaveOptionアプローチの2つです。このセクションでは、これらの方法を使用して、PDFをBMP、JPEG、GIF、PNG、EMF、TIFF、SVGなどの一般的な画像形式に変換する方法について説明します。ライブラリには、仮想デバイスを使用して画像を変換できるさまざまなクラスが含まれています。DocumentDevice クラスはドキュメント全体を変換するように設計されていますが、ImageDevice クラスは特定のページを対象としています。