Konwersja dokumentów PDF za pośrednictwem Python for Java

Eksportowanie plików PDF do formatu Microsoft Office® Word, Excel, PowerPoint, prezentacji, obrazów, HTML i formatów o stałym układzie

Przegląd

Szukasz sposobu na konwersję plików PDF do innych formatów za pomocą Pythona i Java? Aspose.PDF dla Pythona poprzez Java jest idealnym rozwiązaniem do konwersji dokumentów PDF. Python to obiektowy język programowania, który jest powszechnie używany do tworzenia prototypów oprogramowania dla aplikacji internetowych i przetwarzania danych. W tym artykule pokażemy, jak przekonwertować plik PDF na tekst za pomocą Pythona za pomocą Java. Pliki PDF mogą zawierać różnorodne treści, w tym tekst, obrazy, klikalne przyciski, hiperłącza, osadzone czcionki, podpisy i znaczki. Podczas konwersji pliku PDF na inny format użytkownicy często są zainteresowani możliwością edycji zawartości PDF. Z Aspose.PDF dla Pythona za pośrednictwem Java, możesz łatwo i szybko konwertować dokumenty PDF do najpopularniejszych formatów i odwrotnie. Nasza biblioteka zapewnia, że Twoje pliki PDF są pomyślnie i dokładnie konwertowane.

Konwertuj PDF na Word

Przykład: Python przez Java do konwersji PDF na Word

    from asposepdf import Api

    DIR_INPUT = "testdata/"
    DIR_OUTPUT = "testout/"

    input_pdf = DIR_INPUT + "Hello.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.docx"
    # Open PDF document
    document = Api.Document(input_pdf)

    save_options = Api.DocSaveOptions()
    save_options.format = Api.DocSaveOptions.DocFormat.Docx
    # Set the recognition mode as Flow
    save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
    # Set the Horizontal proximity as 2.5
    save_options.relative_horizontal_proximity = 2.5
    # Enable the value to recognize bullets during conversion process
    save_options.recognize_bullets = True

    # Save the file into MS Word document format
    document.save(output_pdf, save_options)

Korzystając z Aspose.PDF dla Python API, możesz łatwo czytać i konwertować dokumenty PDF do formatu DOCX w Pythonie za pośrednictwem Java. DOCX to szeroko stosowany format plików dla dokumentów Microsoft Word, który ma strukturę łączącą pliki XML i binarne, w przeciwieństwie do zwykłego formatu binarnego używanego przez jego poprzednika, DOC. Chociaż pliki DOCX można otwierać w programie Word 2007 i nowszych wersjach, wcześniejsze wersje MS Word obsługujące rozszerzenia plików DOC nie są w stanie ich otworzyć. Za pomocą tego kodu możesz bezproblemowo konwertować dokumenty PDF do formatu DOCX za pomocą Aspose.PDF dla Python API.

Konwertuj pliki PDF na pliki Excel

Konwertuj pliki PDF na pliki Excel

    documentName = "testdata/source.pdf"
    doc = Api.Document(documentName)
    documentOutName = "testout/result2.xls"
    doc.save(documentOutName, Api.SaveFormat.Excel)

Aspose.PDF dla Python za pośrednictwem Java zapewnia funkcję konwersji plików PDF do formatów Excel i CSV. Umożliwia to łatwe wyodrębnienie danych tabelarycznych z plików PDF i używanie ich w programie Excel lub innych aplikacjach obsługujących pliki CSV. Aspose.PDF dla Pythona za pośrednictwem Java to potężny komponent do manipulacji PDF, który zawiera teraz funkcję renderowania plików PDF jako skoroszyty programu Excel (pliki XLSX). Dzięki tej funkcji każda strona pliku PDF jest konwertowana na osobny arkusz programu Excel, co ułatwia pracę i analizę danych w programie Excel. Niezależnie od tego, czy chcesz wyodrębnić dane z plików PDF, czy przekonwertować je na Excel w celu dalszej analizy, Aspose.PDF dla Pythona za pośrednictwem Java może zapewnić funkcjonalność potrzebną do szybkiego i łatwego wykonania zadania.

Konwertuj PDF na prezentacje PowerPoint

Przykład: Python poprzez Java PDF do konwersji PowerPoint

    DIR_INPUT = "testdata/"
    DIR_OUTPUT = "testout/"

    input_pdf = DIR_INPUT + "Hello.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_pptx_with_options.pptx"
    # Open PDF document
    document = Api.Document(input_pdf)

    save_options = Api.PptxSaveOptions()
    save_options._ImageResolution = 300
    save_options._SeparateImages = True
    save_options._OptimizeTextBoxes = True

    # Save the file into MS Word document format
    document.save(output_pdf, save_options)

Z Aspose.PDF dla Pythona za pośrednictwem Java, możesz łatwo śledzić postęp konwersji PDF na PPTX. Może to być pomocne podczas pracy z dużymi lub złożonymi plikami PDF, których konwersja zajmuje trochę czasu. Oprócz konwersji Aspose.PDF oferujemy również Aspose.Slides API, który zapewnia możliwość tworzenia i manipulowania prezentacjami PPT/PPTX. Ten interfejs API zawiera funkcję konwersji plików PPT/PPTX do formatu PDF. Podczas tego procesu konwersji każda strona pliku PDF jest konwertowana na osobny slajd w pliku PPTX, co ułatwia pracę z prezentacją i edycję prezentacji. Niezależnie od tego, czy potrzebujesz konwertować pliki PDF na PPTX, czy tworzyć i manipulować prezentacjami, Aspose.PDF dla Pythona za pośrednictwem Java i Aspose.Slides API może zapewnić funkcjonalność potrzebną do usprawnienia przepływu pracy i wydajnego wykonania zadania.

Konwertuj plik PDF na HTML

Przykład: Python przez Java do konwersji PDF na HTML

    from asposepdf import Api

    documentName = "../../testdata/source.pdf"
    documentOutName = "../../testout/result.html"
    # Open PDF document
    document = Api.Document(documentName)

    # save document in HTML format
    save_options = Api.HtmlSaveOptions()
    document.save(documentOutName, save_options)

Aspose.PDF dla Pythona za pośrednictwem Java to potężne narzędzie do konwersji różnych formatów plików na dokumenty PDF, a także konwertowania plików PDF do różnych formatów wyjściowych. Będziemy badać, jak przekonwertować plik PDF do HTML za pomocą Aspose.PDF dla Pythona za pośrednictwem Java. Konwersja PDF na HTML może być przydatna, jeśli chcesz utworzyć stronę internetową lub dodać zawartość do forum online. Za pomocą zaledwie kilku wierszy kodu Pythona możesz łatwo konwertować dokumenty PDF do formatu HTML. Proces ten można zautomatyzować za pomocą Pythona, co czyni go szybkim i skutecznym sposobem konwersji dużej liczby plików. Niezależnie od tego, czy chcesz przekonwertować pojedynczy plik PDF, czy dużą partię plików, Aspose.PDF dla Pythona za pośrednictwem Java może zapewnić funkcjonalność potrzebną do usprawnienia przepływu pracy i wydajnego wykonania zadania.

Konwertuj PDF na obrazy

Przykład: Python przez Java do konwersji plików PDF na obrazy

    from asposepdf import Api, Device

    DIR_INPUT = "../../testdata/"
    DIR_OUTPUT = "../../testout/"

    input_pdf = DIR_INPUT + "source.pdf"
    output_pdf = DIR_OUTPUT + "image"
    # Open PDF document
    document = Api.Document(input_pdf)

    # Create Resolution object
    resolution = Device.Resolution(300)
    device = Device.JpegDevice(resolution)

    for i in range(0, document.getPages.size):
        # Create filename for save
        imageFileName = output_pdf + "_page_" + str(i + 1) + "_out.jpeg"
        # Convert a particular page and save the image to file
        device.process(document.getPages.getPage(i + 1), outputFileName=imageFileName)

Aspose.PDF dla Pythona zapewnia różne metody konwersji dokumentów PDF na obrazy. Dwa popularne podejścia to podejście Device i podejście SaveOption. W tej sekcji zbadamy, jak korzystać z tych podejść do konwersji plików PDF na popularne formaty obrazów, takie jak BMP, JPEG, GIF, PNG, EMF, TIFF i SVG. Biblioteka zawiera różne klasy, które umożliwiają korzystanie z urządzenia wirtualnego do przekształcania obrazów. Klasa DocumentDevice jest przeznaczona do konwersji całego dokumentu, podczas gdy klasa ImageDevice jest przeznaczona dla określonej strony.