Konwersja dokumentów PDF za pośrednictwem Python for .NET

Eksportowanie plików PDF do formatu Microsoft Office® Word, Excel, PowerPoint, prezentacji, obrazów, HTML i formatów o stałym układzie

Przegląd

Istnieje kilka przypadków, gdy istnieje potrzeba manipulowania dokumentami innymi niż PDF, mając dane parsowania dostępne w formatach PDF. Tak więc w przypadku takich aplikacji będą dwa scenariusze albo dodają funkcjonalność analizowania plików PDF w ramach własnego rozwiązania, albo dodają funkcję konwersji PDF w celu manipulowania danymi według obsługiwanych formatów. W drugim scenariuszu, aby przekonwertować plik PDF na Word**, Excel, HTML, obrazy lub dowolny wymagany format, implementacja czytnika i konwerteraC# PDF i konwerter kodu w oparciu o .NET jest proste. Omawiamy tutaj kilka przypadków, aby programiści mogli modyfikować te fragmenty kodu konwersji zgodnie z ich wymaganiami.

Konwersja plików PDF na Microsoft Word 2003-2019

Przykład: Kod C# do konwersji plików PDF na Word

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc.doc"

// Załaduj źródłowy plik PDF
document = ap.Document(input_pdf)

// Zapisz za pomocą opcji zapisywania
// Tworzenie obiektu DocSaveOptions
 save_options = ap.DocSaveOptions()
save_options.format = ap.DocSaveOptions.DocFormat.DOCX

// Ustaw tryb rozpoznawania jako Flow oznacza tryb pełnego rozpoznawania
save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW

// Pozostałe dwa tryby to RecognitionMode.TextBox i RecognitionMode.EnhancedFlow

// Ustaw bliskość poziomą jako 2.5
save_options.relative_horizontal_proximity = 2.5

// Włącz wartość rozpoznawania punktorów podczas procesu konwersji
save_options.recognize_bullets = True

// Zapisz wynikowy plik DOC
document.save(output_pdf, save_options)

Aspose.PDF dla biblioteki .NET obsługuje wszystkie konwersje plików PDF na Word. W przypadku, gdy tylko konwertujemy dokumenty Microsoft Word bez żadnych specjalnych ustawień, po prostu ładujemy plik PDF za pomocą metody Zapisz z klasy Document i użyjemy z wyjściową ścieżką dokumentu Word i SaveFormat jako parametry. W szczególnych przypadkach, w których istnieje potrzeba zwiększenia odległości linii, rozdzielczości obrazu i innych ustawień, API ma klasę DocSaveOptions, która ujawnia wszystkie takie ustawienia.

Zapisz PDF jako pliki Excel

Zapisz PDF jako pliki Excel

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_excel.xlsx"
// Załaduj dokument PDF
document = ap.Document(input_pdf)
// Zainicjuj ExcelSaveOptions
save_option = ap.ExcelSaveOptions()
// Ustaw wyjściowy format Excel XLSX
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
// Zminimalizuj liczbę arkuszy
save_option.minimize_the_number_of_worksheets = True
// Konwertuj plik wyjściowy PDF na Excel
document.save(output_pdf, save_option)

Specialized SaveFormatat.excel Wyliczenie dostępne do zapisywania plików PDF w określonych formatach wyjściowych Microsoft Excel XLS XLSX. Co więcej, .NET PDF Library ma również speicific klasa ExcelSaveOptions, która nie tylko zajmuje się zapisywaniem w formatach Excel, ale także zapewnia różne funkcje i właściwości do ustawiania różnych atrybutów, takich jak dokładny format wyjściowy, minimalizuj liczba arkuszy roboczych i więcej.

Konwertuj PDF na prezentacje PowerPoint

Przykład: Konwersja C# Code PDF do programu PowerPoint

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_pptx.pptx
// Załaduj dokument PDF
document = ap.Document(input_pdf)
save_option = ap.PptxSaveOptions()
save_option.slides_as_images = True
// Zapisz plik wyjściowy
document.save(output_pdf, save_option)

Interfejs API .NET PDF obsługuje konwertowanie stron PDF na slajdy prezentacji PowerPoint z możliwością wyboru tekstu lub obrazów przez renderowanie slajdów jako obrazów. Wzór zapisywania Portable Document Format do programu PowerPoint jest prawie taka sama, Ładowanie pliku za pomocą klasy Document, a następnie wywołanie metody Zapisz ze ścieżką pliku wyjściowego i SaveFormat jako parametrów. W przypadku renderowania ze specjalnymi opcjami prezentacji programiści mogą używać pptXSaveOptions class z dowolnymi odpowiednimi opcjami renderowania. Wywołanie metody zapisu i przekazanie opcji jako parametru.

Przenośny format dokumentu PDF do konwersji HTML

Przykład: Kod C# do konwersji plików PDF na HTML

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_html.html"

// Załaduj źródłowy dokument PDF
document = ap.Document(input_pdf)

// Instancji HTML Zapisz opcje obiektu
save_options = ap.HtmlSaveOptions()

// Włączanie opcji, aby osadzić wszystkie zasoby wewnątrz HTML
save_options.parts_embedding_mode = ap.HtmlSaveOptions.PartsEmbeddingModes.EMBED_ALL_INTO_HTML

// Określanie oddzielnego folderu dla PDF do HTML z obrazami
save_options.special_folder_for_all_images = "ImagesFolder"

// Określanie opcji podziału dla wynikowego kodu HTML na wiele stron
save_options.split_into_pages = True

document.save(output_pdf, save_options)

Biblioteka analizowania plików PDF obsługuje zapisywanie plików PDF do HTML jako całości, a także z osadzonymi zasobami, w tym obrazami. Procedura konwersji jest taka sama jak PDF do innych formatów dla ogólnych przypadków, takich jak ładowanie dokumentu źródłowego i wywołanie metody Zapisz z wyjściową ścieżką pliku HTML i SaveFormat.Html jako parametrami. W przypadku zapisywania z wbudowanymi zasobami istnieje klasa HTMLSaveOptions posiadająca wiele opcji, takich jak zapisywanie obrazów do określonego folderu podczas konwersji, dzielenie wynikowego HTML na wiele stron i więcej.

Konwertuj pliki PDF na obrazy

Przykład: Kod C# do konwersji plików PDF na obrazy

import aspose.pdf as ap

input_pdf = DIR_INPUT + "many_pages.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_jpeg"
imageStream = io.FileIO(output_pdf + "_page_1_out.jpeg", "x")

// Załaduj dokument
document = ap.Document(input_pdf)

// Utwórz obiekt Resolution
resolution = ap.devices.Resolution(300)

// Utwórz urządzenie obrazu z określonymi atrybutami
// Szerokość, Wysokość, Rozdzielczość
device = ap.devices.JpegDevice(resolution)
// Dla BMP, PNG, TIFF będzie to odpowiednio BMPDevice, PNGDevice, TiffDevice

// Konwertuj określoną stronę i zapisz obraz do strumienia
device.process(document.pages[i + 1], imageStream)

// Zamknięcie strumi
imageStream.close()

Konwersja stron PDF na obrazy, w tym PNG, JPEG, TIFF, BMP itp. Jest łatwa w aplikacjach opartych na .NET za pomocą fragmentów kodu wymienionych poniżej. Programiści mogą przeglądać strony PDF po załadowaniu pliku i konwertować stronę po stronie na wymagany format obrazu. Programiści mogą ustawić rozdzielczość poziomą i pionową obrazów za pomocą Klasa rozdzielczości