Wyodrębnij PDF przez C++

Jak wyodrębnić tekst i obrazy z pliku PDF za pomocą biblioteki C++

C# Java C++ Python

Najpopularniejsza akcja z Parser

Wyodrębnij tekst

Wyodrębnij obrazy

Wypakuj czcionki

Jak analizować plik PDF za pomocą biblioteki C++

Czy potrzebujesz wyodrębnić PDF? Programowa modyfikacja dokumentów PDF jest istotną częścią nowoczesnych cyfrowych przepływów pracy. Dzięki bibliotekom C++, takim jak Aspose.PDF, programiści mogą wyodrębnić tekst z pliku PDF lub wyodrębnić obrazy z pliku PDF. Biblioteki te są samodzielnymi rozwiązaniami, które nie opierają się na innym oprogramowaniu i są gotowe do użytku komercyjnego. Obejmują wszystkie możliwe potrzeby profesjonalnych programistów C++.

Wyodrębnij dane PDF: teksty, obrazy, formularze, pola itp.
Wyodrębnij tekst z pliku PDF
Wyodrębnij obrazy z pliku PDF
Wyodrębnij czcionki z PDF
Wyodrębnij dane z formularza
Wyodrębnij tekst ze znaczków
Wyodrębnij dane z tabeli

Aby wyodrębnić plik PDF, użyjemy interfejsu API Aspose.PDF for C++, który jest bogatym w funkcje, wydajnym i łatwym w użyciu interfejsem API do manipulacji dokumentami dla platformy cpp. Otwórz menedżera pakietów NuGet, wyszukaj Aspose.PDF i zainstaluj. Możesz także użyć następującego polecenia z konsoli Menedżera pakietów.

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

Analizuj PDF przez C++

Potrzebujesz Aspose.PDF for C++, aby wypróbować kod w swoim środowisku.

Załaduj plik PDF z instancją dokumentu.
Utwórz obiekt TextAbsorber, aby wyodrębnić tekst.
Zaakceptuj absorber dla wszystkich stron.
Pobierz wyodrębniony tekst
Utwórz pisarza i otwórz plik, napisz wiersz tekstu do pliku

Wyodrębnij pliki PDF - C++

Ten przykładowy kod pokazuje, jak wyodrębnić dokumenty PDF

Input file:

Upload a file

File not added

Output format:

PDF

Output file:

    void ExtractTextFromAllThePages() {

    std::clog << __func__ << ": Start" << std::endl;
    // String for path name
    String _dataDir("C:\\Samples\\Parsing\\");

    // String for file name
    String infilename("sample-4pages.pdf");
    String outfilename("extracted-text.txt");

    // Open document
    auto document = MakeObject<Document>(_dataDir + infilename);

    // Create TextAbsorber object to extract text
    auto textAbsorber = MakeObject<TextAbsorber>();
    // Accept the absorber for all the pages
    document->get_Pages()->Accept(textAbsorber);
    // Get the extracted text
    auto extractedText = textAbsorber->get_Text();

    System::IO::File::WriteAllText(_dataDir + outfilename, extractedText);
    std::clog << __func__ << ": Finish" << std::endl;
}

Informacje o Aspose.PDF for C++ API

Aspose.PDF for C++ to potężna biblioteka przetwarzania, która umożliwia programistom tworzenie, czytanie i manipulację dokumentami PDF bez użycia programu Adobe Acrobat. Zapewnia szeroki zakres funkcji, takich jak tworzenie formularzy, dodawanie/edytowanie tekstu, manipulowanie stronami PDF, dodawanie adnotacji, obsługa niestandardowych czcionek i wiele więcej.

Aspose.PDF dla C++ to biblioteka, która umożliwia programistom dodawanie możliwości przetwarzania plików PDF do swoich aplikacji. Interfejs API może być używany do tworzenia aplikacji 32-bitowych i 64-bitowych do generowania, odczytu, konwersji i manipulowania plikami PDF bez użycia programu Adobe Acrobat.

W referencji API można znaleźć szczegółowe wyjaśnienia i przykłady dla każdej klasy i metody w Aspose.PDF dla biblioteki C++. Zaleca również przeglądanie Dokumentacji.