Wyodrębnij PDF w C++

Jak wyodrębnić tekst i obrazy z pliku PDF za pomocą biblioteki C++

Najpopularniejsza akcja z Parser

Jak wyodrębnić plik PDF za pomocą biblioteki C++

Czy potrzebujesz wyodrębnić PDF? Programowa modyfikacja dokumentów PDF jest istotną częścią nowoczesnych cyfrowych przepływów pracy. Dzięki bibliotekom C++, takim jak Aspose.PDF, programiści mogą wyodrębnić tekst z pliku PDF lub wyodrębnić obrazy z pliku PDF. Biblioteki te są samodzielnymi rozwiązaniami, które nie opierają się na innym oprogramowaniu i są gotowe do użytku komercyjnego. Obejmują wszystkie możliwe potrzeby profesjonalnych programistów C++.

  • Wyodrębnij dane PDF: teksty, obrazy, formularze, pola itp.
  • Wyodrębnij tekst z pliku PDF
  • Wyodrębnij obrazy z pliku PDF
  • Wyodrębnij czcionki z PDF
  • Wyodrębnij dane z formularza
  • Wyodrębnij tekst ze znaczków
  • Wyodrębnij dane z tabeli

Aby wyodrębnić plik PDF, użyjemy interfejsu API Aspose.PDF for C++, który jest bogatym w funkcje, wydajnym i łatwym w użyciu interfejsem API do manipulacji dokumentami dla platformy cpp. Otwórz menedżera pakietów NuGet, wyszukaj Aspose.pdf i zainstaluj. Możesz także użyć następującego polecenia z konsoli Menedżera pakietów.

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

Analizuj PDF przez C++


Potrzebujesz Aspose.PDF for C++, aby wypróbować kod w swoim środowisku.

  1. Załaduj plik PDF z wystąpieniem dokumentu.
  2. Tworzenie obiektu TextabSorber, aby wyodrębnić tekst.
  3. Zaakceptuj absorber dla wszystkich stron.
  4. Pobierz wyodrębniony tekst
  5. Utwórz pisarz i otwórz plik, napisz wiersz tekstu do pliku

Wyodrębnij pliki PDF - C++

Ten przykładowy kod pokazuje, jak wyodrębnić dokumenty PDF

Input file:

File not added

Output format:

PDF

Output file:


    void ExtractTextFromAllThePages() {

    std::clog << __func__ << ": Start" << std::endl;
    // String for path name
    String _dataDir("C:\\Samples\\Parsing\\");

    // String for file name
    String infilename("sample-4pages.pdf");
    String outfilename("extracted-text.txt");

    // Open document
    auto document = MakeObject<Document>(_dataDir + infilename);

    // Create TextAbsorber object to extract text
    auto textAbsorber = MakeObject<TextAbsorber>();
    // Accept the absorber for all the pages
    document->get_Pages()->Accept(textAbsorber);
    // Get the extracted text
    auto extractedText = textAbsorber->get_Text();

    System::IO::File::WriteAllText(_dataDir + outfilename, extractedText);
    std::clog << __func__ << ": Finish" << std::endl;
}

Informacje o Aspose.PDF dla C++ API

Aspose.PDF for C++ to potężna biblioteka przetwarzania, która umożliwia programistom tworzenie, odczytywanie i manipulowanie dokumentami PDF bez korzystania z programu Adobe Acrobat. Zapewnia szeroki zakres funkcji, takich jak tworzenie formularzy, dodawanie/edytowanie tekstu, manipulowanie stronami PDF, dodawanie adnotacji, obsługa niestandardowych czcionek i wiele więcej.

Aspose.PDF dla C++ to biblioteka, która umożliwia programistom dodawanie możliwości przetwarzania plików PDF do swoich aplikacji. API może być używany do tworzenia dowolnego typu 32-bitowych i 64-bitowych aplikacji do generowania lub odczytywania, konwertowania i manipulowania plikami PDF bez użycia programu Adobe Acrobat.

Szczegółowe wyjaśnienie i przykłady dla każdej klasy i metody można znaleźć w Aspose.PDF for C++ library w odnośniku API. A także zalecamy przeglądanie Dokumentacja.