Ekstrak teks dari PDF di C++

Cara Mengekstrak teks dari PDF menggunakan C++

Cara mengekstrak teks dari PDF menggunakan alat C++

Apakah Anda perlu mengekstrak teks dari PDF? Modifikasi terprogram dokumen PDF adalah bagian penting dari alur kerja digital modern. Dengan pustaka C++ seperti Aspose.PDF, pengembang dapat mengekstrak teks dari PDF. Pustaka ini adalah solusi yang berdiri sendiri yang tidak bergantung pada perangkat lunak lain dan siap untuk penggunaan komersial. Mereka mencakup semua kemungkinan kebutuhan pengembang C++ profesional.

  • Ekstrak teks dari PDF
  • Ekstrak Gambar dari PDF
  • Ekstrak Font dari PDF
  • Ekstrak Data dari Formulir
  • Ekstrak Teks Dari Perangko
  • Ekstrak Data dari Tabel

Untuk mengekstrak teks dari file PDF, kita akan menggunakan Aspose.PDF for C++ API yang kaya fitur, kuat, dan mudah digunakan manipulasi dokumen untuk platform cpp. Buka manajer paket NuGet, cari Aspose.pdf dan instal. Anda juga dapat menggunakan perintah berikut dari Package Manager Console.

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

Ekstrak teks dari PDF di C++


Anda memerlukan Aspose.PDF untuk C++ untuk mencoba kode di lingkungan Anda.

  1. Muat PDF dengan instance Dokumen.
  2. Buat objek TextBsorber untuk mengekstrak teks.
  3. Terima absorber untuk semua halaman.
  4. Dapatkan teks yang diekstraksi
  5. Buat penulis dan buka file, tulis baris teks ke file

Ekstrak teks dari PDF - C++

Kode contoh ini menunjukkan cara mengekstrak teks dari dokumen PDF

Input file:

File not added

Output format:

PDF

Output file:


    void ExtractTextFromAllThePages() {

    std::clog << __func__ << ": Start" << std::endl;
    // String for path name
    String _dataDir("C:\\Samples\\Parsing\\");

    // String for file name
    String infilename("sample-4pages.pdf");
    String outfilename("extracted-text.txt");

    // Open document
    auto document = MakeObject<Document>(_dataDir + infilename);

    // Create TextAbsorber object to extract text
    auto textAbsorber = MakeObject<TextAbsorber>();
    // Accept the absorber for all the pages
    document->get_Pages()->Accept(textAbsorber);
    // Get the extracted text
    auto extractedText = textAbsorber->get_Text();

    System::IO::File::WriteAllText(_dataDir + outfilename, extractedText);
    std::clog << __func__ << ": Finish" << std::endl;
}

Tentang Aspose.PDF untuk C++ API

Aspose.PDF untuk C++ adalah pustaka pemrosesan yang kuat yang memungkinkan pengembang untuk membuat, membaca, dan memanipulasi dokumen PDF tanpa menggunakan Adobe Acrobat. Ini menyediakan berbagai fitur, seperti membuat formulir, menambahkan/mengedit teks, memanipulasi halaman PDF, menambahkan anotasi, menangani font khusus dan banyak lagi.

Aspose.PDF untuk C++ adalah pustaka yang memungkinkan pengembang untuk menambahkan kemampuan pemrosesan PDF ke aplikasi mereka. API dapat digunakan untuk membangun aplikasi 32-bit dan 64-bit untuk menghasilkan, membaca, mengonversi, dan memanipulasi file PDF tanpa menggunakan Adobe Acrobat.

Dalam referensi API, Anda dapat menemukan penjelasan & contoh terperinci untuk setiap kelas & metode di Aspose.PDF untuk perpustakaan C++. Ini juga merekomendasikan melihat Dokumentasi.