Ekstrak PDF di C++

Cara Mengekstrak teks dan gambar dari PDF Menggunakan C++ Library

Aksi paling populer dengan Parser

Cara Mengekstrak PDF dengan C++ Library

Apakah Anda perlu mengekstrak PDF? Modifikasi terprogram dokumen PDF merupakan bagian penting dari alur kerja digital modern. Dengan pustaka C++ seperti Aspose.PDF, pengembang dapat mengekstrak teks dari PDF atau mengekstrak gambar dari PDF. Pustaka ini adalah solusi yang berdiri sendiri yang tidak bergantung pada perangkat lunak lain dan siap untuk penggunaan komersial. Mereka mencakup semua kemungkinan kebutuhan pengembang C++ profesional.

  • Ekstrak data PDF: teks, gambar, formulir, bidang, dll.
  • Ekstrak teks dari PDF
  • Ekstrak Gambar dari PDF
  • Ekstrak Font dari PDF
  • Ekstrak Data dari Formulir
  • Ekstrak Teks Dari Perangko
  • Ekstrak Data dari Tabel

Untuk mengekstrak file PDF, kita akan menggunakan Aspose.PDF for C++ API yang kaya fitur, kuat dan mudah digunakan manipulasi dokumen untuk platform cpp. Buka manajer paket NuGet, cari Aspose.pdf dan instal. Anda juga dapat menggunakan perintah berikut dari Package Manager Console.

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

Mengurai PDF melalui C++


Anda perlu Aspose.PDF untuk C++ untuk mencoba kode di lingkungan Anda.

  1. Muat PDF dengan instance Document.
  2. Buat objek TexTabSorber untuk mengekstrak teks.
  3. Terima absorber untuk semua halaman.
  4. Dapatkan teks yang diekstraksi
  5. Buat penulis dan buka file, tulis baris teks ke file

Ekstrak File PDF - C++

Kode contoh ini menunjukkan cara mengekstrak dokumen PDF

Input file:

File not added

Output format:

PDF

Output file:


    void ExtractTextFromAllThePages() {

    std::clog << __func__ << ": Start" << std::endl;
    // String for path name
    String _dataDir("C:\\Samples\\Parsing\\");

    // String for file name
    String infilename("sample-4pages.pdf");
    String outfilename("extracted-text.txt");

    // Open document
    auto document = MakeObject<Document>(_dataDir + infilename);

    // Create TextAbsorber object to extract text
    auto textAbsorber = MakeObject<TextAbsorber>();
    // Accept the absorber for all the pages
    document->get_Pages()->Accept(textAbsorber);
    // Get the extracted text
    auto extractedText = textAbsorber->get_Text();

    System::IO::File::WriteAllText(_dataDir + outfilename, extractedText);
    std::clog << __func__ << ": Finish" << std::endl;
}

Tentang Aspose.PDF untuk C++ API

Aspose.PDF untuk C++ adalah pustaka pemrosesan yang kuat yang memungkinkan pengembang untuk membuat, membaca, dan memanipulasi dokumen PDF tanpa menggunakan Adobe Acrobat. Ini menyediakan berbagai fitur seperti membuat formulir, menambahkan/mengedit teks, memanipulasi halaman PDF, menambahkan anotasi, menangani font khusus dan banyak lagi.

Aspose.PDF untuk C++ adalah perpustakaan yang memungkinkan pengembang untuk menambahkan kemampuan pemrosesan PDF ke aplikasi mereka. API dapat digunakan untuk membangun semua jenis aplikasi 32-bit dan 64-bit untuk menghasilkan atau membaca, mengonversi, dan memanipulasi file PDF tanpa menggunakan Adobe Acrobat.

Anda dapat menemukan penjelasan & contoh terperinci untuk setiap kelas & metode di Aspose.PDF untuk pustaka C++ di referensi API. Dan juga merekomendasikan untuk melihat Dokumentasi.