สารสกัดจาก PDF ใน C++

วิธีการดึงข้อความและภาพจาก PDF โดยใช้ห้องสมุด C++

การดำเนินการยอดนิยมกับ Parser

วิธีการแยกไฟล์ PDF ที่มี C++ ไลบรารี

คุณจำเป็นต้องแยกไฟล์ PDF หรือไม่?การปรับเปลี่ยนโปรแกรมของเอกสาร PDF เป็นส่วนสำคัญของเวิร์กโฟลว์ดิจิตอลที่ทันสมัยด้วย C++ ห้องสมุดเช่น Aspose.PDF, นักพัฒนาสามารถดึงข้อความจาก PDF หรือสารสกัดจากภาพจาก PDFไลบรารีเหล่านี้เป็นโซลูชันแบบสแตนด์อโลนที่ไม่ต้องพึ่งพาซอฟต์แวร์อื่น ๆ และพร้อมสำหรับการใช้งานเชิงพาณิชย์พวกเขาครอบคลุมความต้องการที่เป็นไปได้ทั้งหมดของมืออาชีพ C++ นักพัฒนา

  • ดึงข้อมูล PDF: ข้อความ, ภาพ, รูปแบบ, ฟิลด์, ฯลฯ
  • ดึงข้อความจาก PDF
  • ดึงภาพจาก PDF
  • สารสกัดจากแบบอักษรจาก PDF
  • ดึงข้อมูลจากแบบฟอร์ม
  • ดึงข้อความจากแสตมป์
  • ดึงข้อมูลจากตาราง

เพื่อที่จะดึงไฟล์ PDF เราจะใช้ Aspose.PDF for C++ API ซึ่งเป็นคุณลักษณะที่อุดมไปด้วยที่มีประสิทธิภาพและง่ายต่อการใช้ API การจัดการเอกสาร {{}} แพลตฟอร์มเปิดตัวจัดการแพคเกจ NuGet ค้นหาaspose.pdf และติดตั้งนอกจากนี้คุณยังอาจใช้คำสั่งต่อไปนี้จากคอนโซลการจัดการแพคเกจ

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

แยกวิเคราะห์ไฟล์ PDF ผ่าน C++


คุณจำเป็นต้อง Aspose.PDF for C++ เพื่อลองรหัสในสภาพแวดล้อมของคุณ

1.โหลดไฟล์ PDF ที่มีอินสแตนซ์ของเอกสาร 1.สร้างวัตถุ TextTabSorber เพื่อดึงข้อความ 1.ยอมรับโช้คสำหรับทุกหน้า 1.ได้รับข้อความที่สกัด 1.สร้างนักเขียนและเปิดไฟล์เขียนบรรทัดของข้อความไปยังแฟ้ม

สารสกัดจากไฟล์ PDF - C++

ตัวอย่างโค้ดนี้จะแสดงวิธีการแยกเอกสาร PDF

Input file:

File not added

Output format:

PDF

Output file:


    void ExtractTextFromAllThePages() {

    std::clog << __func__ << ": Start" << std::endl;
    // String for path name
    String _dataDir("C:\\Samples\\Parsing\\");

    // String for file name
    String infilename("sample-4pages.pdf");
    String outfilename("extracted-text.txt");

    // Open document
    auto document = MakeObject<Document>(_dataDir + infilename);

    // Create TextAbsorber object to extract text
    auto textAbsorber = MakeObject<TextAbsorber>();
    // Accept the absorber for all the pages
    document->get_Pages()->Accept(textAbsorber);
    // Get the extracted text
    auto extractedText = textAbsorber->get_Text();

    System::IO::File::WriteAllText(_dataDir + outfilename, extractedText);
    std::clog << __func__ << ": Finish" << std::endl;
}

เกี่ยวกับ Aspose.PDF สำหรับ C++ API

Aspose.PDF สำหรับ C++ เป็นห้องสมุดประมวลผลที่มีประสิทธิภาพที่ช่วยให้นักพัฒนาสามารถสร้างอ่านและจัดการเอกสาร PDF โดยไม่ต้องใช้ Adobe Acrobatมันมีความหลากหลายของคุณสมบัติเช่นการสร้างรูปแบบเพิ่ม/แก้ไขข้อความการจัดการหน้าไฟล์ PDF, เพิ่มคำอธิบายประกอบ, การจัดการแบบอักษรที่กำหนดเองและอื่น ๆ อีกมากมาย

Aspose.PDF สำหรับ C++ เป็นห้องสมุดที่ช่วยให้นักพัฒนาที่จะเพิ่มความสามารถในการประมวลผล PDF เพื่อการใช้งานของพวกเขาAPI สามารถใช้ในการสร้างประเภทของการใช้งาน 32 บิตและ 64 บิตใด ๆ เพื่อสร้างหรืออ่านแปลงและจัดการไฟล์ PDF โดยไม่ต้องใช้ Adobe Acrobat

คุณสามารถค้นหาคำอธิบายรายละเอียดและตัวอย่างสำหรับทุกชั้นเรียนและวิธีการใน Aspose.PDF for C++ ห้องสมุด ในการอ้างอิง APIและยังแนะนำให้ดู เอกสาร.