แยกวิเคราะห์เอกสารโดยใช้ C ++ API

แยกข้อความหรือรูปภาพจาก Microsoft Word, Excel, PowerPoint Presentations และไฟล์ PDF โดยใช้ Aspose.Total for C++

 

การแยกวิเคราะห์เอกสารเกี่ยวข้องกับการแยกข้อมูลที่มีโครงสร้างออกจากเอกสารที่ไม่มีโครงสร้าง เช่น ไฟล์ Microsoft Word, Excel, PowerPoint และ PDF เป็นกระบวนการวิเคราะห์เนื้อหาของเอกสารเพื่อระบุและแยกข้อมูลที่เกี่ยวข้อง เช่น ข้อความ ตาราง รูปภาพ และเมตาดาต้า การแยกวิเคราะห์เอกสารเป็นสิ่งจำเป็นด้วยเหตุผลหลายประการ รวมถึงการดึงข้อมูล การวิเคราะห์เนื้อหา การดึงข้อมูล และการประมวลผลเอกสาร

การพัฒนาแอปพลิเคชัน C++ สำหรับการแยกวิเคราะห์เอกสารมีข้อได้เปรียบที่สำคัญ ประสิทธิภาพและประสิทธิผลระดับสูงของ C++ ช่วยให้สามารถประมวลผลเอกสารปริมาณมากได้อย่างรวดเร็วและเชื่อถือได้ ช่วยให้มั่นใจได้ถึงอัลกอริธึมการแยกวิเคราะห์ที่มีประสิทธิภาพซึ่งสามารถจัดการรูปแบบต่างๆ ด้วยประสิทธิภาพสูงสุด นอกจากนี้ แอปพลิเคชัน C++ ยังสามารถปรับแต่งให้ตรงตามข้อกำหนดการแยกวิเคราะห์เฉพาะ โดยนำเสนอความสามารถแบบออฟไลน์ ความเป็นส่วนตัวของข้อมูล และการรักษาความปลอดภัย ทำให้เป็นโซลูชันที่หลากหลายและเชื่อถือได้สำหรับความต้องการการแยกวิเคราะห์เอกสารในอุตสาหกรรมและกรณีการใช้งานต่างๆ

แยกไฟล์ Microsoft Word

การแยกวิเคราะห์เอกสาร Word โดยใช้ Aspose.Total for C++ มีข้อดีหลายประการ ประการแรก Aspose.Total for C++ นำเสนอ API เฉพาะทางที่ปรับแต่งมาเพื่อการแยกวิเคราะห์เอกสาร Word ที่มีประสิทธิภาพ ช่วยให้มั่นใจในการผสานรวมเข้ากับแอปพลิเคชัน C++ ได้อย่างราบรื่น สิ่งนี้อำนวยความสะดวกในการแยกข้อมูลที่มีโครงสร้าง เช่น ข้อความ การจัดรูปแบบ ตาราง และข้อมูลเมตา ด้วยความแม่นยำและความน่าเชื่อถือ ประการที่สอง Aspose.Total for C++ ให้ประสิทธิภาพและประสิทธิผลสูงในการแยกวิเคราะห์เอกสาร Word ช่วยให้สามารถประมวลผลไฟล์ปริมาณมากได้อย่างรวดเร็ว ช่วยให้มั่นใจถึงประสิทธิภาพสูงสุด แม้ว่าจะจัดการกับเอกสารที่ซับซ้อนหรือที่เก็บเอกสารที่กว้างขวางก็ตาม นอกจากนี้ ไลบรารีการแยกวิเคราะห์ C++ ช่วยให้มั่นใจถึงความสามารถแบบออฟไลน์ ช่วยให้การแยกวิเคราะห์ดำเนินการได้โดยไม่ต้องพึ่งพาอินเทอร์เน็ต จึงมั่นใจได้ถึงความเป็นส่วนตัวและความปลอดภัยของข้อมูล

รหัส C++ - แยกวิเคราะห์ไฟล์ Microsoft Word

System::String inputDataDir = GetInputDataDir_WorkingWithImages();
System::String outputDataDir = GetOutputDataDir_WorkingWithImages();
System::SharedPtr<Document> doc = System::MakeObject<Document>(inputDataDir + u"Image.SampleImages.doc");
System::SharedPtr<NodeCollection> shapes = doc->GetChildNodes(NodeType::Shape, true);
int32_t imageIndex = 0;
for (System::SharedPtr<Shape> shape : System::IterateOver<System::SharedPtr<Shape>>(shapes))
{
if (shape->get_HasImage())
{
System::String imageFileName = System::String::Format(u"Image.ExportImages.{0}.{1}", imageIndex, FileFormatUtil::ImageTypeToExtension(shape->get_ImageData()->get_ImageType()));
System::String imagePath = outputDataDir + imageFileName;
shape->get_ImageData()->Save(imagePath);
std::cout << "Image saved at " << imagePath.ToUtf8String() << std::endl;
imageIndex++;
}
}

แยกวิเคราะห์การนำเสนอ Microsoft Powerpoint

การแยกวิเคราะห์งานนำเสนอ PowerPoint โดยใช้ Aspose.Total for C++ ช่วยให้มั่นใจได้ถึงการผสานรวมที่ราบรื่นและการดึงข้อมูลที่มีโครงสร้างอย่างมีประสิทธิภาพ รวมถึงเนื้อหาสไลด์ รูปภาพ และบันทึกย่อ ด้วย API เฉพาะทาง นักพัฒนาสามารถบรรลุประสิทธิภาพและความน่าเชื่อถือในระดับสูง แม้ว่าจะประมวลผลไฟล์จำนวนมากก็ตาม ตัวเลือกการแยกวิเคราะห์ที่ปรับแต่งได้ช่วยให้สามารถปรับกระบวนการตามความต้องการเฉพาะได้ ทำให้มั่นใจได้ถึงความยืดหยุ่นและความแม่นยำ

รหัส C++ - แยกวิเคราะห์การนำเสนอ Microsoft Powerpoint

const String sourceFilePath = u"SourcePath\sourceFile.pptx";
SharedPtr<Presentation> presentation = MakeObject<Presentation>(sourceFilePath);
System::ArrayPtr<SharedPtr<ITextFrame>> textFramesSlideOne = SlideUtil::GetAllTextBoxes(presentation->get_Slides()->idx_get(0));
for (int i = 0; i get_Length(); i++){
for (SharedPtr<IParagraph> paragraph : textFramesSlideOne[i]->get_Paragraphs()){
for (SharedPtr<IPortion> portion : paragraph->get_Portions()){
Console::WriteLine(portion->get_Text());
}
}
}

แยกวิเคราะห์ไฟล์ PDF

การแยกวิเคราะห์เอกสาร PDF โดยใช้ Aspose.Total for C++ ให้ประโยชน์อย่างมาก ด้วย API เฉพาะทาง การผสานรวมเข้ากับแอปพลิเคชัน C++ ได้อย่างราบรื่นช่วยให้มั่นใจในการแยกข้อมูลที่มีโครงสร้าง เช่น ข้อความ รูปภาพ และข้อมูลเมตาได้อย่างมีประสิทธิภาพ Aspose.Total for C++ รับประกันประสิทธิภาพและความน่าเชื่อถือสูง แม้ในขณะที่ประมวลผลไฟล์ PDF จำนวนมาก รับประกันผลลัพธ์การแยกวิเคราะห์ที่เหมาะสมที่สุด ตัวเลือกการแยกวิเคราะห์ที่ปรับแต่งได้ช่วยให้นักพัฒนาสามารถปรับแต่งกระบวนการตามความต้องการเฉพาะ ทำให้มั่นใจได้ถึงความยืดหยุ่นและความแม่นยำ

รหัส C++ - แยกวิเคราะห์ไฟล์ PDF

String _dataDir("C:\\Samples\\Parsing\\");
String infilename("sample-4pages.pdf");
String outfilename("extracted-text.txt");
auto document = MakeObject<Document>(_dataDir + infilename);
auto textAbsorber = MakeObject<TextAbsorber>();
document->get_Pages()->Accept(textAbsorber);
auto extractedText = textAbsorber->get_Text();
System::IO::File::WriteAllText(_dataDir + outfilename, extractedText);