A dokumentumelemzés magában foglalja a strukturált adatok kinyerését strukturálatlan dokumentumokból, például Microsoft Word-, Excel-, PowerPoint- és PDF-fájlokból. Ez a dokumentum tartalmának elemzése a releváns információk, például szövegek, táblázatok, képek és metaadatok azonosítása és kinyerése érdekében. A dokumentumok elemzése különféle okokból elengedhetetlen, beleértve az adatkinyerést, a tartalomelemzést, az információkeresést és a dokumentumfeldolgozást.
A dokumentumok elemzésére szolgáló C++ alkalmazás fejlesztése jelentős előnyökkel jár. A C++ nagy teljesítménye és hatékonysága nagy mennyiségű dokumentum gyors és megbízható feldolgozását teszi lehetővé. Ez robusztus elemzési algoritmusokat biztosít, amelyek képesek a különféle formátumok optimális teljesítménnyel történő kezelésére. Ezenkívül egy C++ alkalmazás testre szabható, hogy megfeleljen az adott elemzési követelményeknek, offline képességeket, adatvédelmet és biztonságot kínálva, így sokoldalú és megbízható megoldást jelent a dokumentumelemzési igények kielégítésére a különböző iparágakban és felhasználási esetekben.
Microsoft Word fájlok elemzése
A Word dokumentumok Aspose.Total for C++ használatával történő elemzése számos előnnyel jár. Először is, a Aspose.Total for C++ speciális API-kat kínál a Word dokumentumok hatékony elemzésére, biztosítva a zökkenőmentes integrációt a C++ alkalmazásokba. Ez megkönnyíti a strukturált adatok, például szöveg, formázás, táblázatok és metaadatok pontos és megbízható kinyerését. Másodszor, a Aspose.Total for C++ nagy teljesítményt és hatékonyságot biztosít a Word dokumentumok elemzésében, lehetővé téve nagy mennyiségű fájl gyors feldolgozását. Ez biztosítja az optimális teljesítményt még összetett dokumentumok vagy kiterjedt dokumentumtárak kezelésekor is. Ezenkívül a C++ elemző könyvtár offline lehetőségeket biztosít, lehetővé téve az elemzést internetfüggőség nélkül, így biztosítva az adatvédelmet és a biztonságot.
C++ kód – Microsoft Word fájl elemzése
System::String inputDataDir = GetInputDataDir_WorkingWithImages(); | |
System::String outputDataDir = GetOutputDataDir_WorkingWithImages(); | |
System::SharedPtr<Document> doc = System::MakeObject<Document>(inputDataDir + u"Image.SampleImages.doc"); | |
System::SharedPtr<NodeCollection> shapes = doc->GetChildNodes(NodeType::Shape, true); | |
int32_t imageIndex = 0; | |
for (System::SharedPtr<Shape> shape : System::IterateOver<System::SharedPtr<Shape>>(shapes)) | |
{ | |
if (shape->get_HasImage()) | |
{ | |
System::String imageFileName = System::String::Format(u"Image.ExportImages.{0}.{1}", imageIndex, FileFormatUtil::ImageTypeToExtension(shape->get_ImageData()->get_ImageType())); | |
System::String imagePath = outputDataDir + imageFileName; | |
shape->get_ImageData()->Save(imagePath); | |
std::cout << "Image saved at " << imagePath.ToUtf8String() << std::endl; | |
imageIndex++; | |
} | |
} |
Microsoft Powerpoint-bemutatók elemzése
A PowerPoint prezentációk Aspose.Total for C++ használatával történő elemzése biztosítja a strukturált adatok, köztük a diatartalmak, képek és jegyzetek zökkenőmentes integrációját és hatékony kinyerését. A speciális API-kkal a fejlesztők nagy teljesítményt és megbízhatóságot érhetnek el, még akkor is, ha nagy mennyiségű fájlt dolgoznak fel. A testreszabható elemzési lehetőségek lehetővé teszik a folyamat egyedi igényekhez való igazítását, biztosítva a rugalmasságot és a pontosságot.
C++ kód – Microsoft Powerpoint prezentáció elemzése
const String sourceFilePath = u"SourcePath\sourceFile.pptx"; | |
SharedPtr<Presentation> presentation = MakeObject<Presentation>(sourceFilePath); | |
System::ArrayPtr<SharedPtr<ITextFrame>> textFramesSlideOne = SlideUtil::GetAllTextBoxes(presentation->get_Slides()->idx_get(0)); | |
for (int i = 0; i get_Length(); i++){ | |
for (SharedPtr<IParagraph> paragraph : textFramesSlideOne[i]->get_Paragraphs()){ | |
for (SharedPtr<IPortion> portion : paragraph->get_Portions()){ | |
Console::WriteLine(portion->get_Text()); | |
} | |
} | |
} |
PDF fájlok elemzése
A PDF dokumentumok Aspose.Total for C++ használatával történő elemzése jelentős előnyökkel jár. A speciális API-kkal a C++ alkalmazásokba való zökkenőmentes integráció biztosítja a strukturált adatok, például szövegek, képek és metaadatok hatékony kinyerését. A Aspose.Total for C++ nagy teljesítményt és megbízhatóságot biztosít még nagy mennyiségű PDF-fájl feldolgozásakor is, garantálva az optimális elemzési eredményeket. A testreszabható elemzési opciók lehetővé teszik a fejlesztők számára, hogy a folyamatot az adott követelményekhez igazítsák, biztosítva a rugalmasságot és a pontosságot.
C++ kód – PDF fájl elemzése
String _dataDir("C:\\Samples\\Parsing\\"); | |
String infilename("sample-4pages.pdf"); | |
String outfilename("extracted-text.txt"); | |
auto document = MakeObject<Document>(_dataDir + infilename); | |
auto textAbsorber = MakeObject<TextAbsorber>(); | |
document->get_Pages()->Accept(textAbsorber); | |
auto extractedText = textAbsorber->get_Text(); | |
System::IO::File::WriteAllText(_dataDir + outfilename, extractedText); |