Genom att möjliggöra textsökning och innehållsindexering för olika dokumentfilformat ger användarna möjlighet att optimera produktiviteten, effektivisera datahämtning och förbättra informationshanteringen i organisationer och applikationer. Förbättra funktionaliteten hos din .NET-baserade programvara eller system genom att möjliggöra textbaserade sökningar i dokument och upprätta index för effektiv hämtning av information från en mängd olika dokumentfilformat.
Viktiga skäl att söka i dokument
- Dokumentorganisation
- Informationsinhämtning
- Innehållsvalidering
- Sammanfattning av innehåll
- Textanalys
- Dataextraktion
- Dokumentindexering
Sök i PDF-dokument
Vi använder Aspose.PDF for .NET , ett underordnat API till Aspose.Total for .NET som är designat för särskilda dokumentmanipuleringsfunktioner samt uppgifter i samband med hämtning och sökning av dokumentinnehåll. Nedanstående kodavsnitt är skrivet i C# för att interagera med ett PDF-dokument. Det skapar först ett reguljärt uttrycksmönster för att söka efter sekvenser av tecken som inte är blanksteg i dokumentet. Därefter kommer den åt den första sidan i PDF:en och använder en TextFragmentAbsorber för att söka efter text på den sidan med det angivna reguljära uttrycket. Koden samlar sedan de upptäckta textfragmenten till en samling. Slutligen itererar den genom denna samling och matar ut varje identifierat textfragment till konsolen. I huvudsak fungerar detta kodavsnitt som en mekanism för att extrahera och visa specifika textmönster från ett PDF-dokument. Dessutom stöder .NET Search API även Microsoft Sök i Word-dokument och andra format.