Povolení textového vyhledávání a indexování obsahu pro různé formáty souborů dokumentů umožňuje uživatelům optimalizovat produktivitu, zefektivnit načítání dat a zlepšit správu informací napříč organizacemi a aplikacemi. Vylepšete funkčnost svého softwaru nebo systémů založených na .NET umožněním textového vyhledávání v dokumentech a vytvořením indexů pro efektivní získávání informací z rozmanité řady formátů souborů dokumentů.
Hlavní důvody pro vyhledávání v dokumentech
- Organizace dokumentů
- Vyhledávání informací
- Ověření obsahu
- Sumarizace obsahu
- Analýza textu
- Extrakce dat
- Indexování dokumentů
Prohledávejte dokumenty PDF
Používáme Aspose.PDF for .NET , podřízené API Aspose.Total for .NET určené pro konkrétní funkce manipulace s dokumenty a také úkoly spojené s načítáním a vyhledáváním obsahu dokumentu. Níže uvedený fragment kódu je napsán v C# pro interakci s dokumentem PDF. Nejprve nastaví vzor regulárního výrazu pro hledání sekvencí znaků bez mezer v dokumentu. Dále přistoupí na první stránku PDF a použije TextFragmentAbsorber k vyhledání textu na této stránce pomocí zadaného regulárního výrazu. Kód pak shromažďuje nalezené fragmenty textu do kolekce. Nakonec projde touto kolekcí a vydá každý identifikovaný textový fragment do konzole. Tento fragment kódu v podstatě slouží jako mechanismus pro extrahování a zobrazení konkrétních textových vzorů z dokumentu PDF. Kromě toho .NET Search API také podporuje Microsoft Hledání dokumentů ve Wordu a další formáty.