Povolení textového vyhledávání a indexování obsahu pro různé formáty souborů dokumentů umožňuje uživatelům optimalizovat produktivitu, zefektivnit načítání dat a zlepšit správu informací napříč organizacemi a aplikacemi. Vylepšete funkčnost svého softwaru nebo systémů založených na .NET umožněním textového vyhledávání v dokumentech a vytvořením indexů pro efektivní získávání informací z rozmanité řady formátů souborů dokumentů.
Hlavní důvody pro vyhledávání v dokumentech
- Organizace dokumentů
- Vyhledávání informací
- Ověření obsahu
- Sumarizace obsahu
- Analýza textu
- Extrakce dat
- Indexování dokumentů
Prohledávejte dokumenty PDF
Používáme Aspose.PDF for .NET , podřízené API Aspose.Total for .NET určené pro konkrétní funkce manipulace s dokumenty a také úkoly spojené s načítáním a vyhledáváním obsahu dokumentu. Níže uvedený fragment kódu je napsán v C# pro interakci s dokumentem PDF. Nejprve nastaví vzor regulárního výrazu pro hledání sekvencí znaků bez mezer v dokumentu. Dále přistoupí na první stránku PDF a použije TextFragmentAbsorber k vyhledání textu na této stránce pomocí zadaného regulárního výrazu. Kód pak shromažďuje nalezené fragmenty textu do kolekce. Nakonec projde touto kolekcí a vydá každý identifikovaný textový fragment do konzole. Tento fragment kódu v podstatě slouží jako mechanismus pro extrahování a zobrazení konkrétních textových vzorů z dokumentu PDF. Kromě toho .NET Search API také podporuje Microsoft Hledání dokumentů ve Wordu a další formáty.
C# kód pro vyhledávání PDF dokumentů
Aspose.Pdf.Document document = new Aspose.Pdf.Document("SearchTextRegex.pdf"); | |
System.Text.RegularExpressions.Regex regex = new System.Text.RegularExpressions.Regex(@"[\S]+"); | |
Page page = document.Pages[1]; | |
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber(regex); | |
textFragmentAbsorber.TextSearchOptions.IsRegularExpressionUsed = true; | |
// Accept the absorber for the page | |
page.Accept(textFragmentAbsorber); | |
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments; | |
foreach (TextFragment textFragment in textFragmentCollection){ | |
Console.WriteLine(textFragment.Text); | |
} |