Włączenie wyszukiwania tekstu i indeksowania treści dla różnych formatów plików dokumentów umożliwia użytkownikom optymalizację produktywności, usprawnienie wyszukiwania danych i usprawnienie zarządzania informacjami w organizacjach i aplikacjach. Zwiększ funkcjonalność oprogramowania lub systemów opartych na platformie .NET, umożliwiając wyszukiwanie tekstowe w dokumentach i ustanawiając indeksy w celu wydajnego wyszukiwania informacji z różnorodnej gamy formatów plików dokumentów.
Kluczowe powody, dla których warto przeszukiwać dokumenty
- Organizacja dokumentów
- Wyszukiwanie informacji
- Walidacja treści
- Podsumowanie treści
- Analiza tekstu
- Ekstrakcja danych
- Indeksowanie dokumentów
Wyszukaj dokumenty PDF
Używamy Aspose.PDF for .NET , podrzędnego API Aspose.Total for .NET zaprojektowanego do określonych funkcji manipulacji dokumentami, a także zadań związanych z wyszukiwaniem i wyszukiwaniem treści dokumentów. Poniższy fragment kodu napisano w języku C# w celu interakcji z dokumentem PDF. Najpierw konfiguruje wzorzec wyrażenia regularnego w celu wyszukiwania w dokumencie sekwencji znaków innych niż białe znaki. Następnie uzyskuje dostęp do pierwszej strony pliku PDF i wykorzystuje TextFragmentAbsorber do wyszukiwania tekstu na tej stronie przy użyciu określonego wyrażenia regularnego. Następnie kod gromadzi odkryte fragmenty tekstu w kolekcji. Na koniec iteruje po tej kolekcji i wysyła każdy zidentyfikowany fragment tekstu do konsoli. Zasadniczo ten fragment kodu służy jako mechanizm wyodrębniania i wyświetlania określonych wzorców tekstu z dokumentu PDF. Co więcej, .NET Search API obsługuje także Microsoft Wyszukiwanie dokumentów Worda i inne formaty.
Kod C# do wyszukiwania dokumentów PDF
Aspose.Pdf.Document document = new Aspose.Pdf.Document("SearchTextRegex.pdf"); | |
System.Text.RegularExpressions.Regex regex = new System.Text.RegularExpressions.Regex(@"[\S]+"); | |
Page page = document.Pages[1]; | |
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber(regex); | |
textFragmentAbsorber.TextSearchOptions.IsRegularExpressionUsed = true; | |
// Accept the absorber for the page | |
page.Accept(textFragmentAbsorber); | |
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments; | |
foreach (TextFragment textFragment in textFragmentCollection){ | |
Console.WriteLine(textFragment.Text); | |
} |