Включение текстового поиска и индексирования контента для файлов документов различных форматов позволяет пользователям оптимизировать производительность, упростить поиск данных и улучшить управление информацией в организациях и приложениях. Расширьте функциональность вашего программного обеспечения или систем на базе .NET, обеспечив текстовый поиск в документах и создав индексы для эффективного извлечения информации из множества форматов файлов документов.
Основные причины для поиска в документах
- Организация документа
- Поиск информации
- Проверка контента
- Обобщение контента
- Анализ текста
- Извлечение данных
- Индексирование документов
Поиск PDF-документов
Мы используем Aspose.PDF for .NET , дочерний API Aspose.Total for .NET , предназначенный для определенных функций манипулирования документами, а также задач, связанных с получением и поиском содержимого документа. Ниже приведен фрагмент кода, написанный на C# для взаимодействия с PDF-документом. Сначала он устанавливает шаблон регулярного выражения для поиска последовательностей символов без пробелов в документе. Затем он обращается к первой странице PDF-файла и использует TextFragmentAbsorber для поиска текста на этой странице с использованием указанного регулярного выражения. Затем код собирает обнаруженные фрагменты текста в коллекцию. Наконец, он перебирает эту коллекцию и выводит на консоль каждый идентифицированный фрагмент текста. По сути, этот фрагмент кода служит механизмом для извлечения и отображения определенных текстовых шаблонов из PDF-документа. Более того, .NET Search API также поддерживает Microsoft Поиск документов Word и другие форматы.