Поиск документов с использованием API .NET

Легко и эффективно ищите и извлекайте данные из широкого спектра документов, включая файлы Microsoft Office Word, Excel, PowerPoint и PDF, с помощью Aspose.Total for .NET.

 

Включение текстового поиска и индексирования контента для файлов документов различных форматов позволяет пользователям оптимизировать производительность, упростить поиск данных и улучшить управление информацией в организациях и приложениях. Расширьте функциональность вашего программного обеспечения или систем на базе .NET, обеспечив текстовый поиск в документах и создав индексы для эффективного извлечения информации из множества форматов файлов документов.

Основные причины для поиска в документах

  1. Организация документа
  2. Поиск информации
  3. Проверка контента
  4. Обобщение контента
  5. Анализ текста
  6. Извлечение данных
  7. Индексирование документов

Поиск PDF-документов

Мы используем Aspose.PDF for .NET , дочерний API Aspose.Total for .NET , предназначенный для определенных функций манипулирования документами, а также задач, связанных с получением и поиском содержимого документа. Ниже приведен фрагмент кода, написанный на C# для взаимодействия с PDF-документом. Сначала он устанавливает шаблон регулярного выражения для поиска последовательностей символов без пробелов в документе. Затем он обращается к первой странице PDF-файла и использует TextFragmentAbsorber для поиска текста на этой странице с использованием указанного регулярного выражения. Затем код собирает обнаруженные фрагменты текста в коллекцию. Наконец, он перебирает эту коллекцию и выводит на консоль каждый идентифицированный фрагмент текста. По сути, этот фрагмент кода служит механизмом для извлечения и отображения определенных текстовых шаблонов из PDF-документа. Более того, .NET Search API также поддерживает Microsoft Поиск документов Word и другие форматы.

Код C# для поиска PDF-документов