L’activation de la recherche de texte et de l’indexation du contenu pour divers formats de fichiers de documents permet aux utilisateurs d’optimiser la productivité, de rationaliser la récupération des données et d’améliorer la gestion des informations dans les organisations et les applications. Améliorez les fonctionnalités de vos logiciels ou systèmes basés sur .NET en permettant des recherches textuelles dans les documents et en établissant des index pour la récupération efficace d’informations à partir d’un large éventail de formats de fichiers de documents.
Principales raisons de rechercher dans les documents
- Organisation des documents
- Récupération de l’information
- Validation du contenu
- Résumé du contenu
- Analyse de texte
- Extraction de données
- Indexation de documents
Rechercher des documents PDF
Nous utilisons Aspose.PDF for .NET , une API enfant de Aspose.Total for .NET conçue pour des fonctionnalités particulières de manipulation de documents ainsi que pour les tâches associées à la récupération et à la recherche du contenu du document. L’extrait de code ci-dessous est écrit en C# pour interagir avec un document PDF. Il configure d’abord un modèle d’expression régulière pour rechercher des séquences de caractères autres que des espaces dans le document. Ensuite, il accède à la première page du PDF et utilise un TextFragmentAbsorber pour rechercher du texte sur cette page à l’aide de l’expression régulière spécifiée. Le code rassemble ensuite les fragments de texte découverts dans une collection. Enfin, il parcourt cette collection et affiche chaque fragment de texte identifié sur la console. Essentiellement, cet extrait de code sert de mécanisme pour extraire et afficher des modèles de texte spécifiques à partir d’un document PDF. De plus, l’API de recherche .NET prend également en charge Microsoft Recherche de documents Word et d’autres formats.