为不同的文档文件格式启用文本搜索和内容索引使用户能够优化生产力、简化数据检索并增强跨组织和应用程序的信息管理。 通过在文档中启用基于文本的搜索并建立索引以从各种文档文件格式中高效检索信息,增强基于 .NET 的软件或系统的功能。
在文档中搜索的主要原因
- 文件组织
- 信息检索
- 内容验证
- 内容总结
- 文本分析
- 数据提取
- 文档索引
搜索 PDF 文档
我们使用 Aspose.PDF for .NET ,它是 Aspose.Total for .NET 的子 API,专为特定文档操作功能以及与检索和搜索文档内容相关的任务而设计。 下面的代码片段是用 C# 编写的,用于与 PDF 文档交互。 它首先设置正则表达式模式来搜索文档中的非空白字符序列。 接下来,它访问 PDF 的第一页,并使用 TextFragmentAbsorber 使用指定的正则表达式搜索该页面上的文本。 然后,代码将发现的文本片段收集到一个集合中。 最后,它迭代该集合并将每个识别的文本片段输出到控制台。本质上,此代码片段充当从 PDF 文档中提取和显示特定文本模式的机制。 此外,.NET Search API 还支持 Microsoft Word文档搜索 和其他格式。