各種文件文件格式的文字搜尋和索引內容使用戶能夠從不同的文件集中有效地搜尋和檢索訊息,從而提高組織和應用程式內的生產力、資料檢索和資訊管理。新增基於 Python 的軟體或系統的功能,以在文件中執行基於文字的搜索,並建立索引,以便從各種文件文件格式中高效檢索資訊。
檢索文獻的主要原因
- 資訊檢索
- 文件組織
- 資料擷取
- 內容驗證
- 文字分析
- 文件索引
- 內容總結
搜尋 Microsoft Word 文件
我們使用 Aspose.Words for Python via .NET ( Aspose.Total for Python via .NET 的子 API)來執行與文件內容檢索和搜尋相關的特定任務。以下程式碼片段在 Microsoft Word 文件中執行文字取代和搜尋操作。它遵循以下步驟,首先載入文件並建立一個文件產生器以進行潛在的內容操作。然後,它執行兩個文字替換操作:一個用於在整個文件中將“CustomerName”的實例替換為“James Bond”,另一個使用正規表示式將出現的“sad”或“mad”替換為“bad 」。最後,修改後的文件將被儲存並套用變更。此外,Python搜尋API也支援 PDF文件搜尋 等格式。
用於 Microsoft Word 文件搜尋的 Python 程式碼
import aspose.words as aw | |
doc = aw.Document("TestDocument.docx") | |
builder = aw.DocumentBuilder(doc) | |
# builder.writeln("Hello _CustomerName_,") | |
doc.range.replace("_CustomerName_", "James Bond", aw.replacing.FindReplaceOptions(aw.replacing.FindReplaceDirection.FORWARD)) | |
# via regular expression | |
# builder.writeln("sad mad bad") | |
options = aw.replacing.FindReplaceOptions() | |
doc.range.replace_regex("[s|m]ad", "bad", options) | |
doc.save(docs_base.artifacts_dir + "search-in-word-files.docx") |