Tìm kiếm tài liệu bằng API .NET

Dễ dàng tìm kiếm và tìm nạp dữ liệu từ nhiều loại tài liệu, bao gồm các tệp Microsoft Office Word, Excel, PowerPoint và PDF một cách hiệu quả cao với Aspose.Total cho .NET.

 

Việc kích hoạt tìm kiếm văn bản và lập chỉ mục nội dung cho các định dạng tệp tài liệu đa dạng sẽ giúp người dùng tối ưu hóa năng suất, hợp lý hóa việc truy xuất dữ liệu và tăng cường quản lý thông tin trên các tổ chức và ứng dụng. Nâng cao chức năng của phần mềm hoặc hệ thống dựa trên .NET của bạn bằng cách cho phép tìm kiếm dựa trên văn bản trong tài liệu và thiết lập các chỉ mục để truy xuất thông tin hiệu quả từ nhiều định dạng tệp tài liệu khác nhau.

Những lý do chính để tìm kiếm trong tài liệu

  1. Tổ chức tài liệu
  2. Truy xuất thông tin
  3. Xác thực nội dung
  4. Tóm tắt nội dung
  5. Phân tích văn bản
  6. Khai thác dữ liệu
  7. Lập chỉ mục tài liệu

Tìm kiếm tài liệu PDF

Chúng tôi sử dụng Aspose.PDF for .NET , API con của Aspose.Total for .NET được thiết kế cho các tính năng thao tác tài liệu cụ thể cũng như các tác vụ liên quan đến truy xuất và tìm kiếm nội dung tài liệu. Đoạn mã bên dưới được viết bằng C# để tương tác với tài liệu PDF. Đầu tiên, nó thiết lập một mẫu biểu thức chính quy để tìm kiếm các chuỗi ký tự không phải khoảng trắng trong tài liệu. Tiếp theo, nó truy cập trang đầu tiên của tệp PDF và sử dụng TextFragmentAbsorber để tìm kiếm văn bản trên trang đó bằng cách sử dụng biểu thức chính quy được chỉ định. Sau đó, mã sẽ thu thập các đoạn văn bản được phát hiện vào một bộ sưu tập. Cuối cùng, nó lặp qua bộ sưu tập này và xuất từng đoạn văn bản đã xác định ra bảng điều khiển. Về cơ bản, đoạn mã này đóng vai trò như một cơ chế trích xuất và hiển thị các mẫu văn bản cụ thể từ tài liệu PDF. Hơn nữa, .NET Search API cũng hỗ trợ Microsoft Tìm kiếm tài liệu Word và các định dạng khác.

Mã C# để tìm kiếm tài liệu PDF