Tại sao Aspose.OCR lại dành cho .NET?

Aspose.OCR for .NET là một API mạnh mẽ, thân thiện với nhà phát triển và tiết kiệm chi phí để nhận dạng ký tự quang học. Với chưa đầy 10 dòng mã C# gốc, bạn có thể xây dựng khả năng OCR vào các giải pháp máy tính để bàn .NET, ứng dụng Web dựa trên MVC, dịch vụ đám mây và các chức năng Azure không có máy chủ. Trích xuất văn bản có thể đọc được bằng máy từ bản quét, ảnh và ảnh chụp màn hình, chuyển đổi các trang được quét thành tệp PDF có thể tìm kiếm và lập chỉ mục, tìm và so sánh văn bản trên hình ảnh tập trung vào nhiệm vụ kinh doanh thay vì toán học phức tạp, mạng thần kinh và các vấn đề kỹ thuật phức tạp khác. Nhấp vào các mục bên dưới để tìm hiểu thêm về các tính năng và lợi ích của chúng tôi.

Illustration ocr

Ứng dụng toàn cầu

Nhận dạng văn bản bằng chữ viết Latinh, Cyrillic và châu Á, bao gồm hơn 6.000 ký tự tiếng Trung và tiếng Hindi.

Đọc mọi thứ

Truy xuất văn bản từ bất kỳ tệp nào thu được qua máy quét hoặc máy ảnh và xử lý hình ảnh trực tiếp từ các liên kết web.

Kết quả đáng tin cậy

Đạt được độ chính xác nhận dạng cao cho tất cả hình ảnh, kể cả những hình ảnh mất nét, bị xoay, méo và nhiễu.

Nhận dạng hàng loạt

Nhận dạng hàng loạt tất cả hình ảnh từ các thư mục và kho lưu trữ; đọc tài liệu PDF nhiều trang và hình ảnh TIFF.

Phát hiện bố cục

Xác định và phân loại các khối nội dung trong hình ảnh để đảm bảo văn bản được trích xuất theo đúng thứ tự, bất kể bố cục.

Mẫu mã trực tiếp

Nhận dạng ký tự quang học trở thành một nhiệm vụ tầm thường và đơn giản với Aspose.OCR, ngay cả đối với các nhà phát triển mới làm quen với công nghệ này. Chỉ cần một vài dòng mã là đủ để trích xuất văn bản từ hình ảnh và hiển thị trên màn hình. Nó thực sự đơn giản - hãy thử xem.

Sẵn sàng công nhận Sẵn sàng công nhận Thả một tập tin ở đây hoặc bấm vào để duyệt *

* Bằng cách tải lên các tập tin của bạn hoặc sử dụng dịch vụ, bạn đồng ý với chúng tôi Điều khoản sử dụngChính sách bảo mật.

Kết quả công nhận
 

Chuyển đổi hình ảnh thành văn bản

Thêm ví dụ >
// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");

// Perform OCR
List<Aspose.OCR.RecognitionResult> results
     = recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);

Nền tảng độc lập

Aspose.OCR for .NET có thể hoạt động trên mọi nền tảng hỗ trợ .NET, .NET Core hoặc .NET Framework - cho dù trên máy cục bộ máy, trên máy chủ web hoặc trên đám mây.

Microsoft Windows
Linux
MacOS
GitHub
Microsoft Azure
Amazon Web Services
Docker

Các định dạng tập tin được hỗ trợ

Aspose.OCR for .NET có thể hoạt động với hầu như mọi tệp bạn có thể lấy từ máy quét hoặc máy ảnh. Kết quả nhận dạng được trả về ở các định dạng trao đổi dữ liệu và tệp phổ biến nhất có thể được lưu, nhập vào cơ sở dữ liệu hoặc phân tích trong thời gian thực.

Hình ảnh

  • JPEG
  • PNG
  • TIFF
  • BMP
  • GIF

OCR hàng loạt

  • Multi-page PDF
  • DjVu
  • ZIP
  • Folder

Kết quả công nhận

  • Text
  • PDF
  • Microsoft Word
  • Microsoft Excel
  • HTML
  • RTF
  • ePub
  • JSON
  • XML

Phù hợp với mọi nội dung

Độ chính xác và độ tin cậy của nhận dạng văn bản phụ thuộc nhiều vào chất lượng của hình ảnh gốc. Aspose.OCR for .NET cung cấp một loạt các bộ lọc xử lý hình ảnh hoàn toàn tự động và thủ công để nâng cao hình ảnh trước khi nó được gửi đến công cụ OCR.

Các thuật toán xử lý hình ảnh mạnh mẽ và phát hiện cấu trúc nội dung có thể tùy chỉnh cho phép trích xuất văn bản từ hầu hết mọi hình ảnh, từ ảnh quét chất lượng cao đến ảnh đường phố. Nhiều bộ lọc xử lý có thể được áp dụng cho cùng một hình ảnh để có được chất lượng nhận dạng tốt nhất.

Tối ưu hóa tài nguyên

Aspose.OCR for .NET cho phép cân bằng rất linh hoạt về tốc độ nhận dạng, chất lượng và mức sử dụng tài nguyên cho từng trường hợp sử dụng cụ thể:

  • Chọn giữa nhận dạng kỹ lưỡng và nhận dạng nhanh.
  • Chỉ định số lượng luồng được phân bổ để nhận dạng hoặc cho phép thư viện tự động chia tỷ lệ theo số lõi bộ xử lý.
  • Giải phóng CPU bằng cách giảm tải các phép tính cho GPU.

Hơn 130 ngôn ngữ nhận dạng

Aspose.OCR for .NET là một giải pháp phổ biến để xử lý tài liệu, trích xuất dữ liệu và số hóa nội dung trên quy mô toàn cầu. Với sự hỗ trợ cho nhiều loại chữ viết ở Châu Âu, Trung Đông và Châu Á, nó có khả năng thích ứng tốt với mọi quy mô, phục vụ cho cả doanh nghiệp vừa và nhỏ cũng như các tập đoàn đa quốc gia.

Bạn có thể ủy quyền phát hiện ngôn ngữ cho thư viện hoặc chỉ định ngôn ngữ theo cách thủ công, nâng cao hiệu suất nhận dạng và độ tin cậy. Các ngôn ngữ sau được hỗ trợ:

  • Bảng chữ cái Latinh mở rộng: tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Indonesia, tiếng Bồ Đào Nha, tiếng Đức, tiếng Việt, tiếng Thổ Nhĩ Kỳ, tiếng Ý, tiếng Ba Lan và hơn 80 ngôn ngữ khác;
  • Bảng chữ cái Cyrillic: tiếng Nga, tiếng Ukraina, tiếng Kazakhstan, tiếng Serbia, tiếng Belarus, tiếng Bungari;
  • Tiếng Ả Rập, tiếng Ba Tư, tiếng Urdu;
  • Chữ viết tiếng Trung và chữ Devanagari, bao gồm tiếng Hindi, tiếng Marathi, Bhojpuri và các chữ khác.

Tính năng và khả năng

Aspose.OCR for .NET tự động trích xuất văn bản từ ảnh hoặc hình ảnh được quét, loại bỏ nhu cầu nhập lại tài liệu theo cách thủ công.

Feature icon

Ảnh OCR

Trích xuất văn bản từ ảnh trên điện thoại thông minh với độ chính xác ở mức độ quét.

Feature icon

PDF có thể tìm kiếm

Chuyển đổi bất kỳ bản quét nào thành tài liệu có thể tìm kiếm và lập chỉ mục đầy đủ.

Feature icon

Nhận dạng URL

Nhận dạng hình ảnh từ URL mà không cần tải xuống cục bộ.

Feature icon

Nhận dạng hàng loạt

Đọc tất cả hình ảnh từ các tài liệu, thư mục và kho lưu trữ nhiều trang.

Feature icon

Bất kỳ phông chữ và phong cách

Xác định và nhận dạng văn bản ở tất cả các kiểu chữ và kiểu phổ biến.

Feature icon

Tinh chỉnh nhận dạng

Điều chỉnh mọi tham số OCR để có kết quả nhận dạng tốt nhất.

Feature icon

Công cụ kiểm tra chính tả

Cải thiện kết quả bằng cách tự động sửa các từ sai chính tả.

Feature icon

Tìm văn bản trong hình ảnh

Tìm kiếm văn bản hoặc biểu thức chính quy trong một tập hợp hình ảnh.

Feature icon

So sánh văn bản hình ảnh

So sánh văn bản trên hai hình ảnh, bất kể kiểu chữ và bố cục.

Dễ dàng sử dụng

Bạn chỉ cần một vài dòng mã để chuyển đổi hình ảnh thành văn bản, tạo tệp PDF có thể tìm kiếm, lưu kết quả nhận dạng vào tài liệu, v.v. Khám phá các mẫu mã để hiểu cách tích hợp Aspose.OCR for .NET vào các giải pháp của bạn.

Cài đặt

Aspose.OCR for .NET được phân phối dưới dạng gói NuGet hoặc dưới dạng [tệp có thể tải xuống]( https://releases.aspose.com/ ocr/net/) với sự phụ thuộc tối thiểu. Gói này có thể được thêm vào dự án của bạn trực tiếp từ Microsoft Visual Studio. Chỉ cần cài đặt nó vào dự án của bạn và bạn đã sẵn sàng trích xuất văn bản từ hình ảnh và lưu kết quả nhận dạng ở bất kỳ định dạng nào được hỗ trợ. Nếu hệ thống của bạn có GPU hỗ trợ CUDA, bạn có thể sử dụng công cụ OCR tăng tốc GPU để tăng đáng kể hiệu suất nhận dạng.

Bạn có thể bắt đầu sử dụng Aspose.OCR for .NET ngay sau khi cài đặt với một số hạn chế . Giấy phép tạm thời loại bỏ mọi giới hạn của phiên bản dùng thử trong 30 ngày. Sử dụng nó để bắt đầu xây dựng một ứng dụng OCR đầy đủ chức năng và đưa ra quyết định cuối cùng là mua Aspose.OCR for .NET sau này.

Trích xuất văn bản từ ảnh

Khi mọi người thường nghĩ đến OCR (Nhận dạng ký tự quang học), liên tưởng đầu tiên thường là máy quét làm thiết bị chụp chính. Sự liên kết này có lý do lịch sử và vẫn còn phổ biến trong nhiều bối cảnh, cung cấp môi trường nhất quán và được kiểm soát để thu thập văn bản in từ các tài liệu vật lý với chất lượng chưa từng có. Tuy nhiên, máy quét là thiết bị chuyên dụng không phải lúc nào cũng có sẵn và cần có một trạm làm việc cố định để hoạt động. May mắn thay, thế giới hiện đại cung cấp một giải pháp thay thế thuận tiện cho máy quét truyền thống - máy ảnh trên điện thoại thông minh. Những tiến bộ trong công nghệ camera của điện thoại thông minh đảm bảo rằng ngay cả điện thoại thông minh cấp thấp cũng cung cấp đủ chất lượng để chụp các tài liệu sẵn sàng OCR. Và bộ nhớ tích hợp giúp việc số hóa số lượng lớn tài liệu, báo, sách, biển báo đường phố và các văn bản khác khi đang di chuyển trở nên dễ dàng hơn bao giờ hết. Tất cả những gì bạn cần là công nghệ phù hợp để chuyển đổi những bức ảnh đó thành văn bản có thể đọc được bằng máy.

Aspose.OCR dành cho .NET được thiết kế đặc biệt để nhận dạng tất cả các loại hình ảnh có thể dùng ngay và có thể tinh chỉnh thêm để xử lý ngay cả những bức ảnh chất lượng thấp. Kết hợp với điện thoại thông minh hiện đại, nó cho phép bạn tạo các ứng dụng OCR mạnh mẽ cho hầu hết các tác vụ quét và nhận dạng văn bản hàng ngày. Quá trình xử lý hình ảnh và phân tích cấu trúc tài liệu tiên tiến nhất được thực hiện bằng một vài dòng mã, cho phép bạn tập trung vào công việc kinh doanh thay vì các thuật toán toán học phức tạp, mạng lưới thần kinh và các vấn đề kỹ thuật phức tạp khác.

Ảnh OCR - C#

// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
  PreprocessingFilter.ContrastCorrectionFilter(),
  PreprocessingFilter.AutoDewarping()
};

// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");

// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;

// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);

// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);

Tạo tệp PDF có thể tìm kiếm từ quá trình quét

PDF là một trong những định dạng phổ biến nhất để quét tài liệu giấy, đặc biệt nhờ khả năng kết hợp nhiều trang thành một tệp duy nhất. Định dạng này được sử dụng rộng rãi để trao đổi hợp đồng, hóa đơn, tài liệu pháp lý, hộ chiếu, CMND và nhiều tài liệu khác giữa các cá nhân, doanh nghiệp, ngân hàng và cơ quan chính phủ. Tuy nhiên, mọi bản PDF được quét về cơ bản đều là một tập hợp các hình ảnh. Nó không chứa văn bản có thể đọc được bằng máy nên người dùng không thể tìm kiếm, sao chép hoặc thao tác với nội dung tài liệu.

Aspose.OCR dành cho .NET cung cấp cho bạn một cách nhanh chóng, dễ dàng và có độ tin cậy cao để chuyển đổi mọi bản PDF được quét thành tài liệu có thể tìm kiếm và lập chỉ mục đầy đủ. Nó nhận dạng chính xác nội dung trang, chuyển đổi nó thành lớp văn bản có thể đọc được bằng máy trên hình ảnh gốc. Lớp văn bản này có thể được chọn, sao chép, đọc bằng phần mềm chuyển văn bản thành giọng nói và thậm chí được xử lý tự động bởi người dịch, trình tóm tắt và các phân tích do AI khác cung cấp. công cụ.

Thêm lớp phủ văn bản vào PDF - C#

// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");

// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);

// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");

Tìm kiếm văn bản trong hình ảnh

Các kho lưu trữ kỹ thuật số, đặc biệt là trong các tổ chức lớn, thường bao gồm một bộ sưu tập lớn các bản quét và ảnh, nhiều trong số đó có thể chứa các tài liệu nhiều trang. Quản lý hiệu quả và tổ chức các kho lưu trữ như vậy một cách hiệu quả là điều cần thiết để dễ dàng truy xuất và điều hướng thông tin. Tuy nhiên, hình ảnh không chứa văn bản mà máy có thể đọc được nên không thể tìm kiếm và phân tích nội dung tài liệu.

Aspose.OCR for .NET cho phép bạn dễ dàng tìm kiếm văn bản trong hình ảnh, bất kể phông chữ, kích thước văn bản, kiểu dáng và các thông số khác. Thư viện cũng hỗ trợ tìm kiếm không phân biệt chữ hoa chữ thường và biểu thức chính quy, cực kỳ hữu ích trong các ứng dụng và ngành khác nhau. Chức năng này có thể được sử dụng để phân loại tài liệu dựa trên nội dung, từ khóa hoặc mẫu có trong văn bản; tìm kiếm các điều khoản hoặc điều khoản cụ thể trong thỏa thuận, hợp đồng; sắp xếp lại các tệp dựa trên từ khóa hoặc nội dung được tìm thấy trong đó; định vị và xác định dữ liệu cá nhân trong tài liệu, giúp đảm bảo tuân thủ GDPR dễ dàng hơn và quản lý thông tin nhạy cảm hiệu quả hơn. Tìm kiếm bằng hình ảnh cũng cho phép tạo quy trình làm việc tự động và hợp lý hóa các quy trình kinh doanh khác nhau khi nhận được hợp đồng và hóa đơn đã ký.

Tìm kiếm văn bản trong hình ảnh - C#

string sourceFolder = "images";
string searchFor = "OCR";

// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
  bool found = api.ImageHasText(image, searchFor);
  if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}