Thư viện C# OCR cho ứng dụng .NET
Chuyển đổi hình ảnh thành văn bản trong C# OCR
Thêm phòng trưng bày >// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source
= new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("image-with-text.png");
// Perform OCR
List<Aspose.OCR.RecognitionResult> results
= recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);
> dotnet add package Aspose.OCR
Tại sao chọn thư viện Aspose OCR?
Xây dựng khả năng OCR mạnh mẽ vào ứng dụng .NET của bạn trong vài giây. API OCR dễ sử dụng của chúng tôi cho phép bạn trích xuất văn bản từ hình ảnh và bản quét, tạo các tệp PDF có thể tìm kiếm và hơn thế nữa với mã C# tối thiểu. Lý tưởng cho các chức năng .NET trên máy tính để bàn, web, đám mây và không có máy chủ. Nhấp vào các mục bên dưới để tìm hiểu thêm về các tính năng và lợi ích của chúng tôi.
Ứng dụng OCR toàn cầu
C# OCR nhận dạng văn bản tiếng Anh, tiếng Cyrillic, tiếng Ả Rập, tiếng Ba Tư, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Hindi, tiếng Tamil và các ngôn ngữ hỗn hợp.
Đọc mọi thứ
Nhận văn bản từ bất kỳ tệp nào thu được thông qua máy quét hoặc máy ảnh và xử lý hình ảnh trực tiếp từ các liên kết web.
Kết quả đáng tin cậy
Đạt được độ chính xác nhận dạng cao cho tất cả hình ảnh, bao gồm cả những hình ảnh mất nét, bị xoay, méo và nhiễu.
Nhận dạng hàng loạt
Nhận dạng hàng loạt tất cả hình ảnh từ các thư mục và kho lưu trữ; đọc tài liệu PDF nhiều trang và hình ảnh TIFF.
Phát hiện bố cục
Xác định và phân loại các khối nội dung trong hình ảnh để đảm bảo văn bản được trích xuất theo đúng thứ tự, bất kể bố cục.
Mẫu mã trực tiếp
.NET OCR trở thành một nhiệm vụ đơn giản và đơn giản với Aspose OCR API, ngay cả đối với các nhà phát triển mới. Chỉ cần một vài dòng mã là đủ để trích xuất văn bản từ hình ảnh và hiển thị trên màn hình. Nó thực sự đơn giản - hãy thử xem.
* Bằng cách tải lên các tập tin của bạn hoặc sử dụng dịch vụ, bạn đồng ý với chúng tôi Điều khoản sử dụng Và Chính sách bảo mật.
Chuyển đổi hình ảnh thành văn bản
Thêm ví dụ >// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");
// Perform OCR
List<Aspose.OCR.RecognitionResult> results
= recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);
Nền tảng độc lập
Thư viện OCR đa nền tảng có thể hoạt động ở mọi nơi trong .NET, .NET Core hoặc .NET Framework - cho dù trên máy cục bộ, trên máy chủ web hoặc trên đám mây.
Các định dạng tập tin được hỗ trợ
Aspose.OCR for .NET có thể làm việc với bất kỳ [tập tin]nào( https://docs.aspose.com/ocr/net/supported-file-formats/ ) bạn có thể lấy từ máy quét hoặc máy ảnh. Kết quả nhận dạng có thể được lưu, nhập vào cơ sở dữ liệu hoặc phân tích theo thời gian thực.
Hình ảnh
- JPEG
- PNG
- TIFF
- BMP
- GIF
OCR hàng loạt
- Multi-page PDF
- DjVu
- ZIP
- Folder
Kết quả công nhận
- Text
- Microsoft Word
- Microsoft Excel
- HTML
- RTF
- ePub
- JSON
- XML
Phù hợp với mọi nội dung
Độ chính xác và độ tin cậy của nhận dạng văn bản trong C# phụ thuộc phần lớn vào chất lượng hình ảnh. .NET OCR cung cấp một bộ đầy đủ các tính năng tối ưu hóa hình ảnh tự động và thủ công, đảm bảo kết quả nhận dạng vượt trội.
Xử lý hình ảnh mạnh mẽ, phát hiện văn bản có thể tùy chỉnh hoàn toàn, xử lý hậu kỳ và sửa lỗi chính tả tự động cho phép trích xuất văn bản từ bất kỳ bản quét hoặc ảnh nào với độ chính xác cao nhất.
Tối ưu hóa tài nguyên OCR
Thư viện C# OCR của Aspose cho phép cân bằng rất linh hoạt về tốc độ nhận dạng, chất lượng và mức sử dụng tài nguyên cho từng trường hợp sử dụng cụ thể:
- Chọn giữa nhận dạng kỹ lưỡng và nhận dạng nhanh.
- Chỉ định số lượng luồng được phân bổ để nhận dạng hoặc cho phép thư viện .NET OCR của chúng tôi tự động chia tỷ lệ theo số lõi bộ xử lý.
- Giải phóng CPU bằng cách giảm tải các phép tính cho GPU.
Hơn 140 ngôn ngữ nhận dạng
Thư viện C# OCR của chúng tôi là giải pháp phổ quát để xử lý tài liệu, trích xuất dữ liệu và số hóa nội dung trên quy mô toàn cầu. Với sự hỗ trợ cho nhiều loại chữ viết ở Châu Âu, Trung Đông và Châu Á, nó có thể thích ứng tốt với mọi quốc gia và doanh nghiệp.
Bạn có thể nhận dạng tài liệu được viết bằng các ngôn ngữ hỗn hợp, chẳng hạn như tiếng Trung/tiếng Anh, tiếng Ả Rập/tiếng Pháp hoặc tiếng Cyrillic/tiếng Anh. Các ngôn ngữ sau được hỗ trợ:
- Tiếng Latin mở rộng: tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Indonesia, tiếng Bồ Đào Nha, tiếng Đức, tiếng Việt, tiếng Thổ Nhĩ Kỳ, tiếng Ý, tiếng Ba Lan và hơn 80 ngôn ngữ khác;
- Bảng chữ cái Cyrillic: tiếng Nga, tiếng Ukraina, tiếng Kazakh, tiếng Bungari, bao gồm các văn bản hỗn hợp tiếng Anh/Cyrillic;
- Tiếng Ả Rập, tiếng Ba Tư, tiếng Urdu, bao gồm cả văn bản pha trộn với tiếng Anh;
- Các ngôn ngữ Trung Quốc, Hàn Quốc, Nhật Bản, Devanagari và Dravidian, bao gồm tiếng Hindi, tiếng Tamil, tiếng Marathi và các ngôn ngữ khác.
Tính năng và khả năng
C# OCR tự động trích xuất văn bản từ ảnh hoặc bản quét, loại bỏ nhu cầu nhập lại tài liệu theo cách thủ công.
Ảnh OCR
Trích xuất văn bản từ ảnh trên điện thoại thông minh với độ chính xác ở mức quét.
PDF có thể tìm kiếm
Chuyển đổi bất kỳ bản quét nào thành tài liệu có thể tìm kiếm và lập chỉ mục đầy đủ.
Nhận dạng URL
Nhận dạng hình ảnh từ URL mà không cần tải xuống cục bộ.
Nhận dạng hàng loạt
Đọc tất cả hình ảnh từ các tài liệu, thư mục và kho lưu trữ nhiều trang.
Bất kỳ phông chữ và phong cách
Xác định và nhận dạng văn bản ở tất cả các kiểu chữ và kiểu phổ biến.
Tinh chỉnh nhận dạng
Điều chỉnh mọi tham số OCR để có kết quả nhận dạng tốt nhất.
Trình kiểm tra chính tả
Cải thiện kết quả bằng cách tự động sửa các từ sai chính tả.
Tìm văn bản trong hình ảnh
Tìm kiếm văn bản hoặc biểu thức chính quy trong một tập hợp hình ảnh.
So sánh văn bản hình ảnh
So sánh văn bản trên hai hình ảnh, bất kể kiểu chữ và bố cục.
OCR dễ sử dụng
Với API C# OCR của chúng tôi, bạn chỉ cần một vài dòng mã C# để chuyển đổi hình ảnh thành văn bản, tạo tệp PDF có thể tìm kiếm, lưu kết quả nhận dạng vào tài liệu và hơn thế nữa. Khám phá các mẫu mã để hiểu cách tích hợp API OCR của chúng tôi vào các giải pháp .NET của bạn.
Cài đặt
Bạn có thể bắt đầu sử dụng Aspose.OCR for .NET ngay sau khi cài đặt với một số hạn chế . Giấy phép tạm thời loại bỏ mọi giới hạn của phiên bản dùng thử trong 30 ngày. Sử dụng nó để bắt đầu xây dựng một ứng dụng OCR đầy đủ chức năng và đưa ra quyết định cuối cùng về việc mua OCR cho .NET sau này.
Trích xuất văn bản từ ảnh
Khi mọi người thường nghĩ đến OCR (Nhận dạng ký tự quang học), liên tưởng đầu tiên thường là máy quét làm thiết bị chụp chính. Sự liên kết này có lý do lịch sử và vẫn còn phổ biến trong nhiều bối cảnh, cung cấp môi trường nhất quán và được kiểm soát để thu thập văn bản in từ các tài liệu vật lý với chất lượng chưa từng có. Tuy nhiên, máy quét là thiết bị chuyên dụng không phải lúc nào cũng có sẵn và cần có một trạm làm việc cố định để hoạt động. May mắn thay, thế giới hiện đại cung cấp một giải pháp thay thế thuận tiện cho máy quét truyền thống - máy ảnh trên điện thoại thông minh. Những tiến bộ trong công nghệ camera của điện thoại thông minh đảm bảo rằng ngay cả điện thoại thông minh cấp thấp cũng cung cấp đủ chất lượng để chụp các tài liệu sẵn sàng OCR. Và bộ nhớ tích hợp giúp việc số hóa số lượng lớn tài liệu, báo, sách, biển báo đường phố và các văn bản khác khi đang di chuyển trở nên dễ dàng hơn bao giờ hết. Tất cả những gì bạn cần là công nghệ phù hợp để chuyển đổi những bức ảnh đó thành văn bản có thể đọc được bằng máy.
Thư viện C# OCR của chúng tôi được thiết kế đặc biệt để nhận dạng tất cả các loại hình ảnh có thể dùng ngay và có thể tinh chỉnh thêm để xử lý ngay cả những bức ảnh chất lượng thấp. Kết hợp với điện thoại thông minh hiện đại, nó cho phép bạn tạo các ứng dụng OCR mạnh mẽ cho hầu hết các tác vụ quét và nhận dạng văn bản hàng ngày. Quá trình xử lý hình ảnh và phân tích cấu trúc tài liệu tiên tiến nhất được thực hiện bằng một vài dòng mã, cho phép bạn tập trung vào công việc kinh doanh thay vì các thuật toán toán học phức tạp, mạng lưới thần kinh và các vấn đề kỹ thuật phức tạp khác.
Ảnh OCR - C#
// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
PreprocessingFilter.ContrastCorrectionFilter(),
PreprocessingFilter.AutoDewarping()
};
// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");
// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;
// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);
// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);
Tạo tệp PDF có thể tìm kiếm từ quá trình quét
PDF là một trong những định dạng phổ biến nhất để quét tài liệu giấy, đặc biệt nhờ khả năng kết hợp nhiều trang thành một tệp duy nhất. Định dạng này được sử dụng rộng rãi để trao đổi hợp đồng, hóa đơn, tài liệu pháp lý, hộ chiếu, CMND và nhiều tài liệu khác giữa các cá nhân, doanh nghiệp, ngân hàng và cơ quan chính phủ. Tuy nhiên, mọi bản PDF được quét về cơ bản đều là một tập hợp các hình ảnh. Nó không chứa văn bản có thể đọc được bằng máy nên người dùng không thể tìm kiếm, sao chép hoặc thao tác với nội dung tài liệu.
Aspose .NET OCR cung cấp cho bạn một cách nhanh chóng, dễ dàng và có độ tin cậy cao để chuyển đổi mọi bản PDF được quét thành tài liệu có thể tìm kiếm và lập chỉ mục đầy đủ. Nó nhận dạng chính xác nội dung trang, chuyển đổi nó thành lớp văn bản có thể đọc được bằng máy trên hình ảnh gốc. Lớp văn bản này có thể được chọn, sao chép, đọc bằng phần mềm chuyển văn bản thành giọng nói và thậm chí được xử lý tự động bởi người dịch, trình tóm tắt và các phân tích do AI khác cung cấp. công cụ.
Thêm lớp phủ văn bản vào PDF - C#
// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");
// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);
// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");
Tìm kiếm văn bản trong hình ảnh
Các kho lưu trữ kỹ thuật số, đặc biệt là trong các tổ chức lớn, thường bao gồm một bộ sưu tập lớn các bản quét và ảnh, nhiều trong số đó có thể chứa các tài liệu nhiều trang. Quản lý hiệu quả và tổ chức các kho lưu trữ như vậy một cách hiệu quả là điều cần thiết để dễ dàng truy xuất và điều hướng thông tin. Tuy nhiên, hình ảnh không chứa văn bản mà máy có thể đọc được nên không thể tìm kiếm và phân tích nội dung tài liệu.
Thư viện C# OCR cho phép bạn dễ dàng tìm kiếm văn bản trong hình ảnh, bất kể phông chữ, kích thước văn bản, kiểu dáng và các thông số khác. Thư viện cũng hỗ trợ tìm kiếm không phân biệt chữ hoa chữ thường và biểu thức chính quy, cực kỳ hữu ích trong các ứng dụng và ngành khác nhau. Chức năng này có thể được sử dụng để phân loại tài liệu dựa trên nội dung, từ khóa hoặc mẫu có trong văn bản; tìm kiếm các điều khoản hoặc điều khoản cụ thể trong thỏa thuận, hợp đồng; sắp xếp lại các tệp dựa trên từ khóa hoặc nội dung được tìm thấy trong đó; định vị và xác định dữ liệu cá nhân trong tài liệu, giúp đảm bảo tuân thủ GDPR dễ dàng hơn và quản lý thông tin nhạy cảm hiệu quả hơn. Tìm kiếm bằng hình ảnh cũng cho phép tạo quy trình làm việc tự động và hợp lý hóa các quy trình kinh doanh khác nhau khi nhận được hợp đồng và hóa đơn đã ký.
Tìm kiếm văn bản trong hình ảnh - C#
string sourceFolder = "images";
string searchFor = "OCR";
// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
bool found = api.ImageHasText(image, searchFor);
if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}