Tại sao chọn thư viện Aspose OCR?

Xây dựng khả năng OCR mạnh mẽ vào ứng dụng .NET của bạn trong vài giây. API OCR dễ sử dụng của chúng tôi cho phép bạn trích xuất văn bản từ hình ảnh và bản quét, tạo các tệp PDF có thể tìm kiếm và hơn thế nữa với mã C# tối thiểu. Lý tưởng cho các chức năng .NET trên máy tính để bàn, web, đám mây và không có máy chủ. Nhấp vào các mục bên dưới để tìm hiểu thêm về các tính năng và lợi ích của chúng tôi.

Illustration ocr

Ứng dụng OCR toàn cầu

C# OCR nhận dạng văn bản tiếng Anh, tiếng Cyrillic, tiếng Ả Rập, tiếng Ba Tư, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Hindi, tiếng Tamil và các ngôn ngữ hỗn hợp.

Đọc mọi thứ

Nhận văn bản từ bất kỳ tệp nào thu được thông qua máy quét hoặc máy ảnh và xử lý hình ảnh trực tiếp từ các liên kết web.

Kết quả đáng tin cậy

Đạt được độ chính xác nhận dạng cao cho tất cả hình ảnh, bao gồm cả những hình ảnh mất nét, bị xoay, méo và nhiễu.

Nhận dạng hàng loạt

Nhận dạng hàng loạt tất cả hình ảnh từ các thư mục và kho lưu trữ; đọc tài liệu PDF nhiều trang và hình ảnh TIFF.

Phát hiện bố cục

Xác định và phân loại các khối nội dung trong hình ảnh để đảm bảo văn bản được trích xuất theo đúng thứ tự, bất kể bố cục.

Mẫu mã trực tiếp

.NET OCR trở thành một nhiệm vụ đơn giản và đơn giản với Aspose OCR API, ngay cả đối với các nhà phát triển mới. Chỉ cần một vài dòng mã là đủ để trích xuất văn bản từ hình ảnh và hiển thị trên màn hình. Nó thực sự đơn giản - hãy thử xem.

Sẵn sàng công nhận Sẵn sàng công nhận Thả một tập tin ở đây hoặc bấm vào để duyệt *

* Bằng cách tải lên các tập tin của bạn hoặc sử dụng dịch vụ, bạn đồng ý với chúng tôi Điều khoản sử dụngChính sách bảo mật.

Kết quả công nhận
 

Chuyển đổi hình ảnh thành văn bản

Thêm ví dụ >
// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");

// Perform OCR
List<Aspose.OCR.RecognitionResult> results
     = recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);

Nền tảng độc lập

Thư viện OCR đa nền tảng có thể hoạt động ở mọi nơi trong .NET, .NET Core hoặc .NET Framework - cho dù trên máy cục bộ, trên máy chủ web hoặc trên đám mây.

Microsoft Windows
Linux
MacOS
GitHub
Microsoft Azure
Amazon Web Services
Docker

Các định dạng tập tin được hỗ trợ

Aspose.OCR for .NET có thể làm việc với bất kỳ [tập tin]nào( https://docs.aspose.com/ocr/net/supported-file-formats/ ) bạn có thể lấy từ máy quét hoặc máy ảnh. Kết quả nhận dạng có thể được lưu, nhập vào cơ sở dữ liệu hoặc phân tích theo thời gian thực.

Hình ảnh

  • JPEG
  • PNG
  • TIFF
  • BMP
  • GIF

OCR hàng loạt

  • Multi-page PDF
  • DjVu
  • ZIP
  • Folder

Kết quả công nhận

  • Text
  • PDF
  • Microsoft Word
  • Microsoft Excel
  • HTML
  • RTF
  • ePub
  • JSON
  • XML

Phù hợp với mọi nội dung

Độ chính xác và độ tin cậy của nhận dạng văn bản trong C# phụ thuộc phần lớn vào chất lượng hình ảnh. .NET OCR cung cấp một bộ đầy đủ các tính năng tối ưu hóa hình ảnh tự động và thủ công, đảm bảo kết quả nhận dạng vượt trội.

Xử lý hình ảnh mạnh mẽ, phát hiện văn bản có thể tùy chỉnh hoàn toàn, xử lý hậu kỳ và sửa lỗi chính tả tự động cho phép trích xuất văn bản từ bất kỳ bản quét hoặc ảnh nào với độ chính xác cao nhất.

Tối ưu hóa tài nguyên OCR

Thư viện C# OCR của Aspose cho phép cân bằng rất linh hoạt về tốc độ nhận dạng, chất lượng và mức sử dụng tài nguyên cho từng trường hợp sử dụng cụ thể:

  • Chọn giữa nhận dạng kỹ lưỡng và nhận dạng nhanh.
  • Chỉ định số lượng luồng được phân bổ để nhận dạng hoặc cho phép thư viện .NET OCR của chúng tôi tự động chia tỷ lệ theo số lõi bộ xử lý.
  • Giải phóng CPU bằng cách giảm tải các phép tính cho GPU.

Hơn 140 ngôn ngữ nhận dạng

Thư viện C# OCR của chúng tôi là giải pháp phổ quát để xử lý tài liệu, trích xuất dữ liệu và số hóa nội dung trên quy mô toàn cầu. Với sự hỗ trợ cho nhiều loại chữ viết ở Châu Âu, Trung Đông và Châu Á, nó có thể thích ứng tốt với mọi quốc gia và doanh nghiệp.

Bạn có thể nhận dạng tài liệu được viết bằng các ngôn ngữ hỗn hợp, chẳng hạn như tiếng Trung/tiếng Anh, tiếng Ả Rập/tiếng Pháp hoặc tiếng Cyrillic/tiếng Anh. Các ngôn ngữ sau được hỗ trợ:

  • Tiếng Latin mở rộng: tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Indonesia, tiếng Bồ Đào Nha, tiếng Đức, tiếng Việt, tiếng Thổ Nhĩ Kỳ, tiếng Ý, tiếng Ba Lan và hơn 80 ngôn ngữ khác;
  • Bảng chữ cái Cyrillic: tiếng Nga, tiếng Ukraina, tiếng Kazakh, tiếng Bungari, bao gồm các văn bản hỗn hợp tiếng Anh/Cyrillic;
  • Tiếng Ả Rập, tiếng Ba Tư, tiếng Urdu, bao gồm cả văn bản pha trộn với tiếng Anh;
  • Các ngôn ngữ Trung Quốc, Hàn Quốc, Nhật Bản, Devanagari và Dravidian, bao gồm tiếng Hindi, tiếng Tamil, tiếng Marathi và các ngôn ngữ khác.

Tính năng và khả năng

C# OCR tự động trích xuất văn bản từ ảnh hoặc bản quét, loại bỏ nhu cầu nhập lại tài liệu theo cách thủ công.

Feature icon

Ảnh OCR

Trích xuất văn bản từ ảnh trên điện thoại thông minh với độ chính xác ở mức quét.

Feature icon

PDF có thể tìm kiếm

Chuyển đổi bất kỳ bản quét nào thành tài liệu có thể tìm kiếm và lập chỉ mục đầy đủ.

Feature icon

Nhận dạng URL

Nhận dạng hình ảnh từ URL mà không cần tải xuống cục bộ.

Feature icon

Nhận dạng hàng loạt

Đọc tất cả hình ảnh từ các tài liệu, thư mục và kho lưu trữ nhiều trang.

Feature icon

Bất kỳ phông chữ và phong cách

Xác định và nhận dạng văn bản ở tất cả các kiểu chữ và kiểu phổ biến.

Feature icon

Tinh chỉnh nhận dạng

Điều chỉnh mọi tham số OCR để có kết quả nhận dạng tốt nhất.

Feature icon

Trình kiểm tra chính tả

Cải thiện kết quả bằng cách tự động sửa các từ sai chính tả.

Feature icon

Tìm văn bản trong hình ảnh

Tìm kiếm văn bản hoặc biểu thức chính quy trong một tập hợp hình ảnh.

Feature icon

So sánh văn bản hình ảnh

So sánh văn bản trên hai hình ảnh, bất kể kiểu chữ và bố cục.

OCR dễ sử dụng

Với API C# OCR của chúng tôi, bạn chỉ cần một vài dòng mã C# để chuyển đổi hình ảnh thành văn bản, tạo tệp PDF có thể tìm kiếm, lưu kết quả nhận dạng vào tài liệu và hơn thế nữa. Khám phá các mẫu mã để hiểu cách tích hợp API OCR của chúng tôi vào các giải pháp .NET của bạn.

Cài đặt

.NET OCR được phân phối dưới dạng gói NuGet hoặc dưới dạng [tệp có thể tải xuống]( https://releases.aspose.com/ocr/net /) với sự phụ thuộc tối thiểu. Gói này có thể được thêm vào dự án của bạn trực tiếp từ Microsoft Visual Studio. Chỉ cần cài đặt nó vào dự án của bạn và bạn đã sẵn sàng trích xuất văn bản từ hình ảnh và lưu kết quả nhận dạng ở bất kỳ định dạng nào được hỗ trợ. Nếu hệ thống của bạn có GPU hỗ trợ CUDA, bạn có thể sử dụng công cụ OCR tăng tốc GPU để tăng đáng kể hiệu suất nhận dạng.

Bạn có thể bắt đầu sử dụng Aspose.OCR for .NET ngay sau khi cài đặt với một số hạn chế . Giấy phép tạm thời loại bỏ mọi giới hạn của phiên bản dùng thử trong 30 ngày. Sử dụng nó để bắt đầu xây dựng một ứng dụng OCR đầy đủ chức năng và đưa ra quyết định cuối cùng về việc mua OCR cho .NET sau này.

Trích xuất văn bản từ ảnh

Khi mọi người thường nghĩ đến OCR (Nhận dạng ký tự quang học), liên tưởng đầu tiên thường là máy quét làm thiết bị chụp chính. Sự liên kết này có lý do lịch sử và vẫn còn phổ biến trong nhiều bối cảnh, cung cấp môi trường nhất quán và được kiểm soát để thu thập văn bản in từ các tài liệu vật lý với chất lượng chưa từng có. Tuy nhiên, máy quét là thiết bị chuyên dụng không phải lúc nào cũng có sẵn và cần có một trạm làm việc cố định để hoạt động. May mắn thay, thế giới hiện đại cung cấp một giải pháp thay thế thuận tiện cho máy quét truyền thống - máy ảnh trên điện thoại thông minh. Những tiến bộ trong công nghệ camera của điện thoại thông minh đảm bảo rằng ngay cả điện thoại thông minh cấp thấp cũng cung cấp đủ chất lượng để chụp các tài liệu sẵn sàng OCR. Và bộ nhớ tích hợp giúp việc số hóa số lượng lớn tài liệu, báo, sách, biển báo đường phố và các văn bản khác khi đang di chuyển trở nên dễ dàng hơn bao giờ hết. Tất cả những gì bạn cần là công nghệ phù hợp để chuyển đổi những bức ảnh đó thành văn bản có thể đọc được bằng máy.

Thư viện C# OCR của chúng tôi được thiết kế đặc biệt để nhận dạng tất cả các loại hình ảnh có thể dùng ngay và có thể tinh chỉnh thêm để xử lý ngay cả những bức ảnh chất lượng thấp. Kết hợp với điện thoại thông minh hiện đại, nó cho phép bạn tạo các ứng dụng OCR mạnh mẽ cho hầu hết các tác vụ quét và nhận dạng văn bản hàng ngày. Quá trình xử lý hình ảnh và phân tích cấu trúc tài liệu tiên tiến nhất được thực hiện bằng một vài dòng mã, cho phép bạn tập trung vào công việc kinh doanh thay vì các thuật toán toán học phức tạp, mạng lưới thần kinh và các vấn đề kỹ thuật phức tạp khác.

Ảnh OCR - C#

// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
  PreprocessingFilter.ContrastCorrectionFilter(),
  PreprocessingFilter.AutoDewarping()
};

// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");

// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;

// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);

// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);

Tạo tệp PDF có thể tìm kiếm từ quá trình quét

PDF là một trong những định dạng phổ biến nhất để quét tài liệu giấy, đặc biệt nhờ khả năng kết hợp nhiều trang thành một tệp duy nhất. Định dạng này được sử dụng rộng rãi để trao đổi hợp đồng, hóa đơn, tài liệu pháp lý, hộ chiếu, CMND và nhiều tài liệu khác giữa các cá nhân, doanh nghiệp, ngân hàng và cơ quan chính phủ. Tuy nhiên, mọi bản PDF được quét về cơ bản đều là một tập hợp các hình ảnh. Nó không chứa văn bản có thể đọc được bằng máy nên người dùng không thể tìm kiếm, sao chép hoặc thao tác với nội dung tài liệu.

Aspose .NET OCR cung cấp cho bạn một cách nhanh chóng, dễ dàng và có độ tin cậy cao để chuyển đổi mọi bản PDF được quét thành tài liệu có thể tìm kiếm và lập chỉ mục đầy đủ. Nó nhận dạng chính xác nội dung trang, chuyển đổi nó thành lớp văn bản có thể đọc được bằng máy trên hình ảnh gốc. Lớp văn bản này có thể được chọn, sao chép, đọc bằng phần mềm chuyển văn bản thành giọng nói và thậm chí được xử lý tự động bởi người dịch, trình tóm tắt và các phân tích do AI khác cung cấp. công cụ.

Thêm lớp phủ văn bản vào PDF - C#

// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");

// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);

// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");

Tìm kiếm văn bản trong hình ảnh

Các kho lưu trữ kỹ thuật số, đặc biệt là trong các tổ chức lớn, thường bao gồm một bộ sưu tập lớn các bản quét và ảnh, nhiều trong số đó có thể chứa các tài liệu nhiều trang. Quản lý hiệu quả và tổ chức các kho lưu trữ như vậy một cách hiệu quả là điều cần thiết để dễ dàng truy xuất và điều hướng thông tin. Tuy nhiên, hình ảnh không chứa văn bản mà máy có thể đọc được nên không thể tìm kiếm và phân tích nội dung tài liệu.

Thư viện C# OCR cho phép bạn dễ dàng tìm kiếm văn bản trong hình ảnh, bất kể phông chữ, kích thước văn bản, kiểu dáng và các thông số khác. Thư viện cũng hỗ trợ tìm kiếm không phân biệt chữ hoa chữ thường và biểu thức chính quy, cực kỳ hữu ích trong các ứng dụng và ngành khác nhau. Chức năng này có thể được sử dụng để phân loại tài liệu dựa trên nội dung, từ khóa hoặc mẫu có trong văn bản; tìm kiếm các điều khoản hoặc điều khoản cụ thể trong thỏa thuận, hợp đồng; sắp xếp lại các tệp dựa trên từ khóa hoặc nội dung được tìm thấy trong đó; định vị và xác định dữ liệu cá nhân trong tài liệu, giúp đảm bảo tuân thủ GDPR dễ dàng hơn và quản lý thông tin nhạy cảm hiệu quả hơn. Tìm kiếm bằng hình ảnh cũng cho phép tạo quy trình làm việc tự động và hợp lý hóa các quy trình kinh doanh khác nhau khi nhận được hợp đồng và hóa đơn đã ký.

Tìm kiếm văn bản trong hình ảnh - C#

string sourceFolder = "images";
string searchFor = "OCR";

// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
  bool found = api.ImageHasText(image, searchFor);
  if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}