適用於 .NET 應用程式的 C# OCR 庫
在 C# OCR 中將圖像轉換為文字
更多展示 >// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source
= new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("image-with-text.png");
// Perform OCR
List<Aspose.OCR.RecognitionResult> results
= recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);
> dotnet add package Aspose.OCR
為什麼選擇 Aspose OCR 函式庫?
在幾秒鐘內將強大的 OCR 功能建置到您的 .NET 應用程式中。我們易於使用的 OCR API 可讓您使用最少的 C# 程式碼從圖像和掃描中提取文字、建立可搜尋的 PDF 等。 .NET 桌面、網路、雲端和無伺服器功能的理想選擇。點擊下面的項目以了解有關我們的功能和優勢的更多資訊。
全球 OCR 應用
C# OCR 可辨識英語、西里爾語、阿拉伯語、波斯語、中文、日語、韓語、印地語、泰米爾語和混合語言文本。
閱讀所有內容
從透過掃描器或相機獲得的任何文件中獲取文本,並直接從網絡鏈接處理圖像。
可靠的結果
對所有影像(包括失焦、旋轉、扭曲和雜訊影像)實現高辨識精度。
大量識別
大量識別資料夾和檔案中的所有影像;閱讀多頁 PDF 文件和 TIFF 影像。
佈局檢測
識別圖像中的內容區塊並對其進行分類,以確保提取文字的順序正確,無論佈局如何。
即時程式碼範例
借助 Aspose OCR API,.NET OCR 成為一項簡單而簡單的任務,即使對於新開發人員也是如此。只需幾行程式碼就足以從圖像中提取文字並將其顯示在螢幕上。真的就是這麼簡單 - 嘗試一下。
將圖像轉換為文字
更多範例 >// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");
// Perform OCR
List<Aspose.OCR.RecognitionResult> results
= recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);
平台獨立性
跨平台OCR 函式庫可以在.NET、.NET Core 或.NET Framework 下 任何地方 運作- 無論是在本機電腦上、在Web 伺服器或雲端。
支援的文件格式
Aspose.OCR for .NET 可以處理任何 文件 您可以透過掃描器或相機取得。識別結果可以儲存、匯入資料庫或即時分析。
圖片
- JPEG
- PNG
- TIFF
- BMP
- GIF
批量OCR
- Multi-page PDF
- DjVu
- ZIP
- Folder
識別結果
- Text
- Microsoft Word
- Microsoft Excel
- HTML
- RTF
- ePub
- JSON
- XML
適合任何內容
C# 中文字辨識的準確性和可靠性很大程度取決於影像品質。 .NET OCR 提供全套自動和手動影像優化,確保卓越的識別結果。
強大的影像處理、完全可自訂的文字偵測、後處理和自動拼字修正功能可以以最高精度從任何掃描或照片中提取文字。
OCR資源最佳化
Aspose 的 C# OCR 庫可為每個特定用例實現識別速度、品質和資源利用率的高度靈活平衡:
- 在徹底識別和快速識別之間進行選擇。
- 指定分配用於識別的執行緒數,或允許我們的 .NET OCR 庫自動縮放到處理器核心的數量。
- 透過將計算卸載到 GPU 來釋放 CPU。
140+識別語言
我們的 C# OCR 庫是全球範圍內文件處理、資料提取和內容數位化的通用解決方案。它支援大量歐洲、中東和亞洲書寫腳本,非常適合任何國家和企業。
您可以識別以混合語言編寫的文檔,例如中文/英文、阿拉伯文/法文或西里爾文/英文。支援以下語言:
- 擴展拉丁語:英語、西班牙語、法語、印尼語、葡萄牙語、德語、越南語、土耳其語、義大利語、波蘭語等 80 多種;
- 西里爾文字母:俄語、烏克蘭語、哈薩克語、保加利亞語,包括混合西里爾語/英語文本;
- 阿拉伯語、波斯語、烏爾都語,包括與英語混合的文本;
- 中文、韓語、日語、梵文和德拉威語,包括印地語、泰米爾語、馬拉地語等。
特性和功能
C# OCR 會自動從照片或掃描件中提取文本,無需手動重新輸入文件。
照片識別
以掃描級精度從智慧型手機照片中提取文字。
可搜尋的 PDF
將任何掃描結果轉換為完全可搜尋和可索引的文件。
網址識別
從 URL 識別圖像,無需下載到本機。
大量識別
讀取多頁文件、資料夾和檔案中的所有影像。
任何字體和样式
識別並識別所有流行字體和样式的文字。
微調識別
調整每個 OCR 參數以獲得最佳識別結果。
拼字檢查器
透過自動更正拼字錯誤的單字來提高結果。
尋找圖像中的文本
在一組圖像中搜尋文字或正規表示式。
比較圖像文本
比較兩個圖像上的文本,無論大小寫和佈局如何。
易於使用的 OCR
借助我們的 C# OCR API,您只需幾行 C# 程式碼即可將圖像轉換為文字、建立可搜尋的 PDF、將識別結果儲存到文件等等。瀏覽程式碼範例,了解如何將我們的 OCR API 整合到您的 .NET 解決方案中。
安裝
您可以在安裝後立即開始使用 Aspose OCR for .NET,但有一些 限制 。臨時授權可消除試用版 30 天的所有限制。使用它開始建立功能齊全的 OCR 應用程序,並稍後做出購買 .NET OCR 的最終決定。
從照片中提取文本
當人們通常想到 OCR(光學字元辨識)時,第一個聯想通常是掃描器作為主要捕捉設備。這種關聯有歷史原因,並且在許多情況下仍然普遍存在,為從實體文件中捕獲列印文字提供了一致且受控的環境,具有無與倫比的品質。然而,掃描器是專用設備,並非總是在手邊,需要固定工作站才能操作。幸運的是,現代世界提供了傳統掃描器的便利替代品 - 智慧型手機相機。智慧型手機相機技術的進步確保即使是入門級智慧型手機也能提供足夠的品質來捕獲 OCR 就緒文件。內建記憶體讓您可以比以往更輕鬆地隨時隨地數位化大量文件、報紙、書籍、街道標誌和其他文字。您所需要的只是將這些照片轉換為機器可讀文字的正確技術。
我們的 C# OCR 庫專門設計用於識別所有類型的開箱即用的圖像,並且可以進一步微調以處理低品質的照片。與現代智慧型手機結合,它允許您為大多數日常掃描和文字辨識任務創建強大的 OCR 應用程式。最先進的影像處理和文件結構分析只需幾行程式碼即可執行,使您能夠專注於業務而不是複雜的數學演算法、神經網路和其他複雜的技術。
照片 OCR - C#
// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
PreprocessingFilter.ContrastCorrectionFilter(),
PreprocessingFilter.AutoDewarping()
};
// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");
// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;
// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);
// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);
從掃描件建立可搜尋的 PDF
PDF 是掃描紙本文件最受歡迎的格式之一,特別是因為它能夠將多個頁面合併為一個文件。這種格式廣泛用於個人、企業、銀行和政府機構之間交換合約、發票、法律文件、護照和身分證以及許多其他文件。然而,任何掃描的 PDF 本質上都是影像的集合。它不包含機器可讀的文本,因此使用者無法搜尋、複製或以其他方式操作文件內容。
Aspose .NET OCR 為您提供了一種快速、簡單且高度可靠的方法,將任何掃描的 PDF 轉換為完全可搜尋和可索引的文件。它可以準確地識別頁面內容,將其轉換為原始圖像上的機器可讀文字圖層,可以透過文字轉語音軟體進行選擇、複製和讀取,甚至可以由翻譯器、摘要器和其他人工智慧分析工具自動處理工具。
在 PDF 中添加文字疊加 - C#
// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");
// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);
// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");
搜尋圖像中的文字
數位檔案,特別是在大型組織中,通常包含大量掃描和照片,其中許多可能包含多頁文件。有效地管理和組織此類檔案對於輕鬆的資訊檢索和導航至關重要。然而,圖像不包含機器可讀的文本,因此無法搜尋和分析文件內容。
C# OCR 庫可讓您輕鬆搜尋圖像中的文本,無論字體、文字大小、樣式和其他參數如何。該庫還支援不區分大小寫的搜尋和正規表示式,這在各種應用程式和行業中都非常有用。此功能可用於根據文字中的內容、關鍵字或模式對文件進行分類;搜尋協議和合約中的具體條款或條款;根據關鍵字或文件中的內容重新組織文件;尋找和識別文件中的個人數據,從而更輕鬆地確保 GDPR 合規性並更有效地管理敏感資訊。透過圖像搜尋還可以建立自動化工作流程,並在收到簽署的合約和發票後簡化各種業務流程。
搜尋圖像中的文字 - C#
string sourceFolder = "images";
string searchFor = "OCR";
// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
bool found = api.ImageHasText(image, searchFor);
if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}