為什麼選擇 Aspose.OCR for .NET?

Aspose.OCR for .NET 是一個強大、開發人員友好且經濟高效的光學字元辨識 API。只需不到 10 行本機 C# 程式碼,您就可以將 OCR 功能建置到 .NET 桌面解決方案、基於 MVC 的 Web 應用程式、雲端服務和無伺服器 Azure 功能中。從掃描件、照片和螢幕截圖中提取機器可讀的文本,將掃描的頁面轉換為可搜尋和可索引的PDF,查找和比較專注於業務任務的圖像上的文本,而不是複雜的數學、神經網路和其他複雜的技術。點擊下面的項目以了解有關我們的功能和優勢的更多資訊。

Illustration ocr

全球應用

辨識拉丁文、西里爾文和亞洲文字文本,包括 6,000 多個漢字和印地語。

閱讀所有內容

從透過掃描器或相機獲得的任何文件中檢索文本,並直接處理來自網路連結的圖像。

可靠的結果

對所有影像(包括失焦、旋轉、扭曲和雜訊影像)實現高辨識精度。

大量識別

大量識別資料夾和檔案中的所有影像;閱讀多頁 PDF 文件和 TIFF 影像。

佈局檢測

識別圖像中的內容區塊並對其進行分類,以確保提取的文字的順序正確,無論佈局如何。

即時程式碼範例

即使對於剛接觸該技術的開發人員來說,光學字元辨識也成為 Aspose.OCR 的簡單而簡單的任務。只需幾行程式碼就足以從圖像中提取文字並將其顯示在螢幕上。真的就是這麼簡單 - 嘗試一下。

準備好識別 準備好識別 將檔案拖曳到此處或按一下瀏覽*

* 透過上傳您的文件或使用我們的服務,您同意我們的 使用條款隱私權政策.

識別結果
 

將圖像轉換為文字

更多範例 >
// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");

// Perform OCR
List<Aspose.OCR.RecognitionResult> results
     = recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);

平台獨立性

Aspose.OCR for .NET 可以在支援.NET、.NET Core 或.NET Framework 的 任何平台 上工作- 無論是在本機、網路伺服器或雲端。

Microsoft Windows
Linux
MacOS
GitHub
Microsoft Azure
Amazon Web Services
Docker

支援的文件格式

Aspose.OCR for .NET 幾乎可以處理任何 文件 您可以透過掃描器或相機取得。識別結果以最受歡迎的文件和資料交換格式傳回,可以儲存、匯入資料庫或即時分析。

圖片

  • JPEG
  • PNG
  • TIFF
  • BMP
  • GIF

批量OCR

  • Multi-page PDF
  • DjVu
  • ZIP
  • Folder

識別結果

  • Text
  • PDF
  • Microsoft Word
  • Microsoft Excel
  • HTML
  • RTF
  • ePub
  • JSON
  • XML

適合任何內容

文字辨識的準確性和可靠性很大程度上取決於原始影像的品質。 Aspose.OCR for .NET 提供了廣泛的全自動和手動影像處理濾鏡,可在將影像傳送至 OCR 引擎之前對其進行增強。

強大的圖像處理和可自訂的內容結構檢測演算法可以從幾乎任何圖像中提取文本,從高品質掃描到街頭照片。可以將多個處理濾鏡應用於相同影像以獲得最佳的識別品質。

資源最佳化

Aspose.OCR for .NET 可針對每個特定用例實現識別速度、品質和資源利用率的高度靈活平衡:

  • 在徹底識別和快速識別之間進行選擇。
  • 指定分配用於識別的執行緒數,或允許庫自動縮放到處理器核心的數量。
  • 透過將計算卸載到 GPU 來釋放 CPU。

130+識別語言

Aspose.OCR for .NET 是全球文件處理、資料擷取和內容數位化的通用解決方案。它支援大量歐洲、中東和亞洲書寫腳本,非常適合任何規模,適合中小型企業以及跨國公司。

您可以將語言偵測委託給程式庫或手動指定語言,從而增強識別效能和可靠性。支援以下語言:

  • 擴展拉丁字母:英語、西班牙語、法語、印尼語、葡萄牙語、德語、越南語、土耳其語、義大利語、波蘭語等 80 多種;
  • 西里爾語字母:俄語、烏克蘭語、哈薩克語、塞爾維亞語、白俄羅斯語、保加利亞語;
  • 阿拉伯語、波斯語、烏爾都語;
  • 中文和梵文文字,包括印地語、馬拉地語、博傑普爾語等。

特性和功能

Aspose.OCR for .NET 會自動從照片或掃描圖像中提取文本,無需手動重新輸入文件。

Feature icon

照片識別

以掃描級精度從智慧型手機照片中提取文字。

Feature icon

可搜尋的 PDF

將任何掃描結果轉換為完全可搜尋和可索引的文件。

Feature icon

網址識別

從 URL 識別圖像,無需下載到本機。

Feature icon

大量識別

讀取多頁文件、資料夾和檔案中的所有影像。

Feature icon

任何字體和样式

識別並識別所有流行字體和样式的文字。

Feature icon

微調識別

調整每個 OCR 參數以獲得最佳識別結果。

Feature icon

拼字檢查器

透過自動更正拼字錯誤的單字來提高結果。

Feature icon

尋找圖像中的文本

在一組圖像中搜尋文字或正規表示式。

Feature icon

比較圖像文本

比較兩個圖像上的文本,無論大小寫和佈局如何。

方便使用

您只需幾行程式碼即可將圖像轉換為文字、建立可搜尋的 PDF、將識別結果儲存到文件等等。探索程式碼範例以了解如何將 Aspose.OCR for .NET 整合到您的解決方案中。

安裝

Aspose.OCR for .NET 作為 NuGet 套件 或作為 [可下載檔案]( https://releases.aspose.com/ ocr/net /) 具有最小的依賴性。該套件可以直接從 Microsoft Visual Studio 新增到您的專案中。只需將其安裝到您的專案中,您就可以從圖像中提取文字並以任何支援的格式儲存識別結果。如果您的系統具有支援 CUDA 的 GPU,則可以使用 GPU 加速 OCR 引擎 來顯著提高識別效能。

您可以在安裝後立即開始使用 Aspose.OCR for .NET,但有一些 限制 。臨時授權可消除試用版 30 天的所有限制。使用它開始建立功能齊全的 OCR 應用程序,並稍後做出購買 Aspose.OCR for .NET 的最終決定。

從照片中提取文本

當人們通常想到 OCR(光學字元辨識)時,第一個聯想通常是掃描器作為主要捕捉設備。這種關聯有歷史原因,並且在許多情況下仍然普遍存在,為從實體文件中捕獲列印文字提供了一致且受控的環境,具有無與倫比的品質。然而,掃描器是專用設備​​,並非總是在手邊,需要固定工作站才能操作。幸運的是,現代世界提供了傳統掃描器的便利替代品 - 智慧型手機相機。智慧型手機相機技術的進步確保即使是入門級智慧型手機也能提供足夠的品質來捕獲 OCR 就緒文件。內建記憶體讓您可以比以往更輕鬆地隨時隨地數位化大量文件、報紙、書籍、街道標誌和其他文字。您所需要的只是將這些照片轉換為機器可讀文字的正確技術。

Aspose.OCR for .NET 專門設計用於識別所有類型的開箱即用的圖像,並且可以進一步微調以處理低品質的照片。與現代智慧型手機結合,它允許您為大多數日常掃描和文字辨識任務創建強大的 OCR 應用程式。最先進的影像處理和文件結構分析只需幾行程式碼即可執行,使您能夠專注於業務而不是複雜的數學演算法、神經網路和其他複雜的技術。

照片 OCR - C#

// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
  PreprocessingFilter.ContrastCorrectionFilter(),
  PreprocessingFilter.AutoDewarping()
};

// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");

// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;

// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);

// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);

從掃描件建立可搜尋的 PDF

PDF 是掃描紙本文件最受歡迎的格式之一,特別是因為它能夠將多個頁面合併為一個文件。這種格式廣泛用於個人、企業、銀行和政府機構之間交換合約、發票、法律文件、護照和身分證以及許多其他文件。然而,任何掃描的 PDF 本質上都是影像的集合。它不包含機器可讀的文本,因此使用者無法搜尋、複製或以其他方式操作文件內容。

Aspose.OCR for .NET 為您提供了一種快速、簡單且高度可靠的方法,將任何掃描的 PDF 轉換為完全可搜尋和可索引的文件。它可以準確地識別頁面內容,將其轉換為原始圖像上的機器可讀文字圖層,可以透過文字轉語音軟體進行選擇、複製和讀取,甚至可以由翻譯器、摘要器和其他人工智慧分析工具自動處理工具。

在 PDF 中添加文字疊加 - C#

// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");

// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);

// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");

搜尋圖像中的文字

數位檔案,特別是在大型組織中,通常包含大量掃描和照片,其中許多可能包含多頁文件。有效地管理和組織此類檔案對於輕鬆的資訊檢索和導航至關重要。然而,圖像不包含機器可讀的文本,因此無法搜尋和分析文件內容。

Aspose.OCR for .NET 可讓您輕鬆搜尋圖像中的文本,無論字體、文字大小、樣式和其他參數如何。該庫還支援不區分大小寫的搜尋和正規表示式,這在各種應用程式和行業中都非常有用。此功能可用於根據文字中的內容、關鍵字或模式對文件進行分類;搜尋協議和合約中的具體條款或條款;根據關鍵字或文件中的內容重新組織文件;尋找和識別文件中的個人數據,從而更輕鬆地確保 GDPR 合規性並更有效地管理敏感資訊。透過圖像搜尋還可以建立自動化工作流程,並在收到簽署的合約和發票後簡化各種業務流程。

搜尋圖像中的文字 - C#

string sourceFolder = "images";
string searchFor = "OCR";

// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
  bool found = api.ImageHasText(image, searchFor);
  if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}