Aspose.OCR for C++ 通過5行代碼的光學字符識別功能擴展了您的應用程序。我們在神經網絡和機器學習方面的經驗已轉化為具有卓越性能和準確性的 OCR 庫,支持26種基於拉丁文和西里爾字母以及中文的語言。 OCR API 可以識別掃描的圖像、智能手機照片、屏幕截圖、圖像區域和掃描的 PDF,並以最流行的文檔和數據交換格式返回結果。它完全脫機,不需要互聯網連接即可工作。該 API 只需極少的努力即可開始使用,並且學習曲線較淺。所有預處理、歪斜校正、噪聲消除、語言檢測、多線程和其他復雜任務都是自動執行的,但可以進行調整以處理困難的情況。
高級 C++ OCR API 功能
從圖像中提取文本並創建可搜索的 PDF
支持您可以從掃描儀或相機獲得的任何圖像
閱讀擴展拉丁文和西里爾文腳本
識別6000多個漢字
檢測並識別所有流行的字體和格式
在識別之前對圖像進行預處理
僅處理整個圖像或選定區域
支持旋轉、傾斜和嘈雜的圖像
批量識別文件夾或存檔中的所有圖像
識別作為 Web 鏈接提供的圖像
查找並自動更正拼寫錯誤的單詞
以 JSON 格式獲取識別結果
便於使用
你還覺得 C++ OCR 難嗎?使用我們的庫,您只需要5行代碼即可識別圖像並顯示結果。試試這段代碼,自己看看:
圖像到文本的 5 行 - C++
// 提供圖片路徑
std::string image_path = "../Data/Source/sample.png";
// 為結果準備緩衝區
const size_t len = 4096;
wchar_t buffer[len] = { 0 };
// 施展魔法
size_t size = aspose::ocr::page(image_path.c_str(), buffer, len);
// 顯示識別結果
std::wcout << buffer << L"\n";
26種識別語言
OCR API 可以識別大量語言和所有流行的書寫腳本,包括混合語言的文本。
- 擴展拉丁字母:克羅地亞語、捷克語、丹麥語、荷蘭語、英語、愛沙尼亞語、芬蘭語、法語、德語、意大利語、拉脫維亞語、立陶宛語、挪威語、波蘭語、葡萄牙語、羅馬尼亞語、斯洛伐克語、斯洛文尼亞語、西班牙語、瑞典語。
- 西里爾字母:白俄羅斯語、保加利亞語、哈薩克語、俄語、塞爾維亞語、烏克蘭語。
- 中文:6000多個字符。
您可以將語言檢測留給庫或自己定義語言以提高識別性能和可靠性。
批量處理
OCR API 通過提供各種允許您在一次調用中識別多張圖像的批處理方法,讓您從一張一張地識別每張圖像中解放出來:
- 識別多頁 PDF 和 TIFF 文件。
- 識別文件夾中的所有文件。
- 識別檔案中的所有文件。
識別 ZIP 存檔 - C++
// 提供存檔路徑
std::string archive_path = "book.zip";
// 為結果準備緩衝區
const size_t len = 4096;
wchar_t buffer[len] = { 0 };
// 使用默認值初始化 RecognitionSettings 對象
RecognitionSettings settings;
// 認出
size_t res_len = aspose::ocr::pages_multi(archive_path.c_str(), buffer, len, settings);
保留格式
OCR 庫以常規、粗體和斜體樣式讀取所有流行的字體,例如 Arial、Times New Roman、Courier New、Tahoma、Calibri 等,並仔細保留 OCR 結果中的格式。您還可以將識別結果拆分為行並檢測頁面中的文本區域。
識別照片
OCR 應用程序的廣泛採用通常因掃描儀對大多數用戶來說並不常見這一事實而停止。我們的 OCR 庫具有強大的內置圖像預處理過濾器,可以處理深色、旋轉、傾斜和嘈雜的圖像。結合對所有圖像格式的支持,它甚至可以可靠地識別智能手機照片。大多數預處理和圖像校正都是自動完成的,因此您只需要在困難的情況下進行干預。
為傾斜校正設置自定義角度 - C++
// 原始圖像
std::string image_path = "../Data/Source/sample.png";
rect rectangles[2] = { {90, 186, 775, 95} , { 928, 606, 790, 160 } };
// 為結果準備緩衝區
const size_t len = 4096;
wchar_t buffer[len] = { 0 };
// 調整傾斜角度
RecognitionSettings settings;
settings.format = export_format::text;
settings.rectangles = rectangles;
settings.rectangles_size = 2;
settings.skew = 5;
// 識別圖像
size_t res_len = aspose::ocr::page_settings(image_path.c_str(), buffer, len, settings);
拼寫檢查
雖然 OCR 產生可靠的結果,但灰塵和打印缺陷可能會導致某些符號被錯誤識別。 OCR API 有一個內置的拼寫檢查器,可以自動替換拼寫錯誤的單詞,讓您不必手動更正識別結果。