Aspose.OCR  for .NET

Преобразование изображений и PDF-файлов в текст в .NET

Добавьте оптическое распознавание символов (OCR) в свои приложения .NET с помощью нескольких строк кода.

  Download Free Trial
  
 

Aspose.OCR для .NET — это мощный, но простой в использовании и экономичный API для оптического распознавания символов. С его помощью вы можете добавить функциональность OCR в свои приложения .NET, написав менее 5 строк кода, не беспокоясь о сложной математике, нейронных сетях и других технических деталях. Наш опыт в технологиях машинного обучения и годы разработки привели к созданию механизма оптического распознавания символов с превосходной скоростью и точностью, который поддерживает 26 языков на основе латиницы и кириллицы , а также китайский язык . OCR API может распознавать отсканированные изображения, фотографии смартфонов, скриншоты, области изображений и отсканированные PDF-файлы и возвращать результаты в самых популярных форматах обмена документами и данными. Различные фильтры предварительной обработки позволяют распознавать повернутые, перекошенные и зашумленные изображения. Производительность распознавания и нагрузка на систему могут быть дополнительно улучшены за счет переноса ресурсоемких вычислительных задач на GPU .

Особенности и возможности Aspose.OCR для .NET

Преобразует изображения и PDF-файлы в текст

Поддерживает все форматы изображений, которые вы можете получить со сканера или камеры.

Читает языки на основе латиницы и кириллицы

Распознает более 6000 китайских иероглифов

Обнаруживает и распознает все популярные шрифты

Тщательно сохраняет стили шрифтов и форматирование

Обрабатывает все изображение или только выбранные области

Поддерживает повернутые, перекошенные и зашумленные изображения

Пакетное распознавание всех изображений в папке или архиве

Распознает изображения, предоставленные как веб-ссылки

Находит и автоматически исправляет слова с ошибками

Полностью совместим с другими продуктами Aspose

Простота установки

Aspose.OCR для .NET распространяется в виде облегченного пакета NuGet или загружаемого файла с минимальными зависимостями. Просто установите его в свой проект, и вы готовы распознавать тексты на любых поддерживаемых языках и сохранять результаты распознавания в любом из поддерживаемых форматов.

Запросите временную лицензию , чтобы начать создание полнофункционального приложения OCR без каких-либо ограничений и ограничений.

Легко использовать

Вам нужно три строки кода, чтобы распознать изображение и отобразить результат. Да, это действительно так просто!

Изображение в текст в 3 строки - С#

// Инициализировать механизм OCR
var recognitionEngine = new Aspose.OCR.AsposeOcr();

// Распознать изображение в текст
string result = recognitionEngine.RecognizeImage("sample.jpg");

// Отобразить результат распознавания
Console.WriteLine(result);

Кроссплатформенность

Библиотека полностью поддерживает .NET Standard 2.0. Это означает, что приложения могут работать на любой платформе: настольной Windows, Windows Server, macOS, Linux и в облаке.

26 языков распознавания

OCR API может распознавать большое количество языков и все популярные сценарии письма, включая тексты на смешанных языках.

  • Расширенный латинский алфавит : хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, немецкий, итальянский, латышский, литовский, норвежский, польский, португальский, румынский, словацкий, словенский, испанский, шведский.
  • Кириллица : белорусский, болгарский, казахский, русский, сербский, украинский.
  • Китайский : более 6000 символов.

Вы можете оставить определение языка библиотеке или определить язык самостоятельно, чтобы повысить производительность и надежность распознавания.

Распознавать фотографии

Самым большим препятствием для приложений OCR является то, что сканеры не являются обычным явлением для конечных пользователей. API имеет мощные встроенные фильтры предварительной обработки изображений, которые могут обрабатывать повернутые, перекошенные и зашумленные изображения. В сочетании с поддержкой всех форматов изображений он позволяет надежно распознавать даже фотографии со смартфона. Большая часть предварительной обработки и коррекции изображения выполняется автоматически, поэтому вам придется вмешиваться только в сложных случаях.

Применение автоматической коррекции изображений — C#

// Инициализировать механизм OCR
var recognitionEngine = new Aspose.OCR.AsposeOcr();

// Включить автоматический расчет перекоса и контраста
var recognitionEngine = new Aspose.OCR.AsposeOcr();
var recognitionSettings = new Aspose.OCR.RecognitionSettings() {
    AutoContrast = true,
    AutoSkew = true
};

// Распознать изображение
Aspose.OCR.RecognitionResult result = recognitionEngine.RecognizeImage("IMG_20220622_163123.jpg", recognitionSettings);

Универсальный преобразователь

API может читать буквально любое изображение, которое вы можете получить со сканера, камеры или смартфона: PDF-документы, JPEG, PNG, TIFF, GIF, изображения BMP и даже файлы DjVu. Полностью поддерживаются многостраничные документы PDF, изображения TIFF и DjVu. Вы также можете предоставить изображение из Интернета через URL-адрес.

Результаты распознавания возвращаются в самых популярных форматах обмена документами и данными: обычный текст, PDF, Microsoft Word, Microsoft Excel, JSON и XML.

Распознавание PDF и сохранение результатов в JSON — C#

// Инициализировать механизм OCR
var recognitionEngine = new Aspose.OCR.AsposeOcr();

// Распознать все страницы из отсканированного PDF
var pages = recognitionEngine.RecognizePdf("sample.pdf", new Aspose.OCR.DocumentRecognitionSettings());

// Выводить каждую страницу в формате JSON
foreach(var page in pages)
{
    Console.WriteLine(page.GetJson());
}

Оптимизация ресурсов

Оптическое распознавание символов является ресурсоемким процессом. API предлагает очень гибкие способы достижения баланса в классической триаде время-цена-качество:

  • Выбирайте между тщательным распознаванием и быстрым распознаванием.
  • Укажите количество потоков, выделенных для распознавания, или разрешите библиотеке автоматически масштабироваться под количество ядер процессора.
  • Освободите ЦП, перенеся вычисления на ГП.

Быстрое распознавание — С#

// Инициализировать механизм OCR
var recognitionEngine = new Aspose.OCR.AsposeOcr();

// Распознавать изображения в самом быстром режиме
string result = recognitionEngine.RecognizeImageFast("sample.jpg");

Проверка орфографии

Хотя OCR дает надежные результаты, пыль и дефекты печати могут привести к неправильному распознаванию некоторых символов. OCR API имеет встроенную проверку орфографии, которая автоматически заменяет слова с ошибками и избавляет вас от необходимости вручную исправлять результаты распознавания.

Результаты распознавания проверки орфографии — C#

// Инициализировать механизм OCR
var recognitionEngine = new Aspose.OCR.AsposeOcr();

// Включить автоматическую контрастность
var recognitionEngine = new Aspose.OCR.AsposeOcr();
var recognitionSettings = new Aspose.OCR.RecognitionSettings() {
    AutoContrast = true
};

// Распознать изображение
Aspose.OCR.RecognitionResult result = recognitionEngine.RecognizeImage("sample.jpg", recognitionSettings);

// Исправьте слова с ошибками
string text =  result.GetSpellCheckCorrectedText();

Пакетная обработка

OCR API избавляет вас от необходимости распознавать каждое изображение по одному, предлагая различные методы пакетной обработки, которые позволяют распознавать несколько изображений за один вызов:

  • Распознавание многостраничных файлов PDF, TIFF и DjVu.
  • Распознавание всех файлов в папке.
  • Распознавание всех файлов в архиве.
  • Распознавание всех файлов из списка.

Учитесь на примере

Aspose.OCR для .NET поставляется с рядом примеров , написанных на C#, которые позволяют вам быстро ознакомиться с его функциями и возможностями и дать представление о создании решений для нужд вашего бизнеса.

  
  

Aspose также предлагает нативные API-интерфейсы OCR для других популярных языков программирования: