Почему Aspose.OCR для .NET?

Aspose.OCR для .NET — это надежный, удобный для разработчиков и экономичный API для оптического распознавания символов. Менее чем с помощью 10 строк собственного кода C# вы можете встроить возможности оптического распознавания символов в свои настольные решения .NET, веб-приложения на основе MVC, облачные службы и бессерверные функции Azure. Извлекайте машиночитаемый текст из сканированных изображений, фотографий и снимков экрана, конвертируйте отсканированные страницы в PDF-файлы с возможностью поиска и индексирования, находите и сравнивайте текст на изображениях, ориентируясь на бизнес-задачи, а не на сложную математику, нейронные сети и другие технические тонкости. Нажмите на элементы ниже, чтобы узнать больше о наших функциях и преимуществах.

Illustration ocr

Глобальные приложения

Распознавайте тексты на латинице, кириллице и азиатских языках, включая более 6000 китайских иероглифов и хинди.

Читать все

Извлекайте текст из любого файла, полученного с помощью сканера или камеры, и обрабатывайте изображения непосредственно по веб-ссылкам.

Надежные результаты

Достигайте высокой точности распознавания всех изображений, включая расфокусированные, повернутые, искаженные и зашумленные.

Распознавание пакетов

Массовое распознавание всех изображений из папок и архивов; читать многостраничные документы PDF и изображения TIFF.

Обнаружение макета

Определите и классифицируйте блоки контента в изображениях, чтобы обеспечить правильный порядок извлечения текста независимо от макета.

Пример живого кода

Оптическое распознавание символов становится тривиальной и простой задачей с Aspose.OCR даже для разработчиков, плохо знакомых с этой технологией. Достаточно всего нескольких строк кода, чтобы извлечь текст из изображения и отобразить его на экране. Это действительно так просто – попробуйте.

Готов признать Готов признать Перетащите файл сюда или нажмите, чтобы просмотреть *

* Загружая свои файлы или используя услугу, вы соглашаетесь с нашими Условия эксплуатации и политика конфиденциальности.

Результат распознавания
 

Преобразовать изображение в текст

Больше примеров >
// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");

// Perform OCR
List<Aspose.OCR.RecognitionResult> results
     = recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);

Независимость от платформы

Aspose.OCR для .NET может работать на любой платформе , которая поддерживает .NET, .NET Core или .NET Framework – будь то на локальном компьютере. машине, на веб-сервере или в облаке.

Microsoft Windows
Linux
MacOS
GitHub
Microsoft Azure
Amazon Web Services
Docker

Поддерживаемые форматы файлов

Aspose.OCR for .NET может работать практически с любым файлом можно получить со сканера или камеры. Результаты распознавания возвращаются в наиболее популярных форматах обмена файлами и данными, которые можно сохранить, импортировать в базу данных или проанализировать в режиме реального времени.

Изображений

  • JPEG
  • PNG
  • TIFF
  • BMP
  • GIF

Пакетное распознавание текста

  • Multi-page PDF
  • DjVu
  • ZIP
  • Folder

Результаты распознавания

  • Text
  • PDF
  • Microsoft Word
  • Microsoft Excel
  • HTML
  • RTF
  • ePub
  • JSON
  • XML

Подходит для любого контента

Точность и надежность распознавания текста во многом зависят от качества исходного изображения. Aspose.OCR для .NET предоставляет широкий спектр фильтров как полностью автоматизированной, так и ручной обработки изображений, которые улучшают изображение перед его отправкой в ​​механизм OCR.

Мощная обработка изображений и настраиваемые алгоритмы определения структуры контента позволяют извлекать текст практически из любого изображения — от высококачественных сканов до уличных фотографий. К одному и тому же изображению можно применить несколько фильтров обработки, чтобы получить наилучшее качество распознавания.

Оптимизация ресурсов

Aspose.OCR для .NET обеспечивает очень гибкий баланс скорости распознавания, качества и использования ресурсов для каждого конкретного случая использования:

  • Выбирайте между тщательным распознаванием и быстрым распознаванием.
  • Укажите количество потоков, выделяемых для распознавания, или разрешите библиотеке автоматически масштабироваться под количество ядер процессора.
  • Освободите процессор, переложив вычисления на графический процессор.

28 языков распознавания

Aspose.OCR для .NET — универсальное решение для обработки документов, извлечения данных и оцифровки контента в глобальном масштабе. Благодаря поддержке широкого спектра европейских и азиатских письменных сценариев, он хорошо адаптирован для любого масштаба и подходит как для малого и среднего бизнеса, так и для транснациональных корпораций.

Вы можете делегировать определение языка библиотеке или указать язык вручную, что повышает производительность и надежность распознавания. Поддерживаются следующие языки:

  • Расширенный латинский алфавит: хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, немецкий, итальянский, латышский, литовский, норвежский, польский, португальский, румынский, словацкий, словенский, испанский, шведский;
  • Кириллица: белорусский, болгарский, казахский, русский, сербский, украинский;
  • Более 6000 китайских иероглифов;
  • Хинди.

Особенности и возможности

Aspose.OCR для .NET автоматически извлекает текст из фотографий или отсканированных изображений, устраняя необходимость ручного набора документов.

Feature icon

Распознавание фотографий

Извлекайте текст из фотографий смартфона с точностью на уровне сканирования.

Feature icon

PDF с возможностью поиска

Преобразуйте любое отсканированное изображение в полностью доступный для поиска и индексируемый документ.

Feature icon

Распознавание URL-адресов

Распознайте изображение по URL-адресу, не загружая его локально.

Feature icon

Массовое распознавание

Читать все изображения из многостраничных документов, папок и архивов.

Feature icon

Любой шрифт и стиль

Идентифицируйте и распознавайте текст во всех популярных шрифтах и ​​стилях.

Feature icon

Точная настройка распознавания

Настройте каждый параметр OCR для достижения наилучших результатов распознавания.

Feature icon

Программа проверки орфографии

Улучшайте результаты, автоматически исправляя слова с ошибками.

Feature icon

Найти текст в изображениях

Поиск текста или регулярного выражения в наборе изображений.

Feature icon

Сравните тексты изображений

Сравнивайте тексты на двух изображениях независимо от регистра и макета.

Легко использовать

Вам понадобится всего несколько строк кода, чтобы преобразовать изображение в текст, создать PDF-файл с возможностью поиска, сохранить результаты распознавания в документ и многое другое. Изучите примеры кода, чтобы понять, как интегрировать Aspose.OCR для .NET в ваши решения.

Монтаж

Aspose.OCR для .NET распространяется как пакет NuGet или как [загружаемый файл]( https://releases.aspose.com/ ocr/net/) с минимальными зависимостями. Пакет можно добавить в ваш проект непосредственно из Microsoft Visual Studio. Просто установите его в свой проект, и вы готовы извлекать текст из изображений и сохранять результаты распознавания в любом из поддерживаемых форматов. Если ваша система оснащена графическим процессором с поддержкой CUDA, вы можете использовать механизм распознавания текста с ускорением на графическом процессоре , чтобы значительно повысить производительность распознавания.

Вы можете начать использовать Aspose.OCR для .NET сразу после установки с некоторыми ограничениями . Временная лицензия снимает все ограничения пробной версии на 30 дней. Используйте его, чтобы начать создание полнофункционального приложения OCR и позднее принять окончательное решение о покупке Aspose.OCR для .NET.

Извлечь текст из фотографии

Когда люди обычно думают об OCR (оптическом распознавании символов), первая ассоциация часто возникает со сканером как с основным устройством захвата. Эта ассоциация имеет исторические причины и до сих пор распространена во многих контекстах, обеспечивая согласованную и контролируемую среду для захвата печатного текста из физических документов с непревзойденным качеством. Однако сканер – это специализированное оборудование, которое не всегда находится под рукой и требует для работы стационарной рабочей станции. К счастью, современный мир предоставляет удобную альтернативу традиционным сканерам – камеру смартфона. Достижения в области технологий камер смартфонов гарантируют, что даже смартфон начального уровня обеспечивает достаточное качество для захвата документов, готовых к распознаванию текста. А встроенная память позволяет проще, чем когда-либо, оцифровывать большие объемы документов, газет, книг, уличных знаков и другого текста на ходу. Все, что вам нужно, — это правильная технология для преобразования этих фотографий в машиночитаемый текст.

Aspose.OCR для .NET специально разработан для распознавания всех типов изображений и может быть дополнительно настроен для обработки даже фотографий низкого качества. В сочетании с современным смартфоном он позволяет создавать мощные приложения оптического распознавания символов для большинства повседневных задач сканирования и распознавания текста. Самая совершенная обработка изображений и анализ структуры документа выполняются в нескольких строках кода, что позволяет вам сосредоточиться на бизнесе, а не на сложных математических алгоритмах, нейронных сетях и других технических тонкостях.

Распознавание фотографий – C#

// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
  PreprocessingFilter.ContrastCorrectionFilter(),
  PreprocessingFilter.AutoDewarping()
};

// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");

// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;

// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);

// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);

Создайте PDF-файл с возможностью поиска на основе отсканированного изображения

PDF — один из самых популярных форматов для сканирования бумажных документов, особенно благодаря возможности объединения нескольких страниц в один файл. Этот формат широко используется для обмена контрактами, счетами-фактурами, юридическими документами, паспортами и удостоверениями личности, а также многими другими документами между частными лицами, предприятиями, банками и государственными учреждениями. Однако любой отсканированный PDF-файл по сути представляет собой набор изображений. Он не содержит машиночитаемого текста, поэтому пользователи не могут искать, копировать или иным образом манипулировать содержимым документа.

Aspose.OCR для .NET предлагает вам быстрый, простой и очень надежный способ конвертировать любой отсканированный PDF-файл в полностью доступный для поиска и индексируемый документ. Он точно распознает содержимое страницы, преобразуя его в машиночитаемый текстовый слой поверх исходного изображения, который можно выбирать, копировать, читать с помощью программного обеспечения для преобразования текста в речь и даже автоматически обрабатывать переводчиками, сумматорами и другими аналитиками на основе искусственного интеллекта. инструменты.

Добавить наложение текста в PDF — C#

// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");

// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);

// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");

Поиск текста в изображениях

Цифровые архивы, особенно в крупных организациях, часто состоят из обширной коллекции сканов и фотографий, многие из которых могут содержать многостраничные документы. Эффективное управление и организация таких архивов имеет важное значение для облегчения поиска и навигации по информации. Однако изображения не содержат машиночитаемого текста, что делает невозможным поиск и анализ содержимого документа.

Aspose.OCR для .NET позволяет легко искать текст на изображениях, независимо от шрифта, размера текста, стиля и других параметров. Библиотека также поддерживает поиск без учета регистра и регулярные выражения, которые чрезвычайно полезны в различных приложениях и отраслях. Эту функцию можно использовать для категоризации документов на основе содержания, ключевых слов или шаблонов, обнаруженных в тексте; поиск конкретных условий или пунктов в соглашениях и контрактах; реорганизация файлов на основе ключевых слов или содержимого, найденного в них; находите и идентифицируйте персональные данные в документах, что упрощает обеспечение соответствия GDPR и более эффективно управляет конфиденциальной информацией. Поиск по изображениям также позволяет создавать автоматизированные рабочие процессы и оптимизировать различные бизнес-процессы после получения подписанных контрактов и счетов.

Поиск текста в изображениях — C#

string sourceFolder = "images";
string searchFor = "OCR";

// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
  bool found = api.ImageHasText(image, searchFor);
  if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}