OCR for C++

OCR for Python via .NET

OCR for Python via Java

OCR for Python via C++

OCR for Javascript via C++

OCR for Node.js via C++

OCR for .NET

OCR-бібліотека нового покоління на C# для .NET — зі вбудованим AI

Легко перетворюйте зображення на машиночитаний текст і створюйте PDF-файли з можливістю пошуку зі сканованих сторінок, використовуючи лише кілька рядків коду .NET.

Завантажити Спробувати Купити

Подивіться, що нового

// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source
     = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("image-with-text.png");

// Perform OCR
List<Aspose.OCR.RecognitionResult> results
     = recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);

> dotnet add package Aspose.OCR

Чому Aspose.OCR для .NET?

Aspose.OCR для .NET — це надійний, зручний для розробників і економічно ефективний API для оптичного розпізнавання символів. Менш ніж за 10 рядків власного коду C# ви можете створити можливості OCR у своїх настільних рішеннях .NET, веб-додатках на основі MVC, хмарних службах і безсерверних функціях Azure. Оцініть OCR, який не просто витягує текст, а розуміє його і покращує за допомогою штучного інтелекту. Натисніть на елементи нижче, щоб дізнатися більше про наші функції та переваги.

Глобальні програми

Розпізнавайте тексти латиницею, кирилицею та азійським шрифтом, включаючи понад 6000 китайських ієрогліфів та хінді.

Читайте все

Отримайте текст із будь-якого файлу, отриманого за допомогою сканера чи камери, і обробляйте зображення безпосередньо з веб-посилань.

Надійні результати

Досягніть високої точності розпізнавання всіх зображень, у тому числі розфокусованих, повернених, спотворених і з шумом.

Пакетне розпізнавання

Масове розпізнавання всіх зображень з папок і архівів; читати багатосторінкові документи PDF і зображення TIFF.

Виявлення макета

Визначайте та класифікуйте блоки вмісту в зображеннях, щоб забезпечити правильний порядок вилученого тексту, незалежно від макета.

AI-постобробка з використанням LLM

Це більше, ніж просто OCR — це універсальне AI-рішення для розумного та безпомилкового розпізнавання тексту. Aspose.OCR тепер інтегрує штучний інтелект і великі мовні моделі (LLM), автоматично підбираючи найкращі моделі для кожного завдання. Це дозволяє суттєво підвищити точність OCR: усувати помилки, відновлювати пропущений текст і покращувати загальну якість розпізнавання.

Приклад живого коду

Оптичне розпізнавання символів стає тривіальним і простим завданням з Aspose.OCR навіть для розробників, які не знайомі з цією технологією. Достатньо лише кількох рядків коду, щоб витягнути текст із зображення та відобразити його на екрані. Це справді так просто - спробуйте.

Готовий розпізнати Готовий розпізнати Перетягніть файл сюди або натисніть, щоб переглянути *

* Завантажуючи свої файли або користуючись сервісом, ви погоджуєтеся з нашими Умови використання і Політика конфіденційності.

Результат розпізнавання

// Initialize OCR engine
var recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add image to the recognition batch
var source = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
source.Add("<file name>");

// Perform OCR
List<Aspose.OCR.RecognitionResult> results
     = recognitionEngine.Recognize(source);
// Output recognized text
Console.WriteLine(results[0].RecognitionText);

Незалежність від платформи

Aspose.OCR для .NET може працювати на будь-якій платформі , яка підтримує .NET, .NET Core або .NET Framework – чи то на локальній машині, на веб-сервері або в хмарі.

Підтримувані формати файлів

Aspose.OCR for .NET може працювати практично з будь-яким файлом можна отримати зі сканера або камери. Результати розпізнавання повертаються в найпопулярніших форматах обміну файлами та даними, які можна зберігати, імпортувати до бази даних або аналізувати в реальному часі.

Зображення

JPEG
PNG
TIFF
BMP
GIF

Пакетне OCR

Multi-page PDF
DjVu
ZIP
Folder

Результати розпізнавання

Text
PDF
Microsoft Word
Microsoft Excel
HTML
RTF
ePub
JSON
XML

OCR нового покоління на базі LLM: наступний крок у розвитку OCR — використання потужності мовних моделей ШІ.

Точність результату не обмежується розпізнаванням — підніміть якість на новий рівень завдяки інтелектуальній постобробці тексту з використанням зовнішніх LLM.

Автоматично виправляйте орфографічні та граматичні помилки у розпізнаному тексті.
Нормалізуйте невідповідності та проблеми форматування у багатосторінкових документах.
Адаптуйте результати розпізнавання до професійної термінології за допомогою моделей, керованих промптами.
Інтегруйте будь-яку зовнішню LLM у ваш OCR-процес всього за кілька рядків коду.

Підходить для будь-якого контенту

Точність і надійність розпізнавання тексту значною мірою залежить від якості вихідного зображення. Aspose.OCR для .NET надає широкий спектр як повністю автоматизованих, так і ручних фільтрів обробки зображень, які покращують зображення перед тим, як воно надсилається до механізму OCR.

Потужна обробка зображень і настроювані алгоритми виявлення структури вмісту дозволяють витягувати текст практично з будь-якого зображення, починаючи від високоякісних сканів і закінчуючи вуличними фотографіями. До одного зображення можна застосувати кілька фільтрів обробки, щоб отримати найкращу якість розпізнавання.

Оптимізація ресурсів

Aspose.OCR для .NET забезпечує дуже гнучкий баланс між швидкістю розпізнавання, якістю та використанням ресурсів для кожного конкретного випадку використання:

Вибирайте між ретельним розпізнаванням і швидким розпізнаванням.
Укажіть кількість потоків, призначених для розпізнавання, або дозвольте бібліотеці автоматично масштабуватись відповідно до кількості ядер процесора.
Звільніть центральний процесор, переклавши обчислення на графічний процесор.

140+ мов розпізнавання

Aspose.OCR для .NET — універсальне рішення для обробки документів, вилучення даних і оцифровки контенту в глобальному масштабі. Завдяки підтримці широкого спектру європейських та азіатських сценаріїв, він добре адаптований для будь-якого масштабу, обслуговуючи як малий і середній бізнес, так і транснаціональні корпорації.

Ви можете делегувати визначення мови бібліотеці або вказати мову вручну, підвищуючи продуктивність і надійність розпізнавання. Підтримуються такі мови:

Розширена латиниця: хорватська, чеська, датська, голландська, англійська, естонська, фінська, французька, німецька, італійська, латвійська, литовська, норвезька, польська, португальська, румунська, словацька, словенська, іспанська, шведська;
кирилиця: білоруська, болгарська, казахська, російська, сербська, українська;
Більше 6000 китайських ієрогліфів;
Хінді.

Особливості та можливості

Aspose.OCR для .NET автоматично витягує текст із фотографій або відсканованих зображень, усуваючи потребу вручну повторно вводити документи.

Фото OCR

Витягуйте текст із фотографій смартфона з точністю сканування.

PDF з можливістю пошуку

Перетворюйте будь-яке скановане зображення на документ із можливістю пошуку та індексування.

розпізнавання URL

Розпізнайте зображення за URL-адресою, не завантажуючи його локально.

Масове розпізнавання

Читайте всі зображення з багатосторінкових документів, папок і архівів.

Будь-який шрифт і стиль

Визначайте та розпізнавайте текст усіх популярних шрифтів і стилів.

Точне налаштування розпізнавання

Налаштуйте кожен параметр OCR для найкращих результатів розпізнавання.

Перевірка орфографії

Покращуйте результати, автоматично виправляючи слова з помилками.

Знайдіть текст на малюнках

Шукайте текст або регулярний вираз у наборі зображень.

Порівняйте тексти зображень

Порівняйте тексти на двох зображеннях, незалежно від регістру та компонування.

Корекція на основі ШІ

Виправляйте помилки розпізнавання слів і граматики за допомогою LLM-моделей на базі трансформерів — без потреби додаткового навчання.

Семантична постобробка

Вийдіть за межі символів: покращуйте «шумний» результат OCR за допомогою LLM, досягаючи вищої якості тексту та нормалізації мови.

Інтеграція з зовнішніми LLM

Підключайте зовнішні мовні моделі для автоматичного виправлення помилок розпізнавання і відновлення неповного або фрагментованого тексту.

Простий у використанні

Вам знадобиться лише кілька рядків коду, щоб перетворити зображення на текст, створити PDF-файл із можливістю пошуку, зберегти результати розпізнавання в документ та багато іншого. Перегляньте зразки коду, щоб зрозуміти, як інтегрувати Aspose.OCR для .NET у ваші рішення.

Встановлення

Aspose.OCR для .NET поширюється як пакет NuGet або як [файл для завантаження]( https://releases.aspose.com/ ocr/net/) з мінімальними залежностями. Пакет можна додати до вашого проекту безпосередньо з Microsoft Visual Studio. Просто встановіть його у свій проект, і ви готові видобувати текст із зображень і зберігати результати розпізнавання в будь-якому з підтримуваних форматів. Якщо у вашій системі є графічний процесор із підтримкою CUDA, ви можете використовувати процесор OCR із прискоренням GPU , щоб значно підвищити продуктивність розпізнавання.

Ви можете почати використовувати Aspose.OCR для .NET відразу після встановлення з деякими обмеженнями . Тимчасова ліцензія скасовує всі обмеження пробної версії на 30 днів. Використовуйте його, щоб розпочати створення повнофункціональної програми OCR і прийняти остаточне рішення про придбання Aspose.OCR для .NET пізніше.

Вилучення тексту з фотографії

Коли люди зазвичай думають про OCR (оптичне розпізнавання символів), перша асоціація часто виникає зі сканером як основним пристроєм захоплення. Цей зв’язок має історичні причини та все ще поширений у багатьох контекстах, забезпечуючи послідовне та контрольоване середовище для захоплення друкованого тексту з фізичних документів із неперевершеною якістю. Однак сканер – спеціалізоване обладнання, яке не завжди є під рукою і для роботи якого потрібне стаціонарне робоче місце. На щастя, сучасний світ надає зручну альтернативу традиційним сканерам – камеру смартфона. Удосконалення технології камер смартфонів гарантує, що навіть смартфон початкового рівня забезпечує достатню якість для запису документів, готових до OCR. А завдяки вбудованій пам’яті оцифровувати велику кількість документів, газет, книг, вуличних вивісок та іншого тексту в дорозі легше, ніж будь-коли. Усе, що вам потрібно, це правильна технологія для перетворення цих фотографій у машиночитаний текст.

Aspose.OCR для .NET спеціально розроблено для розпізнавання всіх типів зображень із коробки та може бути додатково налаштовано для обробки навіть фотографій низької якості. У поєднанні з сучасним смартфоном це дозволяє створювати потужні програми OCR для більшості щоденних завдань сканування та розпізнавання тексту. Найдосконаліша обробка зображень і аналіз структури документа виконуються в кількох рядках коду, що дозволяє зосередитися на бізнесі, а не на складних математичних алгоритмах, нейронних мережах та інших технічних тонкощах.

OCR фотографій - C#

// Configure preprocessing filters
PreprocessingFilter filters = new PreprocessingFilter {
  PreprocessingFilter.ContrastCorrectionFilter(),
  PreprocessingFilter.AutoDewarping()
};

// Add a photo for recognition
OcrInput photos = new OcrInput(InputType.SingleImage, filters);
photos.Add("photo.png");

// Fine-tune recognition setings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.Eng;
settings.DetectAreasMode = DetectAreasMode.CURVED_TEXT;

// Extract text from a page
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> results = api.Recognize(photos, settings);

// Automatically correct spelling (English)
string text = results[0].GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);
// Display recognized text
Console.WriteLine(text);

Створіть із відсканованого файлу PDF із можливістю пошуку

PDF є одним із найпопулярніших форматів для сканування паперових документів, особливо завдяки його здатності об’єднувати кілька сторінок в один файл. Цей формат широко використовується для обміну контрактами, рахунками-фактурами, юридичними документами, паспортами та ID-картками, а також багатьма іншими документами між фізичними особами, компаніями, банками та державними установами. Однак будь-який сканований PDF-файл — це, по суті, колекція зображень. Він не містить машинозчитуваного тексту, тому користувачі не можуть шукати, копіювати чи іншим чином маніпулювати вмістом документа.

Aspose.OCR для .NET пропонує вам швидкий, простий і дуже надійний спосіб перетворити будь-який відсканований PDF-файл на документ, який можна повністю шукати та індексувати. Він точно розпізнає вміст сторінки, перетворюючи його на машиночитаний текстовий шар поверх вихідного зображення, який можна вибирати, копіювати, читати за допомогою програмного забезпечення синтезу мовлення з тексту та навіть автоматично обробляти перекладачами, узагальнювачами та іншими аналітичними засобами на основі ШІ. інструменти.

Додати текстове накладання до PDF - C#

// Load the scanned PDF
OcrInput pdf = new OcrInput(InputType.PDF);
pdf.Add("Delivery-Agreement.pdf");

// Recognize the text from document
AsposeOcr api = new AsposeOcr();
List<RecognitionResult> result = api.Recognize(pdf);

// Save searchable PDF
AsposeOcr.SaveMultipageDocument("Readable-Contract.pdf", SaveFormat.Pdf, result);
// Report progress
Console.WriteLine($@"Recognition finished. See '{Directory.GetCurrentDirectory()}\Readable-Contract.pdf'.");

Пошук тексту в зображеннях

Цифрові архіви, особливо у великих організаціях, часто складаються з великої колекції сканів і фотографій, багато з яких можуть містити багатосторінкові документи. Ефективне управління та ефективна організація таких архівів має важливе значення для легкого пошуку інформації та навігації. Однак зображення не містять машинозчитуваного тексту, що унеможливлює пошук і аналіз вмісту документа.

Aspose.OCR для .NET дозволяє легко шукати текст на зображеннях, незалежно від шрифту, розміру тексту, стилю та інших параметрів. Бібліотека також підтримує пошук без урахування регістру та регулярні вирази, що є надзвичайно корисним у різних програмах та галузях. Цю функцію можна використовувати для класифікації документів на основі вмісту, ключових слів або шаблонів, знайдених у тексті; пошук конкретних умов або пунктів угод і контрактів; реорганізація файлів на основі ключових слів або вмісту, знайденого в них; знаходити та ідентифікувати особисті дані в документах, полегшуючи забезпечення відповідності GDPR і ефективніше керуючи конфіденційною інформацією. Пошук за зображеннями також дозволяє створювати автоматизовані робочі процеси та оптимізувати різні бізнес-процеси після отримання підписаних контрактів і рахунків-фактур.

Пошук тексту в зображеннях - C#

string sourceFolder = "images";
string searchFor = "OCR";

// Search for text in images
AsposeOcr api = new AsposeOcr();
foreach(var image in Directory.GetFiles(sourceFolder,"*.png"))
{
  bool found = api.ImageHasText(image, searchFor);
  if(found) Console.WriteLine($@"Found ""{searchFor}"" in image ""{image}""");
}

AI-постобробка з використанням LLM

Тепер ви можете вийти за межі простого розпізнавання тексту і застосувати інтелектуальну AI-обробку для покращення якості OCR-результатів. Великі мовні моделі (LLM) здатні розумно: виправляти орфографічні помилки, відновлювати межі слів, застосовувати граматичні правила, адаптувати текст з урахуванням контексту — чого не можуть досягти звичайні перевірники орфографії на основі синтаксису.

Ця постобробка особливо ефективна для: низькоякісних сканів, фотографій із фоновим шумом, багатомовних документів. Ви можете підключити будь-яку зовнішню LLM, що підтримує простий текстовий ввід/вивід, або скористатися вбудованими інструментами інтелектуальної корекції Aspose для отримання готових до використання результатів.

🧠AI-постобробка з використанням LLM - C#

// Optional logger for progress and error reporting (can be set to null)
ILogger logger = new ConsoleLogger();

// Configure AI model for postprocessing
AsposeAIModelConfig modelConfig = new AsposeAIModelConfig
{
    AllowAutoDownload = true,
    DirectoryModelPath = "D://Models", // Path to local or downloaded model files
};

// Initialize AI postprocessing engine
AsposeAI aiEngine = new AsposeAI(modelConfig, logger);

// Register a spell-checking processor
aiEngine.AddPostProcessor(new SpellCheckAIProcessor());

// Execute AI-based postprocessing on OCR results
aiEngine.RunPostprocessor(ocrResults);

// Output the refined recognition result
Console.WriteLine("Corrected OCR Output:\n");
Console.WriteLine(ocrResults[0].RecognitionText);

// Release resources
aiEngine.Dispose();

OCR-бібліотека нового покоління на C# для .NET — зі вбудованим AI

Перетворення зображення на текст у C#

Чому Aspose.OCR для .NET?

Глобальні програми

Читайте все

Надійні результати

Пакетне розпізнавання

Виявлення макета

AI-постобробка з використанням LLM

Приклад живого коду

Перетворення зображення на текст

Незалежність від платформи

Підтримувані формати файлів

Зображення

Пакетне OCR

Результати розпізнавання

OCR нового покоління на базі LLM: наступний крок у розвитку OCR — використання потужності мовних моделей ШІ.

Підходить для будь-якого контенту

Оптимізація ресурсів

140+ мов розпізнавання

Особливості та можливості

Простий у використанні

Встановлення

Вилучення тексту з фотографії

OCR фотографій - C#

Створіть із відсканованого файлу PDF із можливістю пошуку

Додати текстове накладання до PDF - C#

Пошук тексту в зображеннях

Пошук тексту в зображеннях - C#

AI-постобробка з використанням LLM

🧠AI-постобробка з використанням LLM - C#

На старт, увага, марш!

Підтримка та навчання

Дослідіть API

Отримати підтримку

Релізи