обрабатывает отсканированные изображения или даже фотографии со смартфона в формате JP2 и создает документы JP2, содержащие распознанный текст. Чтобы добавить его в свой проект, вам просто нужно получить Aspose.OCR
Maven или укажите конфигурацию репозитория Aspose Maven. и установите его в своем проекте на основе Maven, добавив следующие конфигурации в файл pom.xml. Примеры Gradle, Ivy, Sbt можно найти в нашем [репозитории] ( https://repository.aspose.com/ocr/ ) .
Maven Dependency
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>22.5</version>
</dependency>
С помощью Java OCR и всего нескольких строк кода вы можете создать полнофункциональное приложение, которое преобразует изображение JP2 в документ DOC:
- Создать экземпляр класса AsposeOcr
- Вызов метода AsposeOCR.RecognizePage
- Передайте путь к файлу JP2 в качестве параметра
- AsposeOCR.RecognizePage возвращает строку или файл типа DOC
Системные Требования
Перед запуском примера убедитесь, что в вашей системе установлена платформа Java 2 Standard Edition (J2SE) 6.0 (1.6) или более поздней версии.
- Установлен JDK 1.6 или выше.
//Create API instance
AsposeOCR api = new AsposeOCR();
//Prepare rectangles with texts.
ArrayList rectArray = new ArrayList();
rectArray.add(new Rectangle(138, 352, 2033, 537));
rectArray.add(new Rectangle(147, 890, 2033, 1157));
String result = api.RecognizePage("srcImage.png", rectArray);
System.out.println("Result with rect: " + result);
JP2 Что такое JP2 Формат файла
JPEG 2000 (JP2) — это система кодирования изображений и современный стандарт сжатия изображений. Разработанный с использованием вейвлет-технологии JPEG 2000 может кодировать контент без потерь сразу в любом качестве. Более того, без существенного снижения эффективности кодирования, JPEG 2000 имеет возможность доступа и эффективного декодирования одного и того же контента во множество других разрешений и качеств. Потоки кода в JPEG 2000 значительно масштабируемы, имея интересующие области, которые обеспечивают возможность пространственного произвольного доступа. Обладая до 16384 различных компонентов с размерами в терапикселях и точностью, которая может достигать 38 бит/выборка.
Читать далееDOC Что такое DOC Формат файла
Файлы с расширением .doc представляют собой документы, сгенерированные Microsoft Word или другими текстовыми редакторами в двоичном формате. Первоначально расширение использовалось для текстовой документации в нескольких различных операционных системах. Он может содержать несколько различных типов данных, таких как изображения, форматированный, а также обычный текст, графики, диаграммы, встроенные объекты, ссылки, страницы, форматирование страниц, настройки печати и многое другое. Этот формат был популярен для всех видов документации из-за множества вариантов, которые он предлагает пользователям для написания руководств, предложений, спецификаций, резюме, статей или любых подобных документов. Обновленной версией DOC является DOCX, основанный на Office OpenXML, спецификации которого находятся в открытом доступе.
Читать далее