HTML JPG OCR XML BMP
Aspose.OCR  для Java
DOC

Aspose.Imaging для Java

обрабатывает отсканированные изображения или даже фотографии со смартфона в формате DJVU и создает документы DJVU, содержащие распознанный текст. Чтобы добавить его в свой проект, вам просто нужно получить Aspose.OCR

Maven или укажите конфигурацию репозитория Aspose Maven. и установите его в своем проекте на основе Maven, добавив следующие конфигурации в файл pom.xml. Примеры Gradle, Ivy, Sbt можно найти в нашем [репозитории] ( https://repository.aspose.com/ocr/ ) .

Maven Dependency


 <dependency>
 <groupId>com.aspose</groupId>
 <artifactId>aspose-ocr</artifactId>
 <version>22.5</version>
 </dependency>

С помощью Java OCR и всего нескольких строк кода вы можете создать полнофункциональное приложение, которое преобразует изображение DJVU в документ DOC:

  • Создать экземпляр класса AsposeOcr
  • Вызов метода AsposeOCR.RecognizePage
  • Передайте путь к файлу DJVU в качестве параметра
  • AsposeOCR.RecognizePage возвращает строку или файл типа DOC

Системные Требования

Перед запуском примера убедитесь, что в вашей системе установлена ​​платформа Java 2 Standard Edition (J2SE) 6.0 (1.6) или более поздней версии.

  • Установлен JDK 1.6 или выше.


 //Create API instance
 AsposeOCR api = new AsposeOCR();

 //Prepare rectangles with texts.
 ArrayList rectArray = new ArrayList();

 rectArray.add(new Rectangle(138, 352, 2033, 537));
 rectArray.add(new Rectangle(147, 890, 2033, 1157));

 String result = api.RecognizePage("srcImage.png", rectArray);
 System.out.println("Result with rect: " + result);
  • DJVU Что такое DJVU Формат файла

    DjVu, произносится как «дежа вю», представляет собой формат графических файлов, предназначенный для отсканированных документов и книг, особенно тех, которые содержат комбинацию текста, рисунков, изображений и фотографий. Он был разработан AT&T Labs. Он использует несколько методов, таких как разделение слоя изображения текста и фоновых изображений, прогрессивная загрузка, арифметическое кодирование и сжатие с потерями для битональных изображений. Поскольку файл DJVU может содержать сжатые, но высококачественные цветные изображения, фотографии, текст и рисунки и может занимать меньше места, он используется в Интернете в качестве электронных книг, руководств, газет, древних документов и т. д.

    Читать далее

    DOC Что такое DOC Формат файла

    Файлы с расширением .doc представляют собой документы, сгенерированные Microsoft Word или другими текстовыми редакторами в двоичном формате. Первоначально расширение использовалось для текстовой документации в нескольких различных операционных системах. Он может содержать несколько различных типов данных, таких как изображения, форматированный, а также обычный текст, графики, диаграммы, встроенные объекты, ссылки, страницы, форматирование страниц, настройки печати и многое другое. Этот формат был популярен для всех видов документации из-за множества вариантов, которые он предлагает пользователям для написания руководств, предложений, спецификаций, резюме, статей или любых подобных документов. Обновленной версией DOC является DOCX, основанный на Office OpenXML, спецификации которого находятся в открытом доступе.

    Читать далее