HTML JPG OCR XML BMP
Aspose.OCR  для Java
TXT

Aspose.Imaging для Java

обрабатывает отсканированные изображения или даже фотографии со смартфона в формате WBMP и создает документы WBMP, содержащие распознанный текст. Чтобы добавить его в свой проект, вам просто нужно получить Aspose.OCR

Maven или укажите конфигурацию репозитория Aspose Maven. и установите его в своем проекте на основе Maven, добавив следующие конфигурации в файл pom.xml. Примеры Gradle, Ivy, Sbt можно найти в нашем [репозитории] ( https://repository.aspose.com/ocr/ ) .

Maven Dependency


 <dependency>
 <groupId>com.aspose</groupId>
 <artifactId>aspose-ocr</artifactId>
 <version>22.5</version>
 </dependency>

С помощью Java OCR и всего нескольких строк кода вы можете создать полнофункциональное приложение, которое преобразует изображение WBMP в документ TXT:

  • Создать экземпляр класса AsposeOcr
  • Вызов метода AsposeOCR.RecognizePage
  • Передайте путь к файлу WBMP в качестве параметра
  • AsposeOCR.RecognizePage возвращает строку или файл типа TXT

Системные Требования

Перед запуском примера убедитесь, что в вашей системе установлена ​​платформа Java 2 Standard Edition (J2SE) 6.0 (1.6) или более поздней версии.

  • Установлен JDK 1.6 или выше.


 //Create API instance
 AsposeOCR api = new AsposeOCR();

 //Prepare rectangles with texts.
 ArrayList rectArray = new ArrayList();

 rectArray.add(new Rectangle(138, 352, 2033, 537));
 rectArray.add(new Rectangle(147, 890, 2033, 1157));

 String result = api.RecognizePage("srcImage.png", rectArray);
 System.out.println("Result with rect: " + result);
  • WBMP Что такое WBMP Формат файла

    WBMP — это формат файла монохромной графики, оптимизированный для мобильных вычислительных устройств. Изображения WBMP являются монохромными (черно-белыми), поэтому размер изображения сведен к минимуму. Черный пиксель обозначается 0, а белый пиксель обозначается 1.

    Читать далее

    TXT Что такое TXT Формат файла

    Файл с расширением .TXT представляет собой текстовый документ, содержащий обычный текст в виде строк. Абзацы в текстовом документе распознаются возвратом каретки и используются для лучшего расположения содержимого файла. Стандартный текстовый документ можно открыть в любом текстовом редакторе или текстовом редакторе в разных операционных системах. Весь текст, содержащийся в таком файле, имеет удобочитаемый формат и представлен последовательностью символов.

    Читать далее

    TXT (Файл текстового документа)
    Text (Файл текстового документа)
    DOC (Документы, созданные Microsoft Word)
    DOCX (Документы Microsoft Word)
    XLS (Формат двоичного файла Microsoft Excel)
    XLSX (Документы Microsoft Excel)
    PDF (Переносимый формат документа (PDF))
    Searchable PDF (Портативная сетевая графика с возможностью поиска)
    XML (расширяемый язык разметки)
    JSON (Обозначение объектов JavaScript)