HTML JPG OCR XML BMP
Aspose.OCR  для Java
DOC

Aspose.Imaging для Java

обрабатывает отсканированные изображения или даже фотографии со смартфона в формате TIFF и создает документы TIFF, содержащие распознанный текст. Чтобы добавить его в свой проект, вам просто нужно получить Aspose.OCR

Maven или укажите конфигурацию репозитория Aspose Maven. и установите его в своем проекте на основе Maven, добавив следующие конфигурации в файл pom.xml. Примеры Gradle, Ivy, Sbt можно найти в нашем [репозитории] ( https://repository.aspose.com/ocr/ ) .

Maven Dependency


 <dependency>
 <groupId>com.aspose</groupId>
 <artifactId>aspose-ocr</artifactId>
 <version>22.5</version>
 </dependency>

С помощью Java OCR и всего нескольких строк кода вы можете создать полнофункциональное приложение, которое преобразует изображение TIFF в документ DOC:

  • Создать экземпляр класса AsposeOcr
  • Вызов метода AsposeOCR.RecognizePage
  • Передайте путь к файлу TIFF в качестве параметра
  • AsposeOCR.RecognizePage возвращает строку или файл типа DOC

Системные Требования

Перед запуском примера убедитесь, что в вашей системе установлена ​​платформа Java 2 Standard Edition (J2SE) 6.0 (1.6) или более поздней версии.

  • Установлен JDK 1.6 или выше.


 //Create API instance
 AsposeOCR api = new AsposeOCR();

 //Prepare rectangles with texts.
 ArrayList rectArray = new ArrayList();

 rectArray.add(new Rectangle(138, 352, 2033, 537));
 rectArray.add(new Rectangle(147, 890, 2033, 1157));

 String result = api.RecognizePage("srcImage.png", rectArray);
 System.out.println("Result with rect: " + result);
  • TIFF Что такое TIFF Формат файла

    TIFF или TIF, Tagged Image File Format, представляет собой растровые изображения, которые предназначены для использования на различных устройствах, соответствующих этому стандарту формата файлов. Он способен описывать двухуровневые, полутоновые, палитры и полноцветные данные изображения в нескольких цветовых пространствах. Он поддерживает схемы сжатия с потерями, а также без потерь, чтобы выбирать между пространством и временем для приложений, использующих формат. Формат является расширяемым и претерпел несколько изменений, что позволяет включать неограниченное количество частной или специальной информации. Формат не зависит от машины и свободен от ограничений, таких как процессор, операционная система или файловые системы.

    Читать далее

    DOC Что такое DOC Формат файла

    Файлы с расширением .doc представляют собой документы, сгенерированные Microsoft Word или другими текстовыми редакторами в двоичном формате. Первоначально расширение использовалось для текстовой документации в нескольких различных операционных системах. Он может содержать несколько различных типов данных, таких как изображения, форматированный, а также обычный текст, графики, диаграммы, встроенные объекты, ссылки, страницы, форматирование страниц, настройки печати и многое другое. Этот формат был популярен для всех видов документации из-за множества вариантов, которые он предлагает пользователям для написания руководств, предложений, спецификаций, резюме, статей или любых подобных документов. Обновленной версией DOC является DOCX, основанный на Office OpenXML, спецификации которого находятся в открытом доступе.

    Читать далее

    TXT (Файл текстового документа)
    Text (Файл текстового документа)
    DOC (Документы, созданные Microsoft Word)
    DOCX (Документы Microsoft Word)
    XLS (Формат двоичного файла Microsoft Excel)
    XLSX (Документы Microsoft Excel)
    PDF (Переносимый формат документа (PDF))
    Searchable PDF (Портативная сетевая графика с возможностью поиска)
    XML (расширяемый язык разметки)
    JSON (Обозначение объектов JavaScript)