HTML JPG OCR XML BMP
Aspose.OCR  для Java
PDF

Aspose.Imaging для Java

обрабатывает отсканированные изображения или даже фотографии со смартфона в формате JPEG2000 и создает документы JPEG2000, содержащие распознанный текст. Чтобы добавить его в свой проект, вам просто нужно получить Aspose.OCR

Maven или укажите конфигурацию репозитория Aspose Maven. и установите его в своем проекте на основе Maven, добавив следующие конфигурации в файл pom.xml. Примеры Gradle, Ivy, Sbt можно найти в нашем [репозитории] ( https://repository.aspose.com/ocr/ ) .

Maven Dependency


 <dependency>
 <groupId>com.aspose</groupId>
 <artifactId>aspose-ocr</artifactId>
 <version>22.5</version>
 </dependency>

С помощью Java OCR и всего нескольких строк кода вы можете создать полнофункциональное приложение, которое преобразует изображение JPEG2000 в документ PDF:

  • Создать экземпляр класса AsposeOcr
  • Вызов метода AsposeOCR.RecognizePage
  • Передайте путь к файлу JPEG2000 в качестве параметра
  • AsposeOCR.RecognizePage возвращает строку или файл типа PDF

Системные Требования

Перед запуском примера убедитесь, что в вашей системе установлена ​​платформа Java 2 Standard Edition (J2SE) 6.0 (1.6) или более поздней версии.

  • Установлен JDK 1.6 или выше.


 //Create API instance
 AsposeOCR api = new AsposeOCR();

 //Prepare rectangles with texts.
 ArrayList rectArray = new ArrayList();

 rectArray.add(new Rectangle(138, 352, 2033, 537));
 rectArray.add(new Rectangle(147, 890, 2033, 1157));

 String result = api.RecognizePage("srcImage.png", rectArray);
 System.out.println("Result with rect: " + result);
  • JPEG2000 Что такое JPEG2000 Формат файла

    JPEG 2000 (JP2) — это система кодирования изображений и современный стандарт сжатия изображений. Разработанный с использованием вейвлет-технологии JPEG 2000 может кодировать контент без потерь сразу в любом качестве. Более того, без существенного снижения эффективности кодирования, JPEG 2000 имеет возможность доступа и эффективного декодирования одного и того же контента во множество других разрешений и качеств. Потоки кода в JPEG 2000 значительно масштабируемы, имея интересующие области, которые обеспечивают возможность пространственного произвольного доступа. Обладая до 16384 различных компонентов с размерами в терапикселях и точностью, которая может достигать 38 бит/выборка.

    Читать далее

    PDF Что такое PDF Формат файла

    Portable Document Format (PDF) — это тип документа, созданный Adobe еще в 1990-х годах. Цель этого формата файла состояла в том, чтобы ввести стандарт для представления документов и других справочных материалов в формате, который не зависит от прикладного программного обеспечения, аппаратного обеспечения, а также операционной системы. Формат файла PDF имеет полную возможность содержать такую ​​информацию, как текст, изображения, гиперссылки, поля форм, мультимедийные материалы, цифровые подписи, вложения, метаданные, геопространственные функции и 3D-объекты, которые могут стать частью исходного документа.

    Читать далее

    TXT (Файл текстового документа)
    Text (Файл текстового документа)
    DOC (Документы, созданные Microsoft Word)
    DOCX (Документы Microsoft Word)
    XLS (Формат двоичного файла Microsoft Excel)
    XLSX (Документы Microsoft Excel)
    PDF (Переносимый формат документа (PDF))
    Searchable PDF (Портативная сетевая графика с возможностью поиска)
    XML (расширяемый язык разметки)
    JSON (Обозначение объектов JavaScript)