HTML JPG OCR XML BMP
Aspose.OCR  для Java
Searchable PDF

Aspose.Imaging для Java

обрабатывает отсканированные изображения или даже фотографии со смартфона в формате JPEG и создает документы JPEG, содержащие распознанный текст. Чтобы добавить его в свой проект, вам просто нужно получить Aspose.OCR

Maven или укажите конфигурацию репозитория Aspose Maven. и установите его в своем проекте на основе Maven, добавив следующие конфигурации в файл pom.xml. Примеры Gradle, Ivy, Sbt можно найти в нашем [репозитории] ( https://repository.aspose.com/ocr/ ) .

Maven Dependency


 <dependency>
 <groupId>com.aspose</groupId>
 <artifactId>aspose-ocr</artifactId>
 <version>22.5</version>
 </dependency>

С помощью Java OCR и всего нескольких строк кода вы можете создать полнофункциональное приложение, которое преобразует изображение JPEG в документ Searchable PDF:

  • Создать экземпляр класса AsposeOcr
  • Вызов метода AsposeOCR.RecognizePage
  • Передайте путь к файлу JPEG в качестве параметра
  • AsposeOCR.RecognizePage возвращает строку или файл типа Searchable PDF

Системные Требования

Перед запуском примера убедитесь, что в вашей системе установлена ​​платформа Java 2 Standard Edition (J2SE) 6.0 (1.6) или более поздней версии.

  • Установлен JDK 1.6 или выше.


 //Create API instance
 AsposeOCR api = new AsposeOCR();

 //Prepare rectangles with texts.
 ArrayList rectArray = new ArrayList();

 rectArray.add(new Rectangle(138, 352, 2033, 537));
 rectArray.add(new Rectangle(147, 890, 2033, 1157));

 String result = api.RecognizePage("srcImage.png", rectArray);
 System.out.println("Result with rect: " + result);
  • JPEG Что такое JPEG Формат файла

    JPEG — это тип формата изображения, который сохраняется с использованием метода сжатия с потерями. Выходное изображение в результате сжатия представляет собой компромисс между размером хранилища и качеством изображения. Пользователи могут настроить уровень сжатия для достижения желаемого уровня качества и в то же время уменьшить размер хранилища. Качество изображения незначительно ухудшается, если к изображению применяется сжатие 10:1. Чем выше значение сжатия, тем выше ухудшение качества изображения.

    Читать далее

    Searchable PDF Что такое Searchable PDF Формат файла

    Файлы PDF с возможностью поиска сохраняют исходное отсканированное изображение для просмотра, а также текст OCR в скрытом слое, который можно использовать для полнотекстового поиска в документе или выделения текста для операций копирования и вставки. Полное преобразование OCR в PDF, не включая исходное изображение, никогда не сохранит 100% исходного форматирования, особенно если в документе много изображений или сложный макет.

    Читать далее

    TXT (Файл текстового документа)
    Text (Файл текстового документа)
    DOC (Документы, созданные Microsoft Word)
    DOCX (Документы Microsoft Word)
    XLS (Формат двоичного файла Microsoft Excel)
    XLSX (Документы Microsoft Excel)
    PDF (Переносимый формат документа (PDF))
    Searchable PDF (Портативная сетевая графика с возможностью поиска)
    XML (расширяемый язык разметки)
    JSON (Обозначение объектов JavaScript)