HTML JPG OCR XML BMP
Aspose.OCR  для C++
DOCX

Aspose.Imaging для Java

обрабатывает отсканированные изображения или даже фотографии со смартфона в формате JPEG и создает документы JPEG, содержащие распознанный текст. Чтобы добавить его в свой проект, вам просто нужно получить Aspose.OCR

Maven или укажите конфигурацию репозитория Aspose Maven. и установите его в своем проекте на основе Maven, добавив следующие конфигурации в файл pom.xml. Примеры Gradle, Ivy, Sbt можно найти в нашем [репозитории] ( https://repository.aspose.com/ocr/ ) .

Package Manager Console Command


  PM> Install-Package Aspose.OCR.Cpp

С помощью C++ OCR и всего нескольких строк кода вы можете создать полнофункциональное приложение, которое преобразует изображение JPEG в документ DOCX:

  • Создать экземпляр класса AsposeOcr
  • Вызов метода AsposeOCR.asposeocr_page()
  • Передайте путь к файлу JPEG в качестве параметра
  • AsposeOCR.asposeocr_page возвращает строку или файл типа DOCX

Системные Требования

Перед запуском примера убедитесь, что в проект добавлен Microsoft.ML.OnnxRuntime 1.7.0 или более поздней версии. Он должен быть установлен автоматически, если вы устанавливаете Aspose.OCR через диспетчер пакетов NuGet.

  • Решение, совместимое с NET Standard 2.0+
  • Aspose.OCR для .NET, указанный в вашем проекте.


std::string img_path = "../srcSample.png";

// Prepare buffer for result (in symbols, len_byte = len * sizeof(wchar_t))
const size_t len = 4096;

wchar_t bfr[len] = { 0 };

size_t result = aspose::ocr::page(image_path.c_str(), bfr, len);

//Print result
std::wcout << bfr << L"\n";
  • JPEG Что такое JPEG Формат файла

    JPEG — это тип формата изображения, который сохраняется с использованием метода сжатия с потерями. Выходное изображение в результате сжатия представляет собой компромисс между размером хранилища и качеством изображения. Пользователи могут настроить уровень сжатия для достижения желаемого уровня качества и в то же время уменьшить размер хранилища. Качество изображения незначительно ухудшается, если к изображению применяется сжатие 10:1. Чем выше значение сжатия, тем выше ухудшение качества изображения.

    Читать далее

    DOCX Что такое DOCX Формат файла

    DOCX — широко известный формат документов Microsoft Word. Представленный в 2007 году с выпуском Microsoft Office 2007, структура этого нового формата документа была изменена с простого двоичного файла на комбинацию XML и двоичных файлов. Файлы Docx можно открывать в Word 2007 и его более поздних версиях, но не в более ранних версиях MS Word, которые поддерживают расширения файлов DOC.

    Читать далее

    TXT (Файл текстового документа)
    Text (Файл текстового документа)
    DOC (Документы, созданные Microsoft Word)
    DOCX (Документы Microsoft Word)
    XLS (Формат двоичного файла Microsoft Excel)
    XLSX (Документы Microsoft Excel)
    PDF (Переносимый формат документа (PDF))
    Searchable PDF (Портативная сетевая графика с возможностью поиска)