Преобразование PDF в Searchable PDF в C#

Выполните оптическое распознавание символов в документе PDF и сохраните текст как документ PDF, используя Aspose.OCR для библиотеки .NET.

Как преобразовать PDF в Searchable PDF с помощью C#

Aspose.OCR для .NET — это мощная, но простая в использовании и недорогая библиотека для преобразования изображений PDF в документы Searchable PDF. Поддерживая 26 языков на основе латиницы, кириллицы и китайского языка, его современный механизм оптического распознавания символов обеспечивает превосходную скорость и точность распознавания, изолируя вас от формул, нейронных сетей и других сложных технических деталей. Он позволяет добавить функциональность OCR в ваши приложения .NET менее чем за 10 строк кода.

Aspose.OCR для .NET

обрабатывает отсканированные изображения или даже фотографии со смартфона в формате PDF и создает документы PDF, содержащие распознанный текст. Чтобы добавить его в свой проект, вам просто нужно установить Aspose.OCR [NuGet] ( https://www.nuget.org/packages/aspose.ocr ) package в своем проекте с помощью следующей команды:

Package Manager Console Command
  PM> Install-Package Aspose.OCR

Действия по преобразованию PDF в Searchable PDF

С помощью .NET OCR и всего нескольких строк кода вы можете создать полнофункциональное приложение, которое преобразует изображение PDF в документ Searchable PDF:

Создать экземпляр класса AsposeOcr
Вызов метода AsposeOCR.RecognizeImage
Передайте путь к файлу PDF в качестве параметра
AsposeOCR.RecognizeImage возвращает строку или файл типа Searchable PDF

Системные Требования

Перед запуском примера убедитесь, что в вашей системе установлен .NET API, совместимый со спецификацией NET Standard 2.0, и все [внешние зависимости] ( https://docs.aspose.com/ocr/net/system-requirements/#external- зависимости) пакета Aspose.OCR упоминаются в вашем проекте.

Решение, совместимое с NET Standard 2.0+
Aspose.OCR для .NET, указанный в вашем проекте.

Этот пример кода показывает преобразование PDF в Searchable PDF .NET
// initialize an instance of AsposeOcr
AsposeOcr ocr = new AsposeOcr();
// recognize image
string riText = ocr.RecognizeImage("template.PDF");
// print text
File. File.WriteAllText("document.Searchable PDF", riText);

PDF Что такое PDF Формат файла

Portable Document Format (PDF) — это тип документа, созданный Adobe еще в 1990-х годах. Цель этого формата файла состояла в том, чтобы ввести стандарт для представления документов и других справочных материалов в формате, который не зависит от прикладного программного обеспечения, аппаратного обеспечения, а также операционной системы. Формат файла PDF имеет полную возможность содержать такую информацию, как текст, изображения, гиперссылки, поля форм, мультимедийные материалы, цифровые подписи, вложения, метаданные, геопространственные функции и 3D-объекты, которые могут стать частью исходного документа.

Searchable PDF Что такое Searchable PDF Формат файла

Файлы PDF с возможностью поиска сохраняют исходное отсканированное изображение для просмотра, а также текст OCR в скрытом слое, который можно использовать для полнотекстового поиска в документе или выделения текста для операций копирования и вставки. Полное преобразование OCR в PDF, не включая исходное изображение, никогда не сохранит 100% исходного форматирования, особенно если в документе много изображений или сложный макет.

Другие поддерживаемые преобразования

С помощью C# можно легко конвертировать различные форматы, в том числе.

TXT (Файл текстового документа)

Text (Файл текстового документа)

DOC (Документы, созданные Microsoft Word)

DOCX (Документы Microsoft Word)

XLS (Формат двоичного файла Microsoft Excel)

XLSX (Документы Microsoft Excel)

PDF (Переносимый формат документа (PDF))

Searchable PDF (Портативная сетевая графика с возможностью поиска)

XML (расширяемый язык разметки)

JSON (Обозначение объектов JavaScript)