Tesseract OCR

Элемент осуществляет подключение к ядру OCR Tesseract. Поддерживается только Tesseract 3-й версии — движок поставляется вместе с Primo RPA Studio и не требует дополнительной установки.

Элемент Tesseract OCR является контейнером для таких OCR-компонентов, как Клик текста мышью и Распознать текст.

Свойства

Описание общих свойств см. в разделе Свойства элемента. Символ * в названии свойства указывает на обязательность его заполнения.

СвойствоТипОписание

OCR:

Язык

String

Язык для извлечения текста из изображения или элемента UI. Указать можно только 1 язык. По умолчанию "eng" (коды можно просмотреть здесь). Папку с языковыми данными нейросети можно скачать и добавить в локальную папку Студии (например, C:\Program Files\Primo\Primo Studio_разрядность\tessdata). После локального добавления языковой папки требуется перезапустить Студию

Извлекать слова

Boolean

Если флажок установлен, то будет извлекаться положение каждого обнаруженного слова

Масштаб

Double

Коэффициент масштабирования изображения. Рекомендуется использовать для небольших изображений. Значение 1.00 соответствует оригинальному размеру. Чем выше число, тем больше масштаб

Допустимые символы

String

Строка извлекается в соответствии с указанными символами

Запрещенные символы

String

Указанные символы не принимаются во внимание при извлечении текста

Инвертировать

Boolean

Определяет, нужно ли инвертировать цвета. Функция полезна в случае, когда фон темнее цвета текста

Профиль

-

Профиль предварительной обработки изображения, используется для улучшения распознавания текста. По умолчанию None - не выбран.

Доступные значения: 1) Screen - для приложений удаленного рабочего стола; 2) Scan - для сканируемых файлов; 3) Legasy - стандартные настройки

Вывод:

Переменная

Primo.T1.OCR.OCRInst

Переменная для сохранения ссылки на ядро OCR

Last updated