Становится ли бесклавиатурное взаимодействие с компьютером повсеместным или, как и десять лет назад, до этого еще остается лет десять?

 

Бурное развитие информационных технологий привело к повышению производительности и снижению цен на аппаратное обеспечение. При этом, правда, все еще существуют области, состояние дел в которых описывается в весьма старых книгах.

 

Компьютеры способны реагировать на отдельные речевые команды, особенно если они состоят из специально подобранного набора слов, облегчающего распознавание.

 

В некоторых ситуациях при соответствующих ограничениях возможно автоматизированное распознавание отдельных слов во фразах. Так, в 1992 г. корпорация AT&T выпустила систему, которая могла выделять ключевые слова из общего контекста, например слово “коллективный” из фразы “я хочу сделать коллективный звонок”.

 

Системы для типичного пользователя, то есть не требующие предварительного обучения, способны работать со словарным запасом в несколько сотен слов. Однако ввиду отсутствия семантической обработки речи они легко ошибаются.

 

В настольных системах распознавание команд может быть неплохим дополнением к графическому интерфейсу при выполнении стандартных операций типа “сохранить”, “закрыть”, “выйти”. Тем не менее, представляя себе бесклавиатурный компьютер, мы видим все-таки нечто большее.

 

Словарь серьезной системы распознавания речи должен содержать не сотни, а тысячи и десятки тысяч слов и фраз. В отличие от распознавания команд такая система должна иметь дело с грамматическими вариациями слова  -  число, падеж, форма и время глагола.

 

Корпорация IBM демонстрирует логические способности своей системы VoiceType следующим тестом: “They are going to park their car over there” (“Они собираются припарковать свою машину в этом месте”). Когда эти слова произносятся, VoiceType в динамическом режиме обновляет семантическую модель предложения. Например, последнее слово “there” (“в этом месте”) может быть воспринято как “their” (“свой”, оба слова произносятся одинаково) с таким окончанием предложения: “припарковать машину в своем гараже”. Однако когда диктор произносит “period” (точка), VoiceType возвращается назад и заменяет слова, получая верный грамматический результат.

 

Вообще качество имеющихся систем распознавания речи определяется по двум параметрам  -  времени настройки системы для конкретного пользователя и степени распознавания непрерывной речи (или требуемой продолжительности пауз между словами).

 

Существующие сейчас системы более надежны при работе с отдельными словами (дискретная речь), чем с естественно произносимыми фразами и предложениями (непрерывная речь). Однако ни одна из них не обладает теми речевыми возможностями, о которых было написано столько фантастических романов.            

 

Питер Коффи (PC Week Labs)

 

Модели распознавания речи

 

Команды

 

Распознается от нескольких  десятков до нескольких сотен слов; реализация команд по сравнению с речью, для которой требуется распознавание тысяч слов, что повышает вероятность отказа.

 

Дискретная речь

 

Распознается речь с паузами  между словами; гораздо проще для реализации, чем непрерывная речь.

 

Непрерывная речь

 

Распознавание естественной речи; необходимы мощный компьютер и значительное время настройки для получения приемлемой точности.