Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
ПК и периферия: Статьи Новости компаний Решения

Панорама

Облака: вчера, сегодня, завтра

GoCloud 2024, конференция крупнейшего российского облачного провайдера Cloud.ru, привлекла внимание многих участников …

Сетевые фильтры Powercom: оптимальная защита вашей электроники

Сложно представить себе современную квартиру или офис без большого количества электрических розеток. Их всегда …

МТС запустил сервис для работы с документами SmartDocs

ПАО «МТС» цифровая экосистема, объявила о запуске сервиса SmartDocs. Новое решение повысит эффективность …

«Нейронные сети и машинное обучение приведут к ускорению развития»: ведущий IT-эксперт Аралтан Горяев оценивает будущее индустрии

Недавно в Дубае на Всемирном правительственном саммите один из крупнейших предпринимателей заявил …

Почему разработчики выбирают Flutter: опыт Кирилла Адещенко

Руководитель мобильной разработки крупного банка о своих методиках на основе популярного кроссплатформенного …

Говори компьютеру, что делать

(101)27`1997

Питер Коффи | 15.07.1997

Становится ли бесклавиатурное взаимодействие с компьютером повсеместным или, как и десять лет назад, до этого еще остается лет десять?

Бурное развитие информационных технологий привело к повышению производительности и снижению цен на аппаратное обеспечение. При этом, правда, все еще существуют области, состояние дел в которых описывается в весьма старых книгах.

Компьютеры способны реагировать на отдельные речевые команды, особенно если они состоят из специально подобранного набора слов, облегчающего распознавание.

В некоторых ситуациях при соответствующих ограничениях возможно автоматизированное распознавание отдельных слов во фразах. Так, в 1992 г. корпорация AT&T выпустила систему, которая могла выделять ключевые слова из общего контекста, например слово “коллективный” из фразы “я хочу сделать коллективный звонок”.

Системы для типичного пользователя, то есть не требующие предварительного обучения, способны работать со словарным запасом в несколько сотен слов. Однако ввиду отсутствия семантической обработки речи они легко ошибаются.

В настольных системах распознавание команд может быть неплохим дополнением к графическому интерфейсу при выполнении стандартных операций типа “сохранить”, “закрыть”, “выйти”. Тем не менее, представляя себе бесклавиатурный компьютер, мы видим все-таки нечто большее.

Словарь серьезной системы распознавания речи должен содержать не сотни, а тысячи и десятки тысяч слов и фраз. В отличие от распознавания команд такая система должна иметь дело с грамматическими вариациями слова - число, падеж, форма и время глагола.

Корпорация IBM демонстрирует логические способности своей системы VoiceType следующим тестом: “They are going to park their car over there” (“Они собираются припарковать свою машину в этом месте”). Когда эти слова произносятся, VoiceType в динамическом режиме обновляет семантическую модель предложения. Например, последнее слово “there” (“в этом месте”) может быть воспринято как “their” (“свой”, оба слова произносятся одинаково) с таким окончанием предложения: “припарковать машину в своем гараже”. Однако когда диктор произносит “period” (точка), VoiceType возвращается назад и заменяет слова, получая верный грамматический результат.

Вообще качество имеющихся систем распознавания речи определяется по двум параметрам - времени настройки системы для конкретного пользователя и степени распознавания непрерывной речи (или требуемой продолжительности пауз между словами).

Существующие сейчас системы более надежны при работе с отдельными словами (дискретная речь), чем с естественно произносимыми фразами и предложениями (непрерывная речь). Однако ни одна из них не обладает теми речевыми возможностями, о которых было написано столько фантастических романов.

Питер Коффи (PC Week Labs)

Модели распознавания речи

Команды

Распознается от нескольких десятков до нескольких сотен слов; реализация команд по сравнению с речью, для которой требуется распознавание тысяч слов, что повышает вероятность отказа.

Дискретная речь

Распознается речь с паузами между словами; гораздо проще для реализации, чем непрерывная речь.

Непрерывная речь

Распознавание естественной речи; необходимы мощный компьютер и значительное время настройки для получения приемлемой точности.

Печать

Говори компьютеру, что делать

Комментарии