С появлением голосовых пользовательских интерфейсов, каково будущее графических? В каких ситуациях лучше использовать голосовой и графический интерфейс? В этой статье вы получите ответы на данные вопросы.
Наши первичные датчики
Наш мозг – это машина для обработки изображений. Мы можем понять сложную информацию быстрее, когда видим ее. Мы поглощаем большую часть информации с помощью нашего зрения. Наши глаза — наши первичные датчики.
Наши уши являются вторыми по важности датчиками. И в некоторых ситуациях голосовой разговор является очень эффективным каналом связи. Представьте себе на мгновение простой опыт покупок. Заказать вашу любимую пиццу намного проще, если вы просто назовете ее и закажете, вместо того чтобы проходить через все различные предложения на сайте.
Но в более сложной ситуации недостаточно полагаться только на вербальное общение. Например, вы бы купили платье, не увидев его в первую очередь? Конечно, нет. Пользовательские интерфейсы все больше будут адаптироваться к нашим датчикам.
Наши глаза и уши — основные входные датчики. Мы очень хорошо разбираемся в распознавании образов и обработке изображений. Это означает, что мы можем обрабатывать сложную информацию быстрее визуально. С другой стороны, время реакции на звук быстрее, поэтому голос является хорошим вариантом для предупреждений.
Наш рот — самое эффективное устройство вывода. Потому что большинство людей могут говорить быстрее, чем они печатают или пишут.
Поскольку люди хорошо сочетают разные каналы, это приведет к тому, что компьютеры будут использовать мультимодальные интерфейсы для адаптации к возможностям человека. Интерфейсы будут адаптироваться к людям, используя среду и формат сообщений, наиболее удобный для людей в данной ситуации.
Давайте рассмотрим некоторые примеры.
Интерфейс: Чат-боты
Для базовой связи чат более эффективен, чем традиционные пользовательские интерфейсы. С помощью него продавцы и покупатели могут найти друг друга и обсудить различные сделки. В этом случае чат является оптимальным из-за общения «один на один».
Но когда дело доходит до более сложного взаимодействия, например, для сравнения большого количества товаров, нам нужен более продвинутый пользовательский интерфейс. В этом случае добавляется возможность голосового общения с менеджером: позвонить в чате.
Интерфейс: Цифровые помощники
В будущем более точное распознавание голоса и обработки речи помогут людям сказать команды своими словами. Это важный и необходимый шаг для более широкого использования смешанных систем.
Например, готовить на кухне и говорить «Красный перец Чили» проще, чем прокручивать каталог руками. С голосовым интерфейсом вы сможете автоматически добавить что-то в свой список покупок. Вам показываются продукты и голосом вы выбираете те, которые вам нравятся.
Когда пользователь находится на кухне и руки заняты, использование голосового управления — удобнее, чем прикосновение к экрану. Голос – отличная функция и будет обязательной в будущих продуктах.
Для мультимодальных систем важно поддерживать синхронизацию голосовых и визуальных выходов. В противном случае люди легко запутаются. Например, когда мы разговариваем с кем-то, мы можем легко посмотреть на их лицо, чтобы узнать, получили ли они наше сообщение. В случае с мультимодальным мы захотим сделать то же самое, когда говорим с продуктом. Это нужно учитывать при разработки смешанных систем.
Приложение для здоровья
Например, приложение для измерения расстояния между зрачками для людей, которые носят очки (PD Measure). Это хороший пример объединения визуальных и голосовых элементов.
Любой клиент должен знать данное расстояние, чтобы купить очки онлайн. Если они не знают, тогда им придется пойти в розничный магазин и измерить там. Инструмент измерения, доступный для любого пользователя, открывает огромный рынок онлайн-оптики.
С помощью такого приложения клиент сможет встать перед зеркалом и фотографировать себя, держа свой телефон в определенном положении и следуя точным инструкциям. Затем приложение автоматически вычисляет расстояние между зрачками. Этого достаточно, чтобы сделать онлайн-заказ.
В этом примере визуальные и голосовые элементы работают вместе: анимированные иллюстрации показывают, как удерживать телефон, в то время как голосовая инструкция помогает достичь идеального положения.
Когда лучше использовать голос и визуальный интерфейс
Визуальные пользовательские системы работают лучше:
- Списки с большим количеством предметов (где чтение всех предметов вслух займет слишком много времени);
- Сложная информация (графики, диаграммы и данные со многими атрибутами);
- вещи, которые вы должны сравнить;
- продукты, которые вы хотели бы видеть перед покупкой;
- информация о состоянии, которую вы хотели бы периодически проверять (время, таймер, скорость и т. д.).
Голосовые пользовательские системы работают лучше:
- Команды (т.е. любая ситуация, в которой вы точно знаете, что хотите. Чтобы вы могли пропустить навигацию и просто диктовать свою команду);
- Инструкции пользователям. Поскольку люди склонны следовать инструкциям в форме голоса лучше, чем письменным инструкциям;
- Звуковая обратная связь для успешных ситуаций и ситуаций с ошибками, с разными сигналами;
- Предупреждения и уведомления (потому что время реакции на голос быстрее);
- Простые вопросы, которые требуют относительно простых ответов.
Советы для мультимодальных систем
- Синхронизация голоса и визуальных элементов. Всегда имейте визуальную обратную связь о том, что происходит.
- Показывайте визуальные индикаторы, когда устройство прослушивает или думает об ответе.
- Выделите слова голосом в графической системе.
- Задайте правильные ожидания пользователей о возможностях системы и убедитесь, что продукт объясняет, как он работает.
- Продукт должен знать о контексте разговора и должен отвечать соответствующим образом.
- Не игнорируйте безопасность и конфиденциальность. Разрешите людям отключать компоненты (например, микрофон).
- Не читайте длинные аудиомонологи. Если он не может быть кратко изложен в нескольких словах, отобразите его на экране.
- Потратьте время, чтобы понять специфику каждой платформы и выбрать правильный вариант.
Заключение
В будущем общение голосом станет обычным явлением. Новая тенденция не означает, что мы должны игнорировать все, что успешно применяли в графическом. Произойдет объединение графических и голосовых систем, как более человечный способ общения между пользователем и компьютером.
Подобная мультимодальная эволюция уже происходила раньше. Радио и немые фильмы были объединены в фильмы, которые дополнительно улучшены с помощью 3D и т.д. В скором времени этот процесс произойдет и в интерактивном цифровом мире.
Статья написана для «Лайкни»