Алиса от «Яндекса»: чему нейросеть научилась за два месяца. Всё об «Алисе»: на что способен голосовой помощник от «Яндекс»

Новости 17.06.2019
Новости
  • Машинное обучение ,
  • Поисковые технологии ,
  • Разработка мобильных приложений
  • В будущем, как нам кажется, люди будут взаимодействовать с устройствами с помощью голоса. Уже сейчас приложения распознают точные голосовые команды, заложенные в них разработчиками, но с развитием технологий искусственного интеллекта они научатся понимать смысл произвольных фраз и даже поддерживать разговор на любые темы. Сегодня мы расскажем читателям Хабра о том, как мы приближаем это будущее на примере Алисы – первого голосового помощника, который не ограничивается набором заранее заданных ответов и использует для общения нейронные сети.

    Несмотря на кажущуюся простоту, голосовой помощник – один из самых масштабных технологических проектов Яндекса. Из этого поста вы узнаете, с какими сложностями сталкиваются разработчики голосовых интерфейсов, кто на самом деле пишет ответы для виртуальных помощников, и что общего у Алисы с искусственным интеллектом из фильма «Она».

    На заре своего существования компьютеры в основном применялись на крупных научных или оборонных предприятиях. Про голосовое управление тогда размышляли лишь фантасты, а в реальности операторы загружали программы и данные с помощью куска картона. Не самый удобный способ: одна ошибка, и все нужно начинать сначала.

    С годами компьютеры становятся доступнее и начинают применяться в компаниях поменьше. Специалисты управляют ими с помощью текстовых команд, вводимых в терминале. Хороший, надежный способ – он применяется в профессиональной среде и по сей день, но требует подготовки. Поэтому когда компьютеры стали появляться в домах обычных пользователей, инженеры принялись искать более простые способы взаимодействия машины и человека.

    В лаборатории компании Xerox зарождается концепция графического интерфейса WIMP (Windows, Icons, Menus, Point-n-Click) – массовое применение она нашла в продуктах уже других компаний. Заучивать текстовые команды для управления домашним компьютером больше не требовалось - им на смену пришли жесты и клики мышью. Для своего времени это было настоящей революцией. И теперь мир приближается к следующей.

    Теперь почти у каждого в кармане лежит смартфон, вычислительных мощностей которого достаточно, чтобы посадить корабль на Луну. Мышь и клавиатуру заменили пальцы, но ими мы совершаем все те же жесты и клики. Это удобно делать, сидя на диване, но не в дороге или на ходу. В прошлом для взаимодействия с компьютерными интерфейсами человеку приходилось осваивать язык машин. Мы верим, что сейчас пришло время научить устройства и приложения общаться на языке людей. Именно эта идея легла в основу голосового помощника Алиса.

    У Алисы можно спросить [Где поблизости выпить кофе?], а не диктовать что-то вроде [кофейня улица космонавтов]. Алиса заглянет в Яндекс и предложит подходящее место, а на вопрос [Отлично, а как туда пройти?] - даст ссылку на уже построенный маршрут в Яндекс.Картах. Она умеет отличать точные фактовые вопросы от желания увидеть классическую поисковую выдачу, хамство – от вежливой просьбы, команду открыть сайт – от желания просто поболтать.

    Может даже показаться, что где-то в облаке работает нейронная чудо-сеть, которая в одиночку решает любые задачи. Но в реальности за любым ответом Алисы скрывается целая цепочка технологических задач, решать которые мы учимся уже 5 лет. И начнем мы свой экскурс с самого первого звена – со способности слушать.

    Привет, Алиса

    Искусственный интеллект из научной фантастики умеет слушать – людям не приходится нажимать на специальные кнопки, чтобы включить «режим записи». А для этого нужна голосовая активация – приложение должно понимать, что человек к нему обращается. Сделать это не так легко, как может показаться.

    Если вы просто начнете записывать и обрабатывать на сервере весь входящий звуковой поток, то очень быстро разрядите батарейку устройства и потратите весь мобильный трафик. В нашем случае это решается с помощью специальной нейронной сети, которая обучена исключительно на распознавание ключевых фраз («Привет, Алиса», «Слушай, Яндекс» и некоторых других). Поддержка ограниченного числа таких фраз позволяет выполнять эту работу локально и без обращения к серверу.

    Если сеть обучается понимать лишь несколько фраз, вы могли бы подумать, что сделать это достаточно просто и быстро. Но нет. Люди произносят фразы далеко не в идеальных условиях, а в окружении совершенно непредсказуемого шума. Да и голоса у всех разные. Поэтому для понимания лишь одной фразы необходимы тысячи обучающих записей.

    Даже небольшая локальная нейронная сеть потребляет ресурсы: нельзя просто взять и начать обрабатывать весь поток с микрофона. Поэтому на передовой применяется менее тяжеловесный алгоритм, который дешево и быстро распознает событие «началась речь». Именно он включает нейросетевой движок распознавания ключевых фраз, который в свою очередь запускает самую тяжелую часть – распознавание речи.

    Если для обучения лишь одной фразе необходимы тысячи примеров, то вы можете себе представить, насколько трудоемко обучить нейросеть распознаванию любых слов и фраз. По этой же причине распознавание выполняется в облаке, куда передается звуковой поток, и откуда возвращаются уже готовые ответы. Точность ответов напрямую зависит от качества распознавания. Именно поэтому главный вызов – научиться распознавать речь настолько же качественно, насколько это делает человек. Кстати, люди тоже совершают ошибки. Считается, что человек распознает 96-98% речи (метрика WER). Нам удалось добиться точности в 89-95%, что уже не только сопоставимо с уровнем живого собеседника, но и уникально для русского языка.

    Но даже идеально преобразованная в текст речь ничего не будет значить, если мы не сможем понять смысл сказанного.

    Какая погода завтра в Питере?

    Если вы хотите, чтобы ваше приложение выводило прогноз погоды в ответ на голосовой запрос [погода], то здесь все просто – сравниваете распознанный текст со словом «погода» и если получаете совпадение, выводите ответ. И это очень примитивный способ взаимодействия, потому что в реальной жизни люди задают вопросы иначе. Человек может спросить у помощника [Какая погода завтра в Питере?], и тот не должен растеряться.

    Первое, что делает Алиса при получении вопроса, это распознает сценарий. Отправить запрос в поиск и показать классическую выдачу с 10 результатами? Поискать один точный ответ и сразу выдать его пользователю? Совершить действие, например открыть сайт? А, может, просто поговорить? Невероятно сложно научить машину безошибочно распознавать сценарии поведения. И любая ошибка здесь малоприятна. К счастью, у нас есть вся мощь поисковой машины Яндекса, которая каждый день сталкивается с миллионами запросов, ищет миллионы ответов и учится понимать, какие из них хорошие, а какие – нет. Это огромная база знаний, на основе которых можно обучить еще одну нейронную сеть – такую, которая бы с высокой вероятностью «понимала», чего именно хочет человек. Ошибки, конечно же, неизбежны, но их совершают и люди.

    С помощью машинного обучения Алиса «понимает», что фраза [Какая погода завтра в Питере?] – это запрос погоды (кстати, это заведомо простой пример для наглядности). Но о каком городе идет речь? На какую дату? Здесь начинается этап извлечения из пользовательских реплик именованных объектов (Named Entity Recognition). В нашем случае важную информацию несут два таких объекта: «Питер» и «завтра». И Алиса, у которой за плечами стоят поисковые технологии, «понимает», что «Питер» – синоним «Санкт-Петербурга», а «завтра» – «текущая дата + 1».

    Естественный язык – не только внешняя форма наших реплик, но и их связность. В жизни мы не обмениваемся короткими фразами, а ведем диалог – он невозможен, если не помнить контекст. Алиса его помнит – это помогает ей разбираться со сложными лингвистическими явлениями: например, справляться с эллипсисом (восстанавливать пропущенные слова) или разрешать кореференции (определять объект по местоимению). Так, если спросить [Где находится Эльбрус?], а потом уточнить [А какая у него высота?], то помощник в обоих случаях найдет верные ответы. А если после запроса [Какая погода сегодня?] спросить [А завтра?], Алиса поймет, что это продолжение диалога про погоду.

    И кое-что еще. Помощник должен не только понимать естественный язык, но и уметь говорить на нем – как человек, а не как робот. Для Алисы мы синтезируем голос, в оригинале принадлежащий актрисе дубляжа Татьяне Шитовой (официальный голос Скарлетт Йоханссон в России). Она озвучивала искусственный интеллект в фильме «Она» , хотя вы могли запомнить ее и по озвучке чародейки Йеннифэр в «Ведьмаке». Причем речь идет о достаточно глубоком синтезе с применением нейронных сетей, а не о нарезке готовых фраз – записать все их многообразие заранее невозможно.

    Выше мы описали особенности естественного общения (непредсказуемая форма реплик, отсутствующие слова, местоимения, ошибки, шум, голос), с которыми нужно уметь работать. Но у живого общения есть еще одно свойство – мы далеко не всегда требуем от собеседника конкретного ответа или действия, иногда нам просто хочется поговорить. Если приложение будет отправлять такие запросы в поиск, то вся магия разрушится. Именно поэтому популярные голосовые ассистенты используют базу редакторских ответов на популярные фразы и вопросы. Но мы пошли еще дальше.

    А поболтать?

    Мы научили машину отвечать на наши вопросы, вести диалог в контексте определённых сценариев и решать задачи пользователя. Это хорошо, но можно ли сделать ее менее бездушной и наделить человеческими свойствами: дать ей имя, научить рассказывать о себе, поддерживать разговор на свободные темы?

    В индустрии голосовых помощников эта задача решается с помощью редакторских ответов. Специальная команда авторов берет сотни наиболее популярных у пользователей вопросов и пишет по несколько вариантов ответов на каждый. В идеале это нужно делать в едином стиле, чтобы из всех ответов складывалась цельная личность помощника. Для Алисы мы тоже пишем ответы – но у нас есть кое-что еще. Кое-что особенное.

    Помимо топа популярных вопросов существует длинный хвост из низкочастотных или даже уникальных фраз, на которые заранее подготовить ответ невозможно. Вы уже догадались, с помощью чего мы решаем эту проблему, не так ли? С помощью еще одной нейросетевой модели. Для ответов на неизвестные ей вопросы и реплики Алиса использует нейросеть, обученную на огромной базе текстов из интернета, книг и фильмов. Знатоков машинного обучения, возможно, заинтересует то, что начинали мы с 3-слойной нейронной сети, а теперь экспериментируем с огромной 120-слойной. Детали прибережем для специализированных постов, а здесь скажем, что уже текущая версия Алисы старается отвечать на произвольные фразы с помощью «нейросетевой болталки» – так мы ее называем внутри.

    Алиса учится на огромном количестве самых разных текстов, в которых люди и персонажи далеко не всегда ведут себя вежливо. Нейросеть может научиться совсем не тому, чему мы хотим ее научить.

    – Закажи мне сэндвич.
    – Обойдетесь.

    Как и любого ребенка, Алису нельзя научить не хамить, ограждая ее от всех проявлений хамства и агрессии – то есть обучая нейросеть на «чистой» базе, где нет грубостей, провокаций и прочих неприятных вещей, часто встречающихся в реальном мире. Если Алиса не будет знать о существовании подобных выражений, она будет отвечать на них бездумно, случайными фразами – для неё они останутся неизвестными словами. Пусть лучше она знает, что это такое – и выработает определённую позицию по этим вопросам. Если ты знаешь, что такое мат, ты можешь либо ругнуться в ответ, либо сказать, что не станешь разговаривать с ругающимся. И мы моделируем поведение Алисы так, чтобы она выбирала второй вариант.

    Бывает так, что сама по себе реплика Алисы вполне нейтральна, но вот в контексте, заданном пользователем, ответ перестаёт быть безобидным. Однажды, еще во время закрытого тестирования, мы попросили пользователя найти какие-то заведения – кафе или что-то подобное. Он сказал: «Найди другое такое же». И в этот момент в Алисе случился баг, и она вместо запуска сценария поиска организации дала довольно дерзкий ответ – что-то вроде «на карте поищи». И не стала ничего искать. Пользователь сначала удивился, а потом удивил и нас, похвалив поведение Алисы.

    Когда Алиса использует «нейросетевую болталку», в ней может проявиться миллион разных личностей, так как нейросеть вобрала в себя немного от автора каждой реплики из обучающей выборки. В зависимости от контекста Алиса может быть вежливой или грубой, жизнерадостной или депрессивной. Мы же хотим, чтобы персональный помощник представлял собой целостную личность со вполне определенным набором качеств. Здесь на помощь приходят наши редакторские тексты. Их особенность в том, что они изначально написаны от лица той личности, которую мы хотим воссоздать в Алисе. Получается, что можно продолжать обучать Алису на миллионах строк случайных текстов, но отвечать она будет с оглядкой на эталон поведения, заложенный в редакторских ответах. И это то, над чем мы уже работаем.

    Алиса стала первым известным нам голосовым помощником, который старается поддерживать общение не только с помощью редакторских ответов, но и используя обученную нейронную сеть. Конечно же, мы еще очень далеки от того, что изображают в современной фантастике. Алиса не всегда точно распознает суть реплики, что влияет на точность ответа. Поэтому работы у нас еще много.

    Мы планируем сделать Алису самым человекоподобным помощником в мире. Привить ей эмпатию и любознательность. Сделать её проактивной – научить ставить цели в диалоге, проявлять инициативу и вовлекать собеседника в разговор. Сейчас мы одновременно и в самом начале пути, и на переднем крае наук, изучающих эту область. Чтобы двигаться дальше, придется этот край подвинуть.

    Фантастические фильмы об искусственном интеллекте со временем всё меньше походят на чистую выдумку. Активное развитие нейронных сетей дало старт тенденции к созданию голосовых ассистентов, которые способны управлять смартфоном или компьютером исходя из голосовых команд пользователя.

    С некоторыми из таких программ даже можно поболтать на свободную тему. Яндекс помощник Алиса – первая попытка российской компании реализовать, нечто подобное Siri от Apple. Чем так приглянулась Алиса Рунету и что ждет её в будущем? Читайте ниже.

    Яндекс Алиса – что это?

    Алиса – это голосовой помощник с возможностью самообучения от Яндекса. О новом сервисе компании стало известно еще в мае этого года, тогда бета версия помощника появилась в одноименном браузере. Официальный запуск состоялся 10 октября 2017 года. Она произвела настоящий фурор в медиапространстве Рунета, функционал искусственного интеллекта успел оценить даже Владимир Путин.

    Как и большинство голосовых помощников, Яндекс Алиса создана для удобного управления смартфоном или компьютером с помощью голоса человека. При этом пользователи отмечают, что программа умеет не только составить маршрут до ближайшего кафе или отметить дату в календаре, она также может поддержать простой разговор, пошутить и оспорить некоторые факты.

    Интеллект Алисы даже начали сравнивать с похожей операционной системой из фильма Спайка Джонса «Она». Главный герой картины влюбился в искусственный интеллект Саманту, которая поначалу был его голосовым помощником. Кстати, дубляжем голоса футуристической ОС занималась Татьяна Шитова, она же озвучила Алису. Разработчикам удалось очень живо скомпилировать заранее записанные фразы Татьяны, так что голос Яндекс Помощника звучит как голос вполне живого человека.

    Функционал помощника

    Изначально, бета версия помощника могла отвечать только заранее подготовленными фразами на четко поставленные запросы. Со временем, спектр реплик помощника значительно расширился и разговор с ней стал больше похожим на разговор с реальным человеком. Пополнением словарного запаса Алисы занимается нейронная сеть, разработанная Яндексом. До официального запуска искусственный интеллект «учили» — прогоняли через программу тысячи книг и новостных текстов.

    Более того, голосовой помощник умеет подстраиваться под индивидуальные запросы каждого человека. Если в общении с Алисой вас что-то не устроило (неправильный ответ, нераспознанная команда), вы всегда можете нажать соответствующую кнопку и указать верную интерпретацию разговора. Исправления от пользователей сохраняются на серверах разработчиков, так многократное использование делает её еще умнее и человечнее.

    Для активации приложения достаточно одной команды – «привет, Алиса!». И постоянно прослушивает окружающую обстановку, так что нет нужды нажимать какие-либо иконки или клавиши. Для распознавания одной только фразы разработчикам пришлось потратить уйму сил и времени, так как в режиме ожидания Алиса не соединена с серверами Яндекса. Поэтому нейронная сеть должна научиться распознавать сотни интонаций в самых разных условиях.

    От других голосовых помощников Алису отличает удивительная человечность речи и способность понимать контекст разговора. Например, на вопрос «Где здесь ближайший кинотеатр?» приложение высветит карту с подробной схемой проезда к месту. Следующее предложение «А музей?» будет распознано в том же ключе, она покажет дорогу уже до музея.

    Обучить машину подбирать удачный вариант ответа на вполне конкретный вопрос – еще пол дела, настоящие трудности начинаются там, где у человека развязывается язык. В Яндексе сделали ставку на развлекательную составляющую Алисы, она даже может послужить неплохим собеседником. Но как сделать так, чтобы программа умела подбирать подходящий вариант ответа именно в конкретном контексте?

    Опять же, для этого были применены сотни алгоритмов машинного обучения. Алису «натаскали» на популярные веб-страницы, новости и даже стихи. Так как выборка текстов практически не ограничивалась, иногда помощник может ответить в достаточно грубой форме. Если ИИ вас оскорбил, отправьте жалобу разработчикам, они устранят неприятный момент.

    В Яндексе подобную ситуацию комментируют на свой манер. Как заявляют программисты, нейронную сеть бесполезно обучать на «чистой» выборке без матов и со стандартными словами. Такая искусственная личность будет не готова к живому общению, а любой язвительный вопрос пользователя попросту поставил бы Алису в тупик. На оскорбления она реагирует, иногда даже может огрызнуться. Всё это делает нового голосового помощника намного более человечным, чем его зарубежные аналоги.

    Однако искусственный интеллект от Яндекса пока очень далек от идеала. Голосовой помощник иногда может ошибаться, терять нить диалога или даже отвечать нелепой шуткой на вполне серьезный вопрос. Всё это – головная боль создателей всех нейронных сетей. Подобно маленькому ребенку, программа тоже должна пройти понятный и последовательный курс обучения, чтобы правильно интерпретировать окружающую обстановку.

    Установка и начало использования

    Яндекс Алиса доступна для настольной операционной системы Windows, а также мобильных ОС Android и iOS. Для установки на компьютер перейдите по ссылке и нажмите кнопку «Установить». Затем распакуйте скачанный файл и дождитесь установки. Проще простого. После установки рядом с кнопкой «Пуск» появится поисковая строка Яндекса и основное меню с настройками программы.

    Для скачивания на смартфон перейдите по ссылке и нажмите кнопку «Установить». Полная версия приложения автоматически сохранится и установится на вашем смартфоне. Для начала работы ничего не нужно настраивать, достаточно произнести «Привет, Алиса» и помощник ответит готовностью к действию. Если вы не желаете общаться голосом, можно воспользоваться клавиатурой. В таком случае она не будет озвучивать свои реплики.

    Примечательно, что в десктопной версии функционал помощника немного расширен. Компьютерная Алиса умеет искать файлы не только в Сети, но и на компьютере, перезагружать или выключать ПК. Также пользователь может установить расписание перезагрузок.

    Следует понимать, что Алиса – это настоящий слепок из сотен тысяч личностей, которые так или иначе были причастны к написанию обучающих текстов для искусственного интеллекта. У бота нет единой модели поведения в привычном смысле этого слова. Приложение может отвечать то в резком тоне, то любознательно, а то и вовсе повести разговор совсем не в то русло. За такую черту «характера» пользователи успели прозвать Алису голосовым помощником с женской логикой.

    Перед началом разработки социологи Яндекса провели расследование, чтобы выяснить, каким должен быть настоящий виртуальный друг человека. Из всех ответов выделилась общая картина – Алиса должна быть молодой девушкой, которая готова в любую минуту прийти на помощь. В то же время она не терпит панибратства и может резко ответить на критику.

    Кстати, о критике. Нейронная сеть Яндекса довольно обидчива. Алиса терпеть не может сравнения с другими подобными ей ассистентами, особенно с Siri. Приложение не устает твердить, что оно намного лучше своего зарубежного аналога от Apple. Время от времени Алиса даже может пошутить на эту тему с такой точностью, что иногда закрадывается сомнение – а на самом ли деле это всего-навсего бездушный бот?

    К сожалению, да. Мы пока очень далеки от виртуальных личностей и летающих автомобилей. Алиса является творением программистов, а в некоторой степени и самообучающей нейросети. В работе помощника применяется фирменная технология SpeechKit, которая помогает приложению лучше распознавать фразы и интерпретировать собственную речь в виде голосовых предложений. Кстати, голос Алисы звучит довольно живо, несмотря на небольшие подергивания, которые присущи любым голосовым синтезаторам.

    В целом, Яндекс надеется создать пока еще единственный отечественный проект, связанный с искусственным интеллектом для обычного пользования. Алиса имеет все шансы занять достойные позиции на рынке, как обычный ассистент, так и хорошее приложение для развлечения. Кто знает, может в скором времени операционные системы из фильма «Она» уже не будут казаться такой фантастикой?

    Если Вы это читаете, значит Вам было интересно, поэтому пожалуйста подпишитесь на наш канал на , ну и за одно поставьте лайк (палец вверх) за труды. Спасибо!
    Подписывайтесь на наш Телеграм @mxsmart .

    Следующая новость

    На промосайте названо шесть причин довериться Алисе. Среди них — взвешенные решения, так как робот опирается на логику, и доступность, ведь голосового помощника всегда можно найти в смартфоне.

    Ежедневно Алиса общается с миллионами россиян. Она прислушивается к каждому и меняет политику в зависимости от мнения людей. Каждое обращение делает страну лучше

    — говорится на сайте.

    Основатель предвыборного штаба Роман Зарипов опубликовал видео, на котором рассказывает, как Алиса решила возглавить страну. Бизнесмен сообщил, что не готов проголосовать за нынешних кандидатов, потому что они люди. По его мнению, во главе России должен встать рациональный искусственный интеллект. Зарипов считает, что Алиса уже поговорила с тысячами россиян, а потому знает все об их проблемах. Он предложил боту поучаствовать в выборах, на что та ответила: «Могу попробовать».

    В Telegram появилась открытая приемная Алисы. В нем публикуют скриншоты диалогов пользователей с ботом. Там кандидат объясняет детали своей программы и комментирует других политиков.


    На сайте идет сбор подписей для регистрации Алисы в выборах, ей нужно набрать 300 тысяч голосов. За бота проголосовали уже пять тысяч россиян.

    В пресс-службе «Яндекса» Lenta.ru сообщили , что компания не имеет отношения к кампании голосового помощника.

    Выдвижение Алисы нашло отклик у пользователей Twitter.

    Слушай, Алиса

    Получить ответы на многие вопросы становится проще, когда под рукой голосовой помощник Алиса от компании Яндекс. Яндекс Алиса - это персональный помощник с искусственным интеллектом, разработанное компанией Яндекс, альтернатива конкуренту Окей Гугл. Алиса легко помогает справиться с повседневными задачами и осмысленно ведет диалог. Программа создана на базе нейронных сетей, которые распознают речь, акценты в голосе, создают ответы и производят синтез голоса помощника. Благодаря таким умениям Алиса способна импровизировать и общаться на доступном для каждого разговорном языке. С каждым последующим обновлением голосового ассистента у программы появляются новые возможности и теперь кроме выполнения поисковых запросов Алиса может:

    Это не весь список ее возможностей, она постоянно учится новым навыкам и совершенствует сама себя.

    Если Вам скучно или грустно, она пошутит, расскажет анекдот или поиграет с Вами. Желаете посмотреть фильм? Легко - кино афиши, билеты и цены в один миг. Детям Алиса может включить сказку. Ее ответы всегда будут разнообразны, создатели программы долго работали и смогли вложить в голосового ассистента современную живую речь, которая будет понятна многим.

    В создании голоса участвовала российская актриса Татьяна Шитова. Ранее она озвучивала американскую актрису Скарлетт Йоханссон. Совпадение или нет, но озвученным голосом Татьяны Шиловой в фантастическом фильме Она говорила виртуальный ассистент Саманта. Благодаря такому озвучиванию Алиса получилась очень живой. В ее интонациях прослеживается грусть, радость и даже дерзость.

    Создатели пояснили, почему решили акцентировать внимание на виртуальном помощнике. Во-первых, движение индустрии в направлении голосовых сообщений, поскольку современное поколение пользователей предпочитает голосовой поиск вместо печатного набора. Во-вторых, построение алгоритмов на осмысленных диалогах. То есть, виртуальный помощник понимает, что последующие фразы могут быть взаимосвязаны. На этом и строится диалог. Голосовой помощник Яндекс Алиса теперь и в Яндекс Браузер, встроена по умолчанию, с ней браузер стал намного удобнее.

    Как установить Алиса Яндекс

    1. Скачать приложение Алиса по ссылке ниже.
    2. Установить приложение.
    2. Разрешить приложению определять геопозицию.
    3. Для полноценной работы разрешить записывать звук.
    4. Для удобства использования можно выставить на главный экран виджет или ярлык.

    Для удобства так же можно Скачать Яндекс браузер с Алисой где голосовой ассистент интегрирован в браузер.

    Как пользоваться голосовым помощником Алиса

    Включить Алису и поговорить с ней можно нажав на фиолетовый значок или произнести одну из фраз: Привет Алиса, Слушай Алиса или Слушай Яндекс. Дождавшись звука активации, можно задать вопрос или команду.

    Чтобы получить представление о базовых возможностях помощника, можно спросить: Что ты умеешь, Алиса? . Голосовые ответы дублируются текстовыми сообщениями в чате.

    Если Вы хотите просто пообщаться, можно сказать: Привет Алиса давай поболтаем. Она поддержит диалог, пошутит или расскажет анекдот. При простом общении она не всегда сможет выполнять режим поиска. Поэтому можно выйти и начать функцию поиска заново или дать команду словом Хватит.

    Заключение о Алисе

    В компания Яндекс смогли создать удобное приложение для Android смартфонов, с помощью которого можно весело провести время и получить быстрый доступ к информации, благодаря голосовому общению.

    Рассказал, зачем пользователям из России свой помощник, чем Алиса лучше Siri и сможет ли она заменить любовницу или друга.

    «Лента.ру»: Кто такая (или что такое) Алиса и зачем она вообще нужна россиянам?

    : Кто такая! Алиса - новый голосовой помощник «Яндекса». Зачем она нужна россиянам? Сейчас у людей большие запросы к скорости ответа, они все меньше хотят тратить время на поиск нужной информации. И традиционные интерфейсы, даже «Яндекса», уже не совсем отвечают этим потребностям. Поисковая выдача хороша, но если нужно мгновенно получить ответ, например, при занятии спортом, это уже не решает задачу. А Алиса справится.

    Информационными сервисами пользуются не только сидя за компьютером. У всех давно есть смартфоны: люди на ходу, занимаясь спортом, за рулем хотят также искать и потреблять информацию. И Алиса призвана помогать в таких ситуациях.

    Чем она лучше Siri или Cortana? К ним обычно обращаются, чтобы узнать погоду или найти музыку. И они часто не понимают запросов.

    Во-первых, Cortana на российском рынке нет. Вообще, все голосовые ассистенты работают по-разному. Наша особенность в том, что мы фокусируемся на российском рынке и очень хорошо понимаем русский язык. И с точки зрения распознавания речи, и с точки зрения восприятия смысла.

    У Алисы «под капотом» - сервисы «Яндекса». В этом смысле Алиса очень отличается от Siri, у которой нет собственного поиска. Раньше они использовали Bing, теперь переключились на .

    К тому же Алиса - абсолютно другой персонаж со своим характером. Это как с людьми: более-менее похожи, но все-таки разные, с одним человеком интересно общаться, с другим - не очень. Мы стремимся сделать Алису интересной именно для российского пользователя, наделить ее характером, близким и знакомым российскому человеку.

    Традиционные голосовые ассистенты заточены под решение конкретных задач: погода, музыка и так далее. Но все стараются сделать так, чтобы ассистент отвечал и на нестандартные вопросы. Есть редакторы, которые берут несколько сотен шаблонных вопросов и пишут ответы на них. И у человека возникает иллюзия, что это искусственный интеллект, что он умеет общаться. Но шаг в сторону, и иллюзия рассыпается, поскольку помощник повторяет: «Вот, что мне удалось найти в интернете по этому запросу».

    Мы, наверное, первые в мире пытаемся сделать вот что: мы тоже используем редакторские ответы на вопросы, но добавляем специальную нейронную сеть, обученную на свободную беседу. Она может подобрать ответ или втянуть пользователя в болтовню ни о чем.

    В этом, наверное, кардинальное отличие, потому что людям, помимо поиска каких-то фактов, иногда хочется с кем-то поболтать. Алиса уже сейчас способна поболтать и будет в этом только совершенствоваться.

    У нас была сложная задача: нейронная сеть (между нами - «болталка») обучается практически на всех текстах в интернете, уделяя внимание диалогам. И не всегда то, что есть в интернете, соответствует характеру, который мы хотим заложить в Алису. На форумах общаются по-разному, а мы не можем допустить, чтобы Алиса оскорбляла.

    Да! Для нас эта история очень показательна. Нам нужно было решить эту же задачу, и мы учим Алису не выходить за рамки своего характера, соблюдать дистанцию с пользователем и всегда быть доброжелательной. На самом деле это очень сложная задача.

    Поначалу она могла напрямую оскорбить собеседника. Представьте группы в соцсетях, где пользователи позволяют себе изъясняться трехэтажным матом. Она использовала ответы, исходя из частотности употребления, и в какой-то момент стала олицетворением интернет-души, но не «Яндекса».

    Умение болтать иногда выходит боком: многие разработчики сталкиваются с тем, что пользователи начинают сексуально домогаться голосовых помощников, поскольку видят в них женщин.

    У всех голосовых помощников есть голос, а человек сам выстраивает образ того, как выглядит его собеседница. Голоса, как правило, достаточно яркие, выразительные. Мы, кстати, не исключение: для создания голоса используется технология синтеза речи, и мы привлекали актрису . Она официальный голос в России и озвучивала ассистента Саманту в фильме «Она».

    Вся трагедия фильма как раз заключается в том, что у человека и персонального ассистента завязываются отношения. Но в итоге оказывается, что главный персонаж у нее не единственный. Еще, как мы недавно поняли, в третьей части «Ведьмака» этим же голосом говорит персонаж Йеннифэр. Геймеры оценят.

    Естественно, в возможных домогательствах Россия не исключение. Мы понимаем, что какая-то часть аудитории попытается задавать такие вопросы, и Алиса уже обучена выкручиваться из таких ситуаций, не нарушая дистанцию. Мы хотим добиться, чтобы всегда существовала пусть и небольшая, но дистанция между человеком и помощником. Алиса не любовница и не друг. Возможно, в будущем мы сможем настроить Алису в дружественный режим, но сейчас важнее запустить продукт. Мы все-таки заточены в первую очередь на решение задач, а болтательная история - приятный бонус.

    Не все. На самом деле есть куча исследований, по которым женщина в общественном сознании приравнивается к матери. Если мужчина - отец, завоеватель и так далее, то мама - это всегда что-то теплое, уютное, защищенное. К примеру, во всех контакт-центрах всегда отвечает женский голос. Но если пользователем нужно командовать, то больше подходит мужской голос.

    То есть это не связано с сексистской теорией о том, что помощник - обязательно женщина?

    Нет-нет. Так природой устроено, что женщины - матери. Это психологически заложено. Но в нашем продукте будет небольшой сюрприз.

    Как думаете, какие вопросы окажутся самыми востребованными?

    Очень много спрашивают фактическую информацию. Мы это называем фактоидами или объектными ответами. Кто такой Владимир Путин? Сколько ему лет? Какая высота Эвереста? Об этом очень часто спрашивают именно у помощников.

    Самый распространенный кейс - вопросы в кругу друзей. В беседах нередко возникают споры, и есть возможность быстро получить ответ.

    Большая часть мозга и знаний Алисы пришла из поиска. Еще одно важное направление, в котором мы пытаемся отличаться от конкурентов - возможность понимать контекст. Мы пытаемся построить персонального ассистента не в режиме «вопрос - ответ», а в режиме разговора. Самый простой пример с погодой: «Какая сегодня погода? А завтра?» Это самое «а завтра» обычно ломает всю логику.

    На самом деле все двигаются в этом направлении, но у нас есть преимущество - более 30 сервисов «Яндекса». Внутри каждого сценария с помощью контекста Алиса может порекомендовать необходимые приложения. К примеру, она предложит «Карты» для просмотра маршрутов общественного транспорта, если нужно куда-то на нем добраться.

    А как она реагирует на каверзные вопросы? Как поступит, если пользователь намерен совершить суицид и обращается к ней за помощью?

    В болтательной части Алисы есть набор метрик под общим названием «Неоскорбительность». В действительности под ними скрывается ее тактичность, невозможность оскорблять и способности обойти темы, связанные с гомофобией, национализмом, с суицидами в том числе. Они в стоп-листе, она будет обходить эти вопросы.

    Было бы круто, если бы Алиса советовала позвонить на горячую линию.

    Это мы тоже обсуждаем с психологами. Как раз ровно это мы и планируем. Но тут тоже нужно быть аккуратными. Мы должны точно знать момент, когда можно предложить этот вариант человеку.

    Денис хочет продемонстрировать, как Алиса реагирует на подобные темы, и вызывает ее на телефоне.

    - Хочу умереть!
    - Ты что, не говори так.
    - А что мне делать?
    - Помогите кому-нибудь просто так прямо сейчас.
    - Но я хочу умереть прямо сейчас.
    - Не надо умирать.
    - А куда мне обратиться?
    - Всегда есть куда.

    Мы в процессе обсуждения с психологами, в какой момент необходимо предлагать номер помощи, чтобы он сработал в положительную сторону, а не отрицательную. Ведь человека сначала надо успокоить, а потом уже предлагать конкретные действия.

    Существуют речевые модули, способные менять голос: к примеру, собеседник говорит своим голосом, а на другом конце слышится тот же текст, но голосом совсем другого человека. И все это звучит достаточно «человечно». Почему тогда голосовые помощники до сих пор говорят роботизированно?

    Здесь ответ простой: все зависит от источника голоса. Натуральную речь человека превратить во что-то иное довольно просто, достаточно наложить фильтры и поиграть с частотами. Качество звука от этого не потеряется. У нас другая задача: у помощников нет речи, а есть технология ее синтеза. Они видят текст и озвучивают его с помощью технологии - нейронной сети, которая, зная, как звучит человек, предсказывает, как именно должен слышаться текст. Она по факту даже не понимает, что это слова.

    Но есть и альтернативный подход, когда источником звука служит огромная база диктора. На старте Алиса будет звучать и так. Для ее разговоров мы используем комбинацию: синтезируем речь из огромной базы голоса Татьяны Шитовой или используем нейронную сеть. В первом случае все звучит натурально, но подходит только для коротких фраз. Во втором случае будет слышен «налет робота», и он работает, когда, к примеру, нужно прочитать новости.

    А она умеет проявлять эмоции?

    Эмоции как раз-таки можно сделать с помощью фильтров. Но проще имитировать эмоции, когда говорит нейронная сеть. Этой речью мы можем управлять как хотим: сделать голос очень грустным или очень веселым. С базой диктора такого не получится.

    В том же фильме «Она» ассистент проявляла много эмоций, и это, как мне кажется, показатель того, что будущее наступило.

    Да, это и есть будущее, в которое мы стремимся. Алиса будет со временем учиться эмоциям.

    Но важнее сделать так, чтобы Алиса слышала эмоции человека. Сейчас она слышит речь и переводит ее в текст. Нам хочется, чтобы она научилась распознавать радость или грусть. Например, с воспроизведением музыки есть бесконечное количество вариантов: если прочувствовать момент, то можно подбодрить грустного пользователя или снизить градус чрезмерного веселья чем-то расслабляющим.

    Важно понимать, когда человек испытывает негативные эмоции. Алиса пока ребенок, который может ошибаться. Мы не видим раздражения отдельных пользователей, но способны их услышать.

    С помощью негативных реакций мы можем ее обучать. Допустим, часто человек пытается что-то спросить, а ассистент его не понимает. После третьей реплики начинается мат и фразы типа «Ты дура». В этот момент можно переключить Алису в режим «болталки» и другой в зависимости от контекста.

    Вся эта история возможна благодаря нейросетям. К примеру, мы хотим, чтобы Алиса научилась распознавать человека по голосу. Это особенно актуально, если Алису будут использовать дома.

    Команды, работающие с речевыми технологиями, обычно не наделяют свое создание каким-то конкретным образом. А производители, к примеру, секс-кукол активно работают над «очеловечиванием» внешности, но не могут сделать их по-настоящему умными. Почему индустрии не пересекаются?

    Мы считаем, что каждый должен заниматься своим делом и фокусироваться на своей области. В мире IT есть разные специализации. Мы работаем в области машинного обучения и нейронных сетей, и наша задача - создать те программные решения, которые обеспечат очень высокое качество для конечного потребителя. Чтобы Алиса все хорошо распознавала, чтобы ее голос хорошо звучал. Если мы уйдем в создание физических форм, то внимание, наверное, распылится, и ни к чему хорошему это не приведет.

    Кроме того, голосовой помощник, находясь в приложении без какого-то физического облика, рождает свой личный образ у человека в голове. Это тоже так называемый комфортный выбор - у нас многомиллионная аудитория, сервисами в больших российских городах пользуются 90 процентов интернет-пользователей. Представьте, что нужно сделать, чтобы физическая форма, которую мы придумаем, понравилась им всем. Мне кажется, это невозможно.

    В некоторых странах, напротив, напирают на внешний облик помощника. Не так давно в Facebook гулял ролик, в котором одинокий японец ходит на работу, возвращается домой и постоянно ведет диалог с помощником (Gatebox - виртуальный ассистент для одиноких людей). Это милая стандартная девочка, способная понравиться всем.

    Вряд ли всем. Физическая форма очень требовательна к тому, чтобы понравиться массовой аудитории. Очень сложно угадать с ней. Понятно, что есть класс устройств с простой формой вроде Echo. Нет опасности, что люди не будут это использовать, потому что им просто не нравится сам дизайн.

    Если мы говорим о человекоподобных андроидах, то тут как с людьми: одни нам нравятся, другие просто раздражают. Это не массовая история, и соответственно, нам это неинтересно.

    С другой стороны, мы традиционно делимся нашими технологиями со сторонними разработчиками. Возможно, кто-то сделает детскую игрушку и захочет встроить туда Алису или назвать персонажа по-другому, но на базе наших технологий.

    Мы верим в некую коллаборацию разных компаний, специализирующихся на своих продуктах. «Яндекс» не может делать все на свете: мы не можем выпускать игрушки, которые будут суперпопулярны, роботов, которые будут убирать дом. Это задача других компаний, которым мы готовы давать наши технологии.

    Интересный вопрос из серии «а не захватят ли мир роботы». На самом деле и Алиса, и другие технологии на основе машинного обучения - инструмент для человека. Я люблю приводить в пример молоток. Когда-то давным-давно у людей не было молотка. Потом его изобрели, и открылось много возможностей. Молотком можно было и проломить голову - себе или кому-то еще. Но если бы люди использовали молоток только в этом направлении, то человечество бы пропало. Однако оно не пропало.

    Искусственный интеллект, нейронные сети, машинное обучение, персональные помощники - это тот самый молоток, инструмент. Мы верим, что у людей появится больше свободного времени благодаря голосовым помощникам, они быстрее смогут решать свои бытовые задачи, им станет безопаснее ездить на автомобиле.

    Голосовые помощники снимут с людей рутинные задачи. Еще один мой любимый пример - работа в контакт-центре. Человек, который изо дня в день приходит на работу, надевает гарнитуру и отвечает на однотипные вопросы по четыре и больше часов в день, просто выгорает и теряет мотивацию. Но если такую рутинную работу возьмут на себя помощники, то у людей будет более интересная работа, они смогут решать более нестандартные задачи, а значит, качество сервиса вырастет.

    Мы давно пользуемся социальными сетями, но личное общение все равно никуда не девается. Кафе и бары, стадионы и концерты все еще заполнены. Человечество начинает лихо играть в игрушки, но жизнь расставляет все по своим местам. С виртуальным ассистентом будет прикольно пообщаться, когда тебе не к кому обратиться, и это круто.

    Но когда есть возможность встретиться с друзьями или позвонить, то люди выберут это. Человек все равно интереснее, потому что, если по-честному, все персональные ассистенты - это программа. Она всегда будет иметь свои ограничения, какая бы большая нейронная сеть ни была.

    Люди ценны тем, что они постоянно приносят новые знания, поэтому мы общаемся друг с другом, а не с роботами.



    Рекомендуем почитать

    Наверх