10/11/2011
Компания Speereo, один из ведущих разработчиков систем распознавания голоса, получила совместный грант фонда Сколково и корпорации Microsoft. До получения гранта Speereo развивалась на средства акционеров, всего за несколько лет в компанию было вложено более 10 млн долларов. Результаты деятельности Speereo — технологии речевых интерфейсов. Сегодня компания располагает технологией распознавания речевых команд, которая работает непосредственно в устройствах, без подключения к внешним серверам, при этом обеспечивается очень высокая точность распознавания. Для сайта russoft.ru с Константином Ламиным, генеральным директором Speereo, побеседовал Павел Житнюк.
- Константин, распознавание речи – это инвестиции в перспективу или уже есть практическое применение вашим технологиям?
- Конечно, практическое: мы выпустили несколько программных продуктов для мобильных платформ и набрали уже более 2 млн пользователей по всему миру. Сейчас мы продолжаем работать в мобильной отрасли, в частности наш проект POItry — это как раз тот проект, который получил поддержку Microsoft. Видимо, там посчитали важным, чтобы это проект появился и для их мобильной платформы Windows Mobile.

Грант от Сколково — это так называемый «грант фазы «0», то есть только начало. Получив мощное финансовое «плечо», мы сможем реализовать свои самые смелые задумки, в том числе, на автомобильном рынке, в домашнем секторе, в виде программ и устройств. Последние годы, признаюсь, было немного грустно наблюдать, как наши идеи речевых интерфейсов реализуют другие, более крупные компании. Они пришли к этим идеям самостоятельно, частенько позже нас и реализация прихрамывает на все ноги, но у них было то, чего не было у нас — ресурсы на реализацию. Радовало в то же время то, что идеи наши неплохи, раз их реализуют уважаемые бренды. А сейчас мы надеемся сделать то, что давно уже просится: речевые интерфейсы для управления навигацией в автомобиле, речевую геосоциальную сеть, речевое управление бытовой техникой и ТВ. Именно в этих областях привычные кнопки и тачскрины уже не справляются.
- А почему? Чем плох обычный пульт ДУ?
- Давайте зайдем несколько издалека. Всем устройствам, кроме обычного стационарного ПК, нужен интерфейс, отличный от стандарта PC - мышь, клавиатура, GUI, иконки, меню - просто потому, что полноценную клавиатуру и мышь нельзя использовать ни в смартфонах, ни в планшетах, ни в телевизорах, ни в автомобиле. Те элементы управления, которые используются сейчас - паллиативы. Только ленивый не пинал всяческие шайбы-ролики, которые ставятся в автомобилях премиум-класса, потому что только самоубийца будет ими пользоваться на ходу. Именно монструозные пульты похоронили первые версии Google и Apple TV. Тачскрин в качестве метода ввода для потребления информации еще протянет немного - просто за неимением лучшего. Задайтесь вопросом, почему весь софт для смартфонов такой простенький и даже, можно сказать, туповатый? Потому что очень неудобно вводить данные – цифры, текст – с тачскрина! Как только мобильный софт требует что-нибудь сложнее, чем поводить пальцем - ввода текста, выбора команды из длинного списка - все, сливаем воду, программы не будет. Пользователи не будут с этим работать. Да и GUI - не панацея, общаться с искусственным интеллектом с помощью клавиатуры - нонсенс! А ведь многие сервисы и системы вполне уже могут квалифицироваться как искусственный интеллект…
Вариантов ввода информации человеком в машину немного: всего -то два. Если руками вводить неудобно или руки заняты - остается голос. Этому никого учить не надо - говорить умеют почти все. Именно поэтому в ближайшем будущем мы перестанем мучиться при вводе адреса назначения в автонавигатор (кто пробовал - знает!), не будем искать в многостраничном меню - где здесь переставить часы, не будем долго жать кнопки пульта, пытаясь найти нужную передачу или ввести название фильма в телевизор, телефон в очередной раз изменит форм-фактор. В быту исчезнут пульты ДУ. Достаточно будет сказать то, что вы хотите получить от техники - и она поймет и исполнит. Интерфейс приблизится к идеалу - он станет невидимым, как и многие исполнительные механизмы. Это уже сегодняшние технологии, наши, по крайней мере. Осталось только сломить косность производителей.
- Наверное, таким технологиям должны обрадоваться военные – можно в пылу битвы не на кнопки жать, а привычно командовать…
Военные не просто радуются – они уже вовсю используют. Речевые команды есть в натовских истребителях «F-22 Раптор», «Миражах», «Еврофайтерах». Закажут для «Т-50» - сделаем, не вопрос…
- Вы сделаете, это очевидно. А конкуренты? Не дремлют? Как вообще выглядит рынок голосовых технологий? Сейчас первое, что приходит в голову при словах «распознавание речи» - это Siri от Apple или Google Voice…
И еще Speereo Voice Organizer или Speereo Voice Launcher: у нас, как я уже говорил, уже больше 2 млн пользователей по всему миру! Дело только в известности бренда… На самом деле, ни Apple, ни Google - не игроки на рынке движков распознавания речи: купить движок от них нельзя, они скорее неумелые потребители. Конкурент у нас – компания Nuance. Но технологически мы лучше в главных параметрах: в точности, скорости и устойчивости к шумам и акцентам. Вообще, американский «куст» движков распознавания имеет общие корни: это была серверная система распознавания для колл-центров. При этом любой мало-мальски грамотный инженер скажет, что интерфейс должен быть на клиентской стороне. Просто они не могут. Не получается. Это пока можем только мы. Нам есть чем удивить рынок в плане технологий, и никто нам в этом не помешает. Мы пойдем туда, где вообще сейчас никого нет.
Проблема в том, что пока наши технологии достаточно сложно монетизировать: пока еще мировой рынок движков распознавания - это еще рынок колл-центров. Он отмирающий. Но остальные сегменты, те, в которых мы планируем работать, пока только появляются. Так что задача нетривиальная в плане выстраивания бизнес-модели.
Кроме того, для тысяч разработчиков высокотехнологичных продуктов голосовой интерфейс – это пока слишком кардинальное изменение. Его нельзя просто использовать как еще одну клавиатуру. Нужно переделывать архитектуру приложений и сервисов, а это огромный объем работы.
- В ИТ-сообществе весьма скептическое отношение к самой идее и деятельности «Сколково». Вы получили грант, следовательно, поддержку государства. Получается, что по крайней мере, уже для Speeereo существование «Сколково» оправдано.
Деятельность Сколково реально оправдана и без раздачи грантов. Во-первых, это «точка сборки», оттуда гораздо проще открывать необходимые двери. во-вторых - это серьезные налоговые льготы. Я знаком с общественным скептицизмом относительно Сколково, но не согласен с ним. Проект только что начал работу и еще ничего не предъявил обществу. Уверен, что когда оттуда начнут поступать новости о запуске тех или иных продуктов - отношение сообщества кардинально изменится. Пока, наблюдая работу «иннограда» изнутри, могу только похвалить, никакой протекции не надо, бюрократии минимум, люди все очень и очень вменяемые.
- А не проще под перспективные проекты искать бизнес-инвесторов, а не привлекать структуры, аффилированные с государством? Сейчас на рынке достаточно инвестфондов, которые готовы активно вкладывать в перспективные ИТ-стартапы.
- Искать бизнес-инвесторов проще, а вот найти - труднее. Да и они ведь частенько играют в игру «зашел-размыл-продал». Кроме того, в хайтеке инвестор - это состоявшийся уже и получивший опыт предприниматель из конкретной отрасли. У нас пока таких можно пересчитать по пальцам одной руки и они все пока в своем бизнесе.
Вложиться на самом деле в нашей стране можно и не в высокие технологии с куда большей предсказуемостью и не меньшей прибыльностью. И опять же - инвестирование в хайтек предполагает серьезные мозги и опыт с обеих сторон, а со стороны инвесторов, прежде всего пока проблема с этим. Технический анализ, EBITDA - это они выучили, а предсказывать технологические тренды и создавать их - пока не научились. Поэтому проще работать с фондом, изначально ориентированным на инвестирование в высокие технологии.
Поделиться
|
Мне нравится
|
28/09/2018
От баррелей к байтам25/09/2018
Петербург начертит цифровой план