Распознать перспективный рынок

advertisement
Распознать перспективный рынок
24 июля 2012, 14:44
Руслан
Владельцы мобильных устройств давно мечтают управлять смартфоном с помощью собственного голоса.
Журналисты – мгновенно получать текст интервью в формате Word, да и обычные пользователи не откажутся
от «примочки», которая автоматически переведет речь в текстовой формат. Качественно распознать русскую
речь способен проект RealSpeaker, “поднявший” за полгода порядка 5 млн. руб от Фонда Сколково и НАИРИТ.
Проект стал открытием Всероссийского конкурса по поддержке высокотехнологичных инновационных
молодежных проектов НАИРИТ и получил заслуженно высокую оценку экспертов РАН. А сегодня им уже
интересуются зарубежные инвесторы. В первой части мы расскажем о том как зарождался этот стартап.
Три года назад, весной 2009 года, студент 3-го курса Марийского Государственного Университета (МарГУ),
Виктор Осетров листал книги по лингвистике и фонетике, взятые в городской библиотеке. “Внезапно мне в
голову пришло какое-то моментальное озарение, - вспоминает Виктор, - интегрировать аудио и видео
распознавание речи в единую систему для лучшего изучения иностранных языков. Смысл был такой: я
представил себе программу, которая позволяет 2 носителям разных языков естественно общаться между
собой. При этом в роли переводчика спикеров является не человек, а специальная программа.”
Рынок распознавания речи находится на стадии зарождения. На текущий момент можно выделить несколько
сегментов. Первый сегмент - распознавание отдельных голосовых команд и синтез голосовых сообщений.
Основные потребители - производители бытовой техники (телевизоры, видеомагнитофоны, микроволновые
печи, стиральные машины и т.д.) Суммарное мировое производство телевизоров оценивается в 100
миллионов штук. При цене 5 долл. за функцию (модуль) управления голосом, годовой объем рынка в этом
сегменте можно оценить в 500 миллионов долларов.
Второй сегмент - речевые технологии, позволяющие распознавать команды в условиях шумов. Они позволят
дополнить управление в автомобилях таким функциями как свет, радио, замки и т.д. По оценке экспертов,
объем рынка в этом сегменте может достигнуть в 2020 г. 7.5 миллиардов долл.
Наиболее значительное применение голосовых технологий - это электронная коммерция и call-центры. Рынок
голосовой навигации в Web-сайтах, осуществляющих электронную торговлю услугами по продаже авиа- и
железнодорожных билетов, продуктов, другими услугами и сервисами, как по телефону, так и через
Интернет, по оценкам экспертов, может достигнуть 700 миллионов долл.
Следующий значительный сегмент рынока аудиовизуального распознования - программы обучения,
основанные на речевых технологиях - выделения, визуализации и распознавания фонем, позволяющих
эффективно осваивать речь, (говорить и слышать). По оценке экспертов индийской фирмы Edaxis, только для
Английского языка объем рынка может достигнуть 500 млн. долл. в год только в Индии.
Оценив перспективы своей идеи, Виктор принялся за дело. На коленке оформив свою идею в бизнес-проект,
Виктор решил представить ее друзьям и коллегам. Для этого, он подал заявку на участие в конкурсе проектов
“БИТ-2009”, которые проходил этой же весной. “Первое, что двигало мной - это получить обратную связь,
узнать - насколько интересна моя идея для других”, - вспоминает Виктор. БИТ всегда отличался
демократичной атмосферой, и этот раз повезло: на конкурс пришли друзья и одногруппники Виктора, которые
помогли поддержать проект, - Oral Translator (это первое название проекта) получил приз зрительских
симпатий. Проекту повезло, ведь стоило амбициозному третьекурснику поискать в google.com/patents
материалы по ключевым словам “audio-visual speech recognition”, как выпадет бесконечный список из более
чем 900 патентов. Именно это и предложил сделать профессор из политеха Виктора, когда он пришел к нему
со своим проектом: “Витя, пожалей себя, я был в Японии и знаю, что такое научно-исследовательский
институт. Там в крупном небоскребе работают с утра до вечера масса людей-роботов”. И нравоучительно
завершил свою мысль в том ключе, что если Россия движется вперед на “птице-тройке”, то весть остальной
прогрессивный мир влетает в новое тысячелетие на сверхскоростном истребителе.
На этом этапе важным было знакомство с человеком, который научил Виктора многому. Губочкин Иван кандидат технических наук в Нижнем Новгороде, распознаванием речи он занимается очень давно, еще со
студенческой скамьи. Иван больше занимается наукой, а Виктор очень хотел найти практическое применение
своей идее. Поэтому Виктор стал использовать «программки», созданные Иваном и, применяя свои
приложения, стал понемногу разрабатывать систему распознавания речи.
Через 2-3 месяца после БИТа, вторым конкурсом для Виктора стал У.М.Н.И.К. “Как раз такое мероприятие
проходило в моей республике, в моем родном ВУЗе, на базе пансионата, что на озере Яльчик. Мне стало
интересно, и я подготовил небольшую научную статью по моему проекту, а также сделал презентацию.
Естественно, тогда у меня не было понятий как правильно делать презентацию, как выступать и так далее.
Хотелось просто запомниться и увидеть других авторов идей. К счастью, проект оргкомитету показался
интересным, и меня пригласили на очное выступление.” Проект не выиграл грант, но Виктор стал впервые
ассоциировать как стартапер, окунулся в “нужную” среду, приобрел полезные знакомства и бесценный опыт.
Следующий конкурс был Tech Tour, где RealSpeaker был представлен наряду со “звездными” стартапами.
Проект оценивало профессионльное жюри, куда входили Сегрей Копытьв (UMISOFT), Сергей Белоусов
(Parallels) с которыми можно было обсудить проект, выслушать дельный совет.
В итоге поддержка и понимание друзей перевесила чашу сомнений. Проект не стал пылится в институтской
библиотеке курсовых работ, а зажил своей самостоятельной жизнью. Но уже под другим именем и с новым
бизнес-планом.
Download