Дикторонезависимая система распознавания речи для мобильных (встраиваемых) устройств

реклама
ООО ГАНЗА Консалтинг
173003 В. Новгород ул. С. Устинова, 1
Тел. (8162) 735 533
E-mail: [email protected]
ПЕРСПЕКТИВНЫЙ ПРОЕКТ
Дикторонезависимая система распознавания речи для
мобильных (встраиваемых) устройств
Организация, представляющая проект:
ООО «ГАНЗА Консалтинг»
Руководитель проекта:
Андреев Алексей Сергеевич, генеральный
директор, к.т.н., МВА
Научный руководитель проекта:
Яшин Александр Валентинович, директор по
исследованиям, к.ф.-м.н.
Великий Новгород
2007
Оглавление
2. Аннотация ....................................................................................... 3
3. Информация о заявителе. ............................................................. 5
4. Современное состояние исследований и разработок в области
реализации проекта. Новизна предлагаемого подхода по
сравнению с известными. .................................................................. 6
5. Сущность предлагаемой разработки. ......................................... 8
6. Права на интеллектуальную собственность. .......................... 10
7. Конкурентные преимущества. .................................................... 10
8. Рынок сбыта. ................................................................................ 11
9. Порядок коммерциализации результатов разработки. ........... 13
10. Состояние и источники инвестирования в реализацию
проекта.............................................................................................. 16
11. Предстоящие затраты по проекту. ........................................ 17
12. Заключение .................................................................................. 18
2
2. Аннотация.
Предлагаемый проект - дикторонезависимая система распознавания речи
для мобильных (встраиваемых) устройств позволяет получить технологию для
организации голосового взаимодействия человек-информационная система.
Предполагаемый набор распознаваемых слов составляет 1000 уникальных
слов. В случае использования созданной технологии на более мощных системах
(например, персональных компьютерах), может быть получено приложение для
правильного распознавания большего количества слов (например, 3000 слов), что
представляет собой набор наиболее употребительных слов практически на любом
современном языке.
Возможные
области
применения:
мобильные
устройства,
системы
управления «интеллектуальным домом», системы контроля и обеспечения
безопасности, управление информационными системами.
Конкурентные преимущества предложенного проекта:
1. Расширяемость (возможность расширять запас слов без существенного
ухудшения качества распознавания речи)
2. Встраиваемость (подходит для встраиваемых систем в условиях
ограниченных ресурсов)
3. Адаптивность к языку (возможность за ограниченное время быстро
создать
системы
распознавания
речи
для
дополнительного
иностранного языка при сравнимом уровне правильной работы
системы)
4. Дикторонезависимость
(возможность
правильной
работы
без
предварительного научения и подстройки системы под конкретный
голос)
В настоящее время авторы имеют 2 промышленных образца с ограниченным
функционалом (30 немецких слов). Имеется четкий план дальнейших работ по
достижению поставленной цели: распознанию 1000 слов независимо от диктора
для встраиваемых устройств. Дальнейшее развитие проекта направлено на
выявление для каждого языка замкнутого набора слов, содержащих все
возможные сочетания фонем, получение образцов речи уже только для них и на
этой основе построение системы распознавания речи для произвольного набора
3
слов. Существующие наработки позволяют значительно ускорить обработку
собранного материала и его классификацию. На этой основе создаются точные
правила выделения фонем и система распознавания подстраивается под
конкретный язык. Методы сравнения с эталоном, заточены под требования
встраиваемых систем и не предъявляют больших требований на быстродействие
системы. В идеальном случае удается построить систему, распознающую любую
речь (любой набор слов), минимально гарантированный объем распознаваемых
слов расширен до 500.
Технология
распознавания
речи
может
являться
самостоятельным
продуктом в качестве интерфейса взаимодействия человек-информационная
система (например, управление компьютером) или быть частью какой-либо
специализированной системы.
Так
как
первоначально
предложенный
проект
ориентируется
на
встраиваемые системы, то система распознавания речи является подсистемой
какого-то специализированного приложения. В качестве возможных областей
применения рассматриваются сотовые телефоны (управление и набор коротких
сообщений), системы управления «интеллектуальным домом», системы охраны и
безопасности
(распознание
по
голосу),
системы
управления
какими-то
устройствами (например, магнитолой в автомобиле).
Заказчиками будут являться не конечные потребители, а производители
устройств, в которых будет использована преложенная технология распознавания
речи (мобильных телефонов, устройств контроля доступа, систем управления и
т.д.). Маркетинг и продвижение созданной технологии предполагается делать в
виде разработки прототипов с примерами возможного применения для целевой
группы и прямого контакта с представителями целевой группы. Кроме этого
предполагается PR-деятельность в виде опубликования
статей в профильной
прессе и работа на выставках.
Так как уже текущая работа идет в тесном контакте с потребителем
технологии
–
немецкой
компании,
производящей
встраиваемые
системы
перевода, то это может значительно уменьшить риск проекта, так как уже есть
реальный заказчик, желающий использовать разрабатываемую технологию и
благодаря этому применению решается мучительная проблема получения
первого заказа на технологию.
4
3. Информация о заявителе.
Название организации: Общество с ограниченной ответственностью «ГАНЗА
Консалтинг»
Юридический адрес: 173018, г. Великий Новгород, пр. Корсунова, д.40, корп. 7,
кв. 5
Почтовый адрес: 173003, г. Великий Новгород, ул. С. Устинова, д.1, офис 6410
E-mail: [email protected] или [email protected]
Internet: www.hansaconsulting.com
Руководитель: Андреев Алексей Сергеевич, к.т.н., МВА, тел. (8162) 738 533
Направление
деятельности
организации:
разработка
программного
обеспечения, проведение НИР/НИОКР, бизнес- и ИТ консалтинг
Инновационный потенциал:
разработка фильтра спама AntiSpamWare (по заказу компании IOK, Германия)
признанной журналом CopmuterBild (Германия) лучшим персональным фильтром
спама;
Победа в конкурсе «Старт» Фонда Бортника на разработку персональной системы
фильтрации спама SpamOff Personal
Прохождение отборочных туров и участие в Российских венчурных ярмарках
(Российских венчурных форумах) в 2004/2005 г.г.
Производственный и трудовой потенциал:
•
годовой оборот 2006г: 1 325 т.р.; 2005г. - ;2004-
•
среднесписочная численность сотрудников: 5 человек
•
производственные
мощности:
собственный
программно-аппаратный
комплекс на арендованных офисных площадях
Руководитель проекта: Андреев Алексей Сергеевич, основное место работы:
ООО «ГАНЗА Консалтинг», генеральный директор; адрес: 173003 В.Новгород, ул.
С.Устинова,1, офис 6410; тел. (8162) 738 533; сот. (905) 292 0505; e-mail:
[email protected]; ученая степень: кандидат технических наук,
Master of Business Administration
5
Научный руководитель проекта: Яшин Александр Валентинович, основное
место работы: ООО «ГАНЗА Консалтинг», руководитель проекта; адрес: 173003
В.Новгород,
ул.
С.Устинова,1,
офис
[email protected];
6410;
тел.
ученая
(8162)
степень:
738 533;
кандидат
e-mail:
физико-
математических наук.
4. Современное состояние исследований и разработок в области
реализации проекта. Новизна предлагаемого подхода по сравнению с
известными.
Речевое общение является разновидностью коммуникации. И, как любая
коммуникация, может быть формализована в рамках модели OSI ISO. В
речевой коммуникации принято выделять семь уровней. Это физический,
фонетический, фонологический, морфемный, лексический, синтаксический и
семантический. Полное решение задач автоматического синтеза речи и
автоматического распознавания речи (ASR) требует разработки полного стека
протоколов в рамках каждого конкретного естественного языка. Можно
уверенно сказать, что перспективы такого рода решения более чем туманны.
Физический уровень естественной речи достаточно изучен. Изучены
структура и функции артикуляционного аппарата человека. Изучены законы
распространения
информации.
акустического
Прекрасной
сигнала.
Изучено
общепринятой
ухо
–
как
математической
приемник
моделью
информации на физическом уровне является спектрально-временной образ
акустического
сигнала.
Его
низкие
частоты
сформированы
голосовыми
связками человека, а высокие голосовым шумом. В свою очередь оказывается,
что ухо так же настроено на восприятие этих же диапазонов частот. Прочие
математические модели – скорее дань моде, и изоморфны данной модели.
Достижения лингвистов по изучению фонетического и фонологического
уровня речи несомненны. Естественная речь разбивается на звуки речи,
которые делятся на фонемы и аллофоны. Именно из этих элементов далее
будут формироваться морфемы и слова. Так же исключительно важным
атрибутом этих уровней речи является ритм речи (интонация). Можно уверенно
сказать,
что
все
разработки
по
ASR
сталкиваются
с
серьезнейшими
проблемами именно на этом уровне. То, каким образом они преодолевают эти
проблемы, и определяет качественные показатели существующих систем.
6
Именно:
зависимость
от языка и
диктора,
чувствительность
к ритму,
необходимость обучения, процент распознавания, объем словаря и требуемые
аппаратные ресурсы.
Математическое
моделирование
интонации
обычно
основано
на
динамическом программировании. Оно присутствует практически во всех
подходах, где авторам удалось добиться приемлемых результатов. Несколько
сложнее обстоит
дело с локализацией фонем и аллофонов. Необходимо
произвести разбивку спектрально-временного образа на фрагменты, которые
затем идентифицировать.
Фонемы оказываются взаимообусловленными. Фонемы группируются в
слоги. Фонема образуется в результате трех режимов работы голосового
аппарата: подготовки, генерации и отхода. Все эти априорные сведения и
пытаются моделировать разработчики в той или иной мере. Однако всегда
оказывается, что эти закономерности слишком сложные. Некоторый успех могут
дать стохастические модели, нейромодели или
модели нечетких множеств.
Соответствующие характеристики моделей определяются только эмпирически,
а значит, результат можно гарантировать только для данного языка, для данной
диалектной группы, для данного типа речи.
Этот вывод также подтвержден
большим количеством психологических экспериментов.
Интересно,
что
проблема
локализации
фонем
ставит
многих
разработчиков в тупик, и ее пытаются решить иногда излишне прямолинейно.
Например, идентифицируя слово целиком. Это приводит к необходимости
получения образцов речи данного языка, данной диалектной группы, и данного
типа именно для всего распознаваемого набора слов.
Другая возможность – это предварительное выделение в языке набора
слов (около 1000), которые учитывают все возможные сочетания фонем и
получение образцов речи уже только для них.
Именно по этому пути идет данный проект. На настоящий момент
проведены работы по автоматизации обработки языкового материала, что
позволяет в кратчайшие сроки собрать необходимый языковой материал а
затем на его основе построить системы распознавания речи.
7
5. Сущность предлагаемой разработки.
Суммируя наш позитивный опыт, можно сказать, что кроме достаточно
глубокого понимания проблем ASR нами получены конкретные практические
результаты, реализованные в виде двух различных систем распознавания 30
немецких слов.
В первой системе нам удалось найти и реализовать способ
локализации групп фонем по соотношению тон-шум. При этом явной
зависимости от языка и диктора не было выявлено. Последующая проблема
распознавания
в
ходе
экспериментов
решалась
следующим
образом.
Составлялась шумовая транскрипция всех тридцати слов. Т.е. строился набор
такого рода эталонов. Сравнение с эталоном производилось методами
динамического программирования. В результате тестов на доступных нам трех
образцах речи мы получали распознавание в 60% случаев. Верное слово
оказывалось вторым в списке предпочтения еще в 30%. Данный результат нас
не устроил,
и мы попытались исключить зависимость от интонации. В
окончательной реализации также изменен метод сравнения с эталоном, а сами
эталоны уже языково и дикторозависимы. Качество распознавания для
правильно произнесенных слов повысилось. Очевидно, что даже в случае
надлежащего качества данный подход быстро исчерпает свои возможности с
ростом числа распознаваемых слов, хотя для задачи в 30 слов показывает
хорошие результаты.
Возможности второй системы пока ограничены, но заложенные в ней
методы имеют большую перспективу развития. Нам удалось построить модель
интонации. Эту модель возможно применять для распознавания ограниченного
набора
слов.
При
этом
непосредственно
распознавание
производится
сравнением с эталоном методом динамического программирования. Эталоны
же, в свою очередь строились по имеющимся у нас образцам речи. К
сожалению, это была речь русских переводчиков – не носителей немецкого
языка, которые, однако, хорошо говорят по-немецки. Качество распознавания
существенно зависит от правильности интонации. Т.е. необходимо правильно
делать ударение, не использовать деление на слоги, держать верный темп.
Одним словом – интонационно говорить на немецком языке так, как это
стандартизировано лингвистами. Человек, который слишком пренебрегает
этими правилами, рискует быть не понятым даже другими людьми, не говоря
8
уже о компьютере.
Дальнейшее совершенствование методов распознавания будет идти в
следующем направлении:
Подобрать слова со всевозможными сочетаниями фонем и аллофонов в
языке и сделать состоятельную выборку реализаций (проговорок) этих слов для
данной диалектной группой. Это даст возможность получить материал для
построения метода распознавания любого, а не конкретного, набора слов и,
возможно, речи. В противном случае проговорку необходимо будет получить
для каждого набора в отдельности.
Затем построить интонационные шаблоны для каждого из таких слов и с
их помощью локализовать фонемы.
Для идентификации (распознавания) фонем попытаться применить все
известные способы: статистические, нечетких множеств, нейронных сетей.
После
этого
распознавание
речи
будет
сведено
к
известной
задаче
динамического программирования.
Созданный таким образом аппарат распознавания речи сможет выйти за
пределы ограничения по ключевым словам и быть дикторонезависимым.
Минимальный объем слов, который можно будет распознавать с высоким
качеством дикторонезависимо определено в 500 слов, а мы рассчитываем
выйти на уровень 1000 слов с перспективой перейти и это ограничение.
Области применения: сотовые телефоны, встроенные системы для
перевода (электронные словари), интерфейс человек-компьютер (управление с
помощью голоса), системы управления интеллектуального дома, системы
ввода информации в знаковые системы, автоматические справочные системы и
системы автоматизированной обработки (работы) с клиентами (например,
вызов такси).
Существуют возможность практически использовать текущие результаты
нашей работы без дальнейшего развития методов распознавания. Это могут
быть
системы
управления
встраиваемыми
(мобильными)
устройствами,
системы управления человек-компьютер, а также системы обеспечения
безопасности. Возможный набор слов в этом случае ограничен в 30-40 слов при
высоком уровне распознавания, т.е. текущее состояние методов - условно
масштабируемыми и среди слов не должны встречаться интонационно
9
эквивалентные
6. Права на интеллектуальную собственность.
Пока результаты проводимых работ не подпадали под патентную защиту. В
настоящее время готовится заявка не регистрацию программ (промышленных
образцов), реализующих текущую версию систем распознавания речи, описанных
выше.
Имущественные права на результаты работ получает компания ГАНЗА
Консалтинг. По соглашению с существующим инвестором, все права на систему
распознавания речи остаются у компании ГАНЗА Консалтинг и она имеет 3-х
летнее ограничение по работе с прямыми конкурентами компании – Заказчика
(закрытый список из 5 компаний).
Поэтому
все
результаты
проекта,
которые
подпадают
под
защиту
интеллектуальной собственности, будут соответствующим образом защищены.
7. Конкурентные преимущества.
Сравнивая текущие разработки, существующие на рынке с перспективами
нашей разработки, отметим конкурентное преимущество предложенного проекта:
1. Расширяемость (возможность расширять запас слов без существенного
ухудшения качества распознавания речи)
2. Встраиваемость (подходит для встраиваемых систем в условиях
ограниченных ресурсов)
3. Адаптивность к языку (возможность за ограниченное время быстро
создать
системы
распознавания
речи
для
дополнительного
иностранного языка при сравнимом уровне правильной работы
системы)
4. Дикторонезависимость
(возможность
правильной
работы
без
предварительного научения и подстройки системы под конкретный
голос)
10
8. Рынок сбыта.
Результатом
представленного
проекта
является
дикторонезависимая
система распознавания речи для мобильных (встраиваемых) устройств. Данная
система является существенным дополнением и фактически замещением
существующих интерфейсов
взаимодействия
человек-технические
системы.
Ориентация проекта на мобильные (встраиваемые) платформы дает возможность
очень широкого применения созданной технологии.
Круг
конечных
потребителей,
использующих
преимуществами
нового
подхода, довольно широк. Далее мы будем опираться на некоторые области
применения, которые кажутся перспективными в настоящее время.
Рынок мобильный устройств: мировое количество 2006 год: 990,8 млн. трубок
с тенденцией роста в 21% (Gartner Group). Средняя стоимость сотового телефона
в России составляем $193 и имеет 18% роста (IDC). Исходя из предположения,
что
только
10%
телефонных
распознавания речи,
аппаратов
будут
оснащены
функциями
и из них только 5% будут иметь предложенную систему
распознавания речи, получаем около 5 млн. потенциальных конечных устройств,
использующих результаты проекта. В настоящее время, например, в моделях
компаний Motorola и SonyErricsson нет приложений с голосовым управлением
Рынок «интеллектуальных домов» в России в 2005 году оценивался в 250
млн. долларов с показателем 25% ежегодного роста (YORK International), а в мире
в
целом
индустрия,
связанная
с
программно-аппаратным
обеспечением
интеллектуальных домов оценивалась в 2006 году в 4,5 млрд. долларов США с
5.6% роста рынка (ARC Advisory Group). На этом рынке для систем распознавания
речи представляется очень большое поле для внедрения: путем использования
голосового управления возможно значительно упростить и облегчить управление
системами жизнеобеспечения и общее управление «интеллектуальным домом».
Рынок систем безопасности в России в 2006 году составил 1 млрд. долл., а к
2008 году достигнет значений в 1,6 млрд. долларов, показывая ежегодный рост
рынка в 17-19% (РБК), а мировой рынок информационной безопасности по
прогнозу IDC в 2007 году превысит объем в 23,5 млрд. долларов. Даже имея
незначительное количество систем безопасности, основанных на использование
систем распознавания речи в доли процента, можно получить большой по объему
и очень быстро развивающийся сегмент для использования результатов проекта.
11
Непосредственными клиентами, которые будут приобретать созданную
технологию или заказывать решения на ее основе, будут компании-производители
электронных устройств, которые работают на отраслевых рынках, поэтому
технология продвижения будет ориентирована в первую очередь на эти компании.
В качестве мероприятий по продвижению результатов проекта на рынок
будет использование PR мероприятий, изготовление пилотных технологических
решений, показывающих возможность отраслевого применения созданных систем
распознавания речи, прямая работа с производителями на отраслевых выставках.
Пока более приоритетным выглядит зарубежный рынок в связи с его более
высокой развитость рынка (объемом) и наличием производителей, которые
являются лидерами своего рынка.
Так как финальные реализации текущих вариантов систем распознавания
речи появились во время конкурса Русских Инноваций, то пока еще не удалось
получить описание потребности от возможных потребителей инновационной
разработки, за исключением текущего инвестора проекта, который хочет получить
электронную систему – разговорник для туристов, выезжающих за рубеж.
Потенциальный интерес к разработке был проявлен во время Finnish IT
Security Show, состоявшееся в Санкт-Петербурге в феврале 2007 года для систем
аутентификации пользователей в информационных системах в рамках которого
компания
ГАНЗА
Консалтинг
представляла
возможности
использования
результатов проекта в области систем безопасности.
Система
для
заказчиков
будет
поставляться
в
виде
API
(SDK)
кастомизированная под конкретные требования. Стоимость будет состоять из
следующих
частей:
стоимость
лицензии
на
использование,
стоимость
кастомизации и лицензионные отчисления с каждого устройства, использующего
данную технологию.
12
9. Порядок коммерциализации результатов разработки.
Работы по выполнению проекта ведутся с апреля 2006 года. За это время
была сформирована команда проекта в составе 3-х исследователей: научный
руководитель проекта (он же исследователь-математик), 2 программистаисследователя. Кроме этого был руководитель проекта, который курировал этот
проект и решал все административные вопросы.
За это время был проделан путь от большого интереса к данной теме и
начальной эйфории по быстроте получения прорыва в этой области к глубокому
изучению проблемы, пониманию возможных путей решения возникших проблем и
созданию первых 2-х вариантов реализации системы распознавания речи для
ограниченного набора слов (30 слов). В настоящее время есть 2 промышленных
образца, которые уже на данной стадии могут быть использованы для реальных
приложений и есть план проекта для значительного улучшения полученного
результата в плане расширения ограничения по количеству распознаваемых слов.
Существующие результаты работ предложены потенциальным заказчикам и
ведется работа как по практическому применению текущих результатов работ, так
и по продолжению НИОКР.
Так
как
предложенный
в
данном
проекте
подход
является
языконезависимым, то есть нет принципиальной разницы между созданием
следующей версии на русском или на иностранных языках, то разница между
русской
и
иностранной
реализациями будет
состоять в дополнительных
трудозатратах по работе лингвиста в данном языке, нахождению качественного
лингвистического
материала
для
работ
и
использованию
определенных
особенностей языка для подстройки системы распознавания речи. Для первой
реализации полномасштабной системы потребуется дополнительное время для
доработки
программно-аппаратной
инфраструктуры
и
завершению
дополнительных исследований.
Оптимальный состав команды для разработки представляется следующим
образом:
1. руководитель проекта – общее руководство проектом, координация
работ, постановка задач и контроль за исполнением;
13
2. математик-исследователь – научное руководство проектом, подбор
оптимальных методов обработки, разработка алгоритмов выявления
фонем
3. программист-исследователь – разработка и практическое опробование
алгоритмов обработки и распознавания речи
4. программист – реализация методов в виде конечных приложений
5. лингвист (привлеченный специалист для работы с конкретным языком)
– работа со звуковой информацией, определение необходимого
заданного первоначального набора слов в конкретном языке для
выявления необходимых переходов звуков, работа с полученным
звуковым материалом.
6. тестер – тестирование приложения как с точки зрения фонетики, так и
с точки зрения программной реализации. Оптимально использование
носителя конкретного языка
Для каждого языка минимальный фонетический набор представляется
примерно в 1000 слов и должен состоять из 4-х мужских, 4-х женских и 2-х детских
голосов (минимальный набор).
Общий цикл для работ над одним языком составляет от 9 (для русского) до
12 (для иностранного языка) месяцев.
На выходе получается полностью адаптированная к конкретному языку
дикторонезависимая встраиваемая система распознавания речи, которая может
быть доделана под конкретные требования заказчиков.
Заказчики получают API (SDK) под их конкретные требования, готовые к
использованию. Доработку до требований заказчика делаем непосредственно
автор данного проекта.
В настоящее время есть реализация 2-х методов распознавания 30-ти
немецких слов, которая может быть представлена в качестве промышленного
образца.
Стоимость будет состоять из следующих частей: стоимость лицензии на
использование, стоимость кастомизации и лицензионные отчисления с каждого
устройства, использующего данную технологию.
14
По существу себестоимость системы определятся затратами на ее создание
(текущими инвестициями) и возвращаются в виде единовременной выплаты в
качестве
лицензии
на
использование.
Затраты
на
кастомизации
также
покрываются конкретным заказчиком а прибыль идет за счет лицензионных
отчислений с каждого устройства.
Такая бизнес-модель позволяет использовать вернуть вложенные в НИОКР
инвестиции, управлять развитием системы и контролировать распространение
результатов проекта.
Так как используется программная реализация, то для заказчика - компании
из конкретной предметной области затраты на покупку системы распознавания
речи амортизируются линейно с количеством проданных конечных устройств,
использующих речевое управление.
Команда проекта укомплектована, для работы будут приглашены лингвист и
тестер, в зависимости от конкретного языка.
15
10. Состояние и источники инвестирования в реализацию проекта.
Полный размер проинвестированных в данный проект средств составляет
715 000 рублей. Эта сумма складывается из собственных инвестиций в размере
103 000 рублей и привлеченных инвестиций в размере 612 000 рублей.
Внешнее финансирование получено от стороннего инвестора – немецкой
компании, которая заинтересована в практическом использовании полученной
технологии распознавания речи для встраиваемых устройств, при этом права на
систему распознавания речи остается у компании ГАНЗА Консалтинг.
Для продолжения исследований в направлении расширения возможностей
по распознаванию речи (расширение количества распознаваемых ключевых слов,
переход к четкому распознаванию любых фонем и на этой основе построение
дикторонезависимой
системы
распознавания)
идет
поиск
дополнительных
инвестиций.
Компания
ГАНЗА
представительствами
Консалтинг
федеральных
проводила
переговоры
банков
предмет
на
с
местными
финансирования
(проектного финансирования) работ в данный проект, но был получен отказ в
связи с инструкциями ЦБ, так как у компании нет ликвидных активов, которые
можно было бы использовать в качестве залога.
Интерес к финансированию был получен от ассоциации бизнес-ангелов
Гренобля (Франция), переговоры по которым продолжаются. Размер инвестиций,
о котором идут переговоры, составляют 60 000 Евро. Форма привлечение
инвестиций – вхождение в уставной капитал компании.
Владельцы компании ГАНЗА Консалтинг готовы выделить этот проект в
отдельное юридическое лицо для четкого разделения сфер деятельности и
привлечения дополнительных инвесторов в уставной капитал выделенной
компании. Размер доли, которую получит потенциальный инвестор, зависит от
объема и условий финансирования и может быть выше контрольного.
16
11. Предстоящие затраты по проекту.
Объем
необходимых
дополнительных
инвестиций
для
разработки
дикторонезависимой встраиваемой системы, распознающую 1000 слов на
определенном языке составляет 5 110 000 рублей, основная часть которых будет
зарплатная составляющая проектной команды (6 человек).
230 000 рублей из
этой суммы пойдет на дополнительное оборудование и закупку лицензий
программного
обеспечения.
350 000
рублей
будет
потрачено
на
сбор
необходимого языкового материала (в случае русского языка эта составляющая
будет значительно меньше) Срок работ – 12 месяцев.
На втором этапе будут созданы прототипы применения созданной системы
распознавания речи для сектора мобильных устройств и системы распознавания
речи. Возможно, данный этап не потребуется, если правильно сделанный PR на
первом этапе позволит найти заказчика на конкретное применение созданной
технологии. Планируемый объем требуемых инвестиций составляет 3 125 000
рублей, из них маркетинговые расходы составят 1 325 000 рублей.
Маркетинговые расходы предполагается в виде участия в выставках, PR в
отраслевой прессе в виде статей, расходы на проведение прямых переговоров с
потенциальными заказчиками.
Срок второго этапа – 6 месяцев.
Этапы:
I. Создание дикторонезависимой встраиваемой системы, на 1000 слов
Длительность: 12 месяцев
Инвестиции:
из них: работа проектной команды:
дополнительное оборудование/ПО
5 110 000 руб.
4 530 000 руб.
230 000 руб.
затраты на сбор языкового материала: 350 000 руб.
II. Создание прототипов систем с использованием ASR
Длительность: 6 месяцев
Инвестиции:
из них: работа проектной команды:
3 125 000 руб.
1 800 000 руб.
17
маркетинговые расходы:
1 325 000 руб.
12. Заключение
Проектная команда имея успешный опыт реализации 2 промышленных
образцов для распознавания 30 немецких слов
и четко понимая пути развития
проекта с полученными глубокими знаниями предметной области, готова успешно
реализовать следующие фазы проекта и выйти на достижение дикторонезависимое
распознавание около 1000 слов для встраиваемых систем.
Созданы все условия для успешной реализации проекта и мы приложим все
силы, чтобы проект стал историей успеха.
18
Скачать