УДК 004.432.4 РАСПОЗНАВАНИЯ РЕЧИ Жантолин Досбол Бокенулы Магистрант ЕНУ им. Л.Н. Гумилева, Астана Научный руководитель – Бекманова Г.Т. Речевые технологии - технологии ХХI ВЕКА благодаря которым появилась возможность управлять компьютером с помощью голоса, диктовать текст, слушать, а не читать книги, а в перспективе общаться с компьютером на интеллектуальном уровне. Основными направлениями исследований в этой области являются: распознавание речи, синтез речи, средства речевого управления, идентификация по образцу речи. Распознавание речи - технология, позволяющая использовать естественный для человека речевой интерфейс для взаимодействия с электронной техникой. Технология распознавания речи предоставляет возможность распознавания отдельных слов или слитной человеческой речи, с последующим ее преобразованием в текст либо последовательность команд. Распознавание речи – это проблема, над которой ученые всего Мира работают на протяжении последних 50 лет. На сегодняшний день нельзя сказать, что существуют эффективные системы распознавания речи. Однако в данной области достигнуты большие успехи для английского, испанского, японского, китайского, французского и русского языков. Эти успехи достигнуты в основном для наиболее распространенных языков и для языков развитых стран, в том числе технологически. Для казахского языка такие работы то же ведутся и достигнуты определенные результаты, хотя можно сказать, что для Казахстана – это относительно новое научное направление. Ниже представлен анализ существующих систем распознавания речи. 1.Программное обеспечение систем распознавания речи: ПО Плюсы Минусы Разработчик 1. Dragon. Единственная программа, самая высокая Неудобный ввод Systems, приблизившаяся к тому, чтобы безошибочность чисел, 800/437-2466, выполнить рекламные обещания, распознавания, посредственное www.dragonsys 160-долларовая Dragon простота управление .com NaturallySpeaking Preferred - хорошо использования. экраном. Нет вводила текст и позволяла легко Поддержка распознавания переключаться между диктовкой, разработчиком. Русского языка. правкой и форматированием. В целом он очень близко подошел к достижению заявленной безошибочности распознавания 95%. 2. Горыныч. Программный комплекс Распознавание Нет поддержки VoiceLock "Горыныч" - первая русскоязычная речи около 70%. разработчика, Соразработчик 136 система автоматического распознавания речи. Программа для диктовки и голосового управления компьютером по-русски. Скорость голосового набора текстов зависит от производительности Вашего компьютера и может достигать 500700 печатных знаков в минуту, что значительно превышает скорость "слепого" метода печатания. При этом система "Горыныч" осуществляет автоматический контроль правописания: в текстах, введенных с ее помощью, исключены орфографические ошибки, что практически недостижимо при использовании клавиатурного ввода. Во время работы Вы по-прежнему можете пользоваться клавиатурой и мышкой. Чем чаще Вы диктуете, тем больше система "привыкает" к Вашему голосу. 3. Sakrament ASR Engine. Программа рассчитана на применение в различных аппаратных системах и программных приложениях, использующих технологии распознавания речи, таких как: IVRсистемы, мобильные электронные устройства, бытовая техника и т.д. Sakrament ASR Engine может быть легко перенесена на любую существующую программную или аппаратную платформу, а также настроена под конфигурацию любого приложения. 4. КОМБАТ. Система "Комбат" является универсальным средством и помощником в обработке большого количества текстовой информации. Она облегчает работу с компьютером слабовидящим людям и инвалидам с травмами рук. Скорость вводимого текста составляет от 350 до 600 знаков в минуту, в зависимости от производительности компьютера. Значительно возрастает скорость работы внутри приложения. Однако Точность распознавания достигает 95-98 процентов. Распознавание Русской речи. 137 для приемлемого качества распознавания речи необходимо длительное обучение (наговаривание речевой базы). : российская фирма White Computers, В настоящее время программа не поддерживаетс я. Создатели программы занимаются другим проектом. Качество распознавания зависит от размера используемых словарей, качества транскрипции, показателя связанности распознаваемых слов, от уровня фонового шума, от параметров используемых каналов связи и характеристик микрофонов. посредственное качество распознавания при диктовке 30% (если говорить идеально, с расстановкой)... http://www.sakr ament.com при этом у вас остается возможность пользоваться как мышкой, так и клавиатурой. Систему "Комбат" можно назвать виртуальной клавиатурой. 5. Philips. Несмотря на очень низкую цену, пакет FreeSpeech 98 функционально полон. Он поддерживает и стандартное окно диктовки типа WordPad, и возможность диктовать в любой программе для Windows, где есть ввод текста, и управление перемещениями по меню и окнам на Рабочем столе. В отличие от других пакетов, FreeSpeech требует ручного переключения между диктовкой, управлением, диктовкой по буквам и режимом "сна". 6. iVoice. Компания Autonomy выпустила на рынок свою разработку - систему распознавания голоса iVoice. Концепция компании такова, что ПО поможет пользователю управлять своим компьютером с помощью голоса так же легко, как он это делает с помощью клавиатуры и мыши. Другими словами, голосовые данные ничем не должны отличаться от текстовых, или любых других, воспринимаемых компьютером. Сама iVoice была разработана на базе технологии распознавания голоса фирмы SoftSound, купленной Autonomy. ПО уже купили такие компании как германский банк Dresdner Kleinwort и General Motors. наличие бесплатной пробной версии, дешевизна. Поддержка разработчиком. Нет распознавания Русского языка. Philips, 800/851-8885, www.freespeec h98.com Хорошее качество распознавания. Поддержка разработчиком. Нет Русского языка. http://www.auto nomy.com/ Вывод по таблице 1. По представленному анализу можно сделать вывод, что для русского языка существуют достаточно эффективные коммерческие программные продукты, такие как Горыныч, Комбат. Для казахского достигнуты следующие результаты - распознавание отдельных слов; - пофонемное дикторозависимое распознавание слов; - синтез слов. Автором данной работы ведутся работы по аппаратной реализации алгоритма распознавания отдельных слов.