МЕНТАЛЬНЫЙ ЛЕКСИКОН И ВОСПРИЯТИЕ РЕЧИ

advertisement
ВОСПРИЯТИЕ УСТНОЙ РЕЧИ И МЕНТАЛЬНЫЙ ЛЕКСИКОН
А.В.Венцов
Санкт-Петербургский государственный университет
av.ventsov@gmail.com
Известно, что естественный речевой сигнал характеризуется высокой степенью
вариативности в диапазоне от кодифицированной литературной речи до спонтанной.
Последней свойственны различные степени редукции сегментного состава, вплоть до утраты
значительной части отдельных словоформ (Русская разговорная речь 1983).
Однако повседневный опыт любого носителя языка убедительно свидетельствует о
том, что даже в условиях предельной редукции, свойственной спонтанной речи, процесс
естественного речевого общения не становится невозможным. Из этого можно заключить,
что в системе восприятия речи существует механизм коррекции возникающих в процессе
речеобразования «ошибок».
Экспериментальным подтверждением существования подобного механизма может
служить обнаружение так называемого эффекта “phoneme restoration” (Warren 1970). Эффект
заключается в том, что при маскировке шумом некоторых звуков (фонем) в речевом сигнале
или при полной замене их шумом носители языка способны полностью восстанавливать
утраченное. При этом оказывается, что на результат восстановления влияет контекст
(Warren, Warren 1970). В дальнейшем все разрабатываемые модели восприятия речи
обязательно проверяются на способность воспроизводить этот эффект, который обычно
реализуется через процедуры обращения к словарю (ментальному лексикону) (Norris et al.
2000).
Весьма вероятно, что процедура «восстановления» редуцированных форм при
восприятии спонтанной речи не отличается от процедур, обеспечивающих эффект “phoneme
restoration”, и базируется на взаимодействии с ментальным лексиконом. Чтобы понять, как
это может происходить, необходимо прежде всего представить себе возможную структуру
самого ментального лексикона. Надо заметить, что на сегодняшний день существует мало
надежд на получение точных научных сведений об этой реализованной в нейронных сетях
структуре, но получить представление о ее функционировании, по-видимому, можно,
разрабатывая компьютерные функциональные модели, результаты работы которых были бы
сопоставимы с поведением носителей языка при анализе аналогичного речевого материала.
Та часть системы восприятия речи, которую принято сейчас называть «ментальным
лексиконом», по моему убеждению, представляет собой сложную многоуровневую
структуру с многочисленными связями по вертикали и горизонтали, т.е. связями между
разными уровнями и в пределах одного и того же уровня. О том, какая информация и в
каком виде хранится на каждом из уровней, как она структурирована и как используется,
можно только гадать: практически никаких экспериментальных данных, позволяющих
судить об этом, не существует. Тем не менее, чтобы любая попытка исследования процессов
восприятия речи человеком была хоть сколько-нибудь успешной и полезной, т.е. приводила
к получению новых сведений о том, как происходит процесс обработки речевого сигнала в
этой системе, необходимо сформулировать начальные гипотетические представления о том,
что собой представляет система и, в частности, ментальный лексикон. Ниже я попытаюсь
изложить некоторые свои соображения на этот счет.
Прежде всего, я исхожу из предположения, что на всех уровнях лексикона его
единицами являются словоформы (Венцов, Касевич 1998), а, начиная с какого-то уровня,
также «составные» слова и, возможно, фразеологизмы.
Самый первый (нижний) уровень ментального лексикона предположительно содержит
только словоформы. Я предпочитаю называть его «перцептивным словарем». По всей
вероятности, единицы этого словаря должны описываться теми же «символами», что и
речевой сигнал на первых уровнях слуховой системы. Предположим, что это набор
субъективных (психологических) аллофонов, учитывающих в числе прочих правила
ассимиляции, конечного оглушения/озвончения и т.п. Нельзя при этом исключить, что
конкретные наборы таких единиц у разных носителей языка могут различаться. В пользу
последнего говорит то обстоятельство, что пациенты со слуховыми имплантами способны
обучиться пониманию речи, хотя спектрально-временные характеристики сигнала, с
которым им приходится иметь дело, существенно отличаются от наблюдаемых в
естественной речи (Harnsberger et al. 1999). При моделировании этой части лексикона и
системы в целом для описания словоформ, видимо, достаточно ограничиться символами
фонетической транскрипции (рис. 1).
Рис. 1. Гипотетическое описание элементов перцептивного словаря и их связей с
элементами следующего уровня.
В пользу именно такой структуры перцептивного словаря, возможно, говорят
результаты моделирования процесса членения на слова непрерывного речевого потока путем
сегментации через идентификацию: количество ошибок при этом не превышало 2% и никак
не использовалась информация о частотности словоформ (Kassevich, Ventsov, Yagounova
2000).
Как видно из рис.1, в этом разделе ментального лексикона разные по значению слова
будут представлены одинаковой «звуковой» реализацией (омофоном): Купала (имя
собственное) и купала (глагол в прошедшем времени или сослагательном наклонении),
попугай (птица) и попугай (глагол в повелительном наклонении) и т.д.
Обнаружение во входном речевом сигнале любого из таких омофонов немедленно
приводит к активации соответствующих элементов следующего уровня словаря, которые
снабжены описателями их грамматических характеристик и частотами встречаемости в
языке (а точнее, субъективными частотами для конкретного носителя языка). Не исключено,
что использование уже этого уровня может оказаться достаточным для успешного
«поверхностного» восприятия звучащего текста, когда понимание его смысла либо
невозможно, либо не обязательно и носитель языка правильно воспроизводит только
лексико-грамматическую структуру высказывания (Венцов, Касевич, Слепокурова 1993: 270;
Грудева 2007: 139).
Каким является «символьное» описание словарных единиц на этом уровне, с
уверенностью сказать невозможно. Не исключено, что для этого могли бы использоваться те
же субъективные аллофоны. Но с большой уверенностью можно говорить о том, что это не
графемы, поскольку способностью нормально воспринимать естественную речь в любой
форме обладают и не умеющие читать и писать носители языка. Вероятно, в ментальном
лексиконе грамотного носителя языка должен существовать специальный раздел, все
элементы которого описываются буквами алфавита соответствующего языка. Структура
такого раздела и система его связей с остальными частями лексикона должны стать
предметом специальных исследований и моделирования.
Отдельного обсуждения и изучения требуют принципы группировки словарных единиц
в пределах каждого из разделов (уровней) ментального лексикона. Одним из возможных
вариантов является принцип алфавитно-ритмической структуризации, при котором в одну
группу объединяются все словоформы, начинающиеся с одного аллофона (буквы) и
имеющие одинаковую ритмическую структуру (число слогов и позицию ударного гласного).
Со словарем именно такой структуры мы работаем при моделировании процессов
восприятия речи.
Если мы приняли, что на одном из уровней ментального лексикона его элементы
должны быть снабжены некими грамматическими описателями, обеспечивающими
«поверхностное»
восприятие,
то
следует
допустить
и
существование
каких-то
«семантических» описателей, позволяющих соотнести каждую словоформу с понятийным
полем (или полями), что должно обеспечить понимание смысла речевого сообщения.
Обратимся теперь к возможным способам использования ментального лексикона в
процессе восприятия речи, ограничившись пока самой первой ступенью этого процесса –
этапом преобразования акустического сигнала в последовательность словоформ, и покажем,
как могли бы использоваться ресурсы словаря для восстановления характерных для
спонтанной речи редуцированных форм.
На материале русского языка был проведен эксперимент по восприятию вне контекста
выделенных из записей спонтанной речи частотных словоформ (Бондарко и др. 1988). Число
правильно опознанных словоформ составило 54% от общей суммы ответов. В качестве
объяснения хорошей опознаваемости некоторых форм слов было высказано предположение
о наличии в сознании говорящих (в перцептивном словаре) редуцированных форм таких
слов как возможных вариантов реализации соответствующих полных форм.
Следует, однако, отметить, что частотными эти словоформы были в кодифицированном
варианте языка (речи), а для надежного закрепления (и присутствия) в перцептивном словаре
необходимо, чтобы частотными были сами редуцированные варианты этих словоформ. На
сегодняшний
день
отсутствуют
сколько-нибудь
систематизированные
сведения
о
частотности редуцированных форм в русской речи, а потребность в такого рода информации
становится
все
более
ощутимой,
особенно
применительно
к
исследованиям
и
моделированию процессов восприятия речи человеком.
Голландские исследователи пришли к выводу, что в ментальном лексиконе не могут
содержаться все возможные фонетические варианты каждой словоформы, поскольку
редуцированные словоформы плохо распознаются при изолированном предъявлении
(Ernestus, Baayen, Schreuder 2002). По их мнению, в перцептивном словаре хранятся некие
канонические формы, из которых в процессе восприятия речи выбираются варианты,
сопоставимые с редуцированными словоформами.
Об этом же говорят эксперименты на материале русской спонтанной речи, в которых,
кроме того, была обнаружена хорошая распознаваемость редуцированных форм при
предъявлении их в контексте (Венцов и др. 2007; Риехакайнен наст. сборник).
Попробуем на примере следующих фраз показать, как совместное использование
словаря и контекста могло бы обеспечить их правильное распознавание:
не может открыть фотографию
не может открыто прислать фотографию
Мелким шрифтом в приведенных отрезках фраз выделены те участки, которые
отсутствовали в анализируемом речевом сигнале. Однако их отсутствие не мешало
достаточно уверенной правильной идентификации обоих высказываний.
Допустим теперь, что в перцептивном словаре ведется поиск и запись в некий буфер
(когорту) всех словоформ, содержащих слогоподобные элементы в том же порядке, в каком
они встретились в речевом сигнале: «от», «кр» и «т». Поскольку в нашем распоряжении
пока нет словаря, в котором все словоформы были бы описаны в символах аллофонов,
можно воспользоваться частотным словарем словоформ в их графическом написании,
полученном
на
базе
Национального
корпуса
русского
литературного
языка
(http://www.narusco.ru/).
Эти словоформы, отсортированные в порядке убывания частоты их встречаемости в
драме как некоторой модели разговорной речи, приведены в Приложении 1. Всего в этом
списке оказалось 26 словоформ. Следующий уровень «фильтрации» задается значением
словосочетания «не может», которое ограничивает набор возможных частей речи в
продолжении высказывания: применительно к данному списку это – глагол в инфинитиве;
наречие; существительное (местоимение) в именительном падеже единственного числа в
качестве подлежащего или в любом падеже и числе в качестве дополнения; прилагательное.
Результатом такой фильтрации становится существенное сокращение объема выборки
(Приложение 2), а с учетом последующего контекста для каждой из этих фраз может быть
выбрано единственное решение.
Может возникнуть естественный вопрос, почему описанная выше процедура не дает
результата при восприятии изолированно предъявляемых редуцированных форм. По всей
вероятности, большое число подходящих словоформ и отсутствие критерия выбора лишают
носителя языка возможности принять лексическое решение и он старается передать
доступными ему символами лишь звуковую картину стимула.
Таким образом, использование в системе восприятия речи частотного словаря
словоформ дает возможность понять механизм восстановления редуцированных форм,
характерных для спонтанной речи. Более полно этот механизм мог бы быть описан, если бы
удалось сформулировать правила контекстного анализа подобного рода высказываний, для
начала – хотя бы на уровне грамматических правил.
Литература
Бондарко Л.В., Вербицкая Л.А., Гейльман Н.И. и др. Фонетика спонтанной речи / Под ред.
Н.Д. Светозаровой.– Л.: Изд-во Ленингр. ун-та, 1988.– 248 с.
Венцов А. В., Касевич В. Б., Слепокурова Н. А. Перцептивная сегментация звучащего текста
// Проблемы фонетики. I = Issues in phonetics / Отв. ред. Т. М. Николаева.– М.:
Прометей, 1993.– С. 242–273.
Венцов
А.В.,
Касевич
В.Б.
Словарь
для
модели
восприятия
речи
//
Вестник
С.-Петербургского ун-та.– 1998.– Сер. 2, вып. 3, N 16.– С. 37-39.
Венцов А.В, Риехакайнен Е.И., Слепокурова Н.А. Ментальный лексикон и восприятие
редуцированных
форм
//
Труды
первого
междисциплинарного
семинара
«Автоматический анализ разговорной речи» (АР3-2007).– СПб.: ГУАП, 2007.– С. 21-24.
Грудева Е.В. Избыточность и эллипсис в русском письменном тексте.– Череповец: ГОУ ВПО
ЧГУ, 2007.– 256 с.
Риехакайнен Е.И. Распознание редуцированных словоформ в процессе восприятия
спонтанной речи // Настоящий сборник
Русская разговорная речь: Фонетика. Морфология. Лексика. Жест / Отв. ред. Е.А. Земская.–
М.: Наука, 1983.
Ernestus М., Baayen H., Schreuder R. The Recognition of Reduced Word Forms // Brain and Language.– 2002.– V. 81.– P. 162-173.
Harnsberger J.D., Svirsky M.A., Kaiser A.R., Wright R., Pisoni D.B. “Vowel Spaces” of NormalHearing and Hearing-Impaired Listeners with Cochlear Implants // Research on Spoken Language Processing / Indiana University Progress Report.– 1999.– N 23.– P. 399-417.
Kassevich V.B., Ventsov A.V., Yagounova E.V. The simulation of continuous text perceptual segmentation: A model for automatic segmentation of written text // Language and Language
Behavior.– 2000.– V 3, P II.– P 48-59
Norris D., McQueen J. M., Cutler A. Merging information in speech recognition: Feedback is never
necessary // Behavioral and Brain Sciences.– 2000.– V. 23, N 3:– P. 299-370.
Warren R. M. Perceptual restorations of missing speech sounds // Science.– 1970.– N 167.– P. 392393.
Warren R. M., & Warren R. P. Auditory illusions and confusions // Scientific American.– 1970.–
N 223.– P. 30-36.
Приложение 1.
откры+ть
откры+то
откро+йте
открыва+ет
открыва+ть
откры+тым
откры+ты
откры+той
откры+тку
откры+тки
откры+та
откры+тие
откро+ется
откры+тка
открове+нничайте
открыва+ются
откре+щивайтесь
откры+тыми
откры+тые
откры+точки
откро+ет
откры+тое
откры+тками
откры+тия
откро+ются
откры+том
Драма
Беллетр.
Публ.
Научн.
Корпус
8
4
3
3
3
3
3
2
2
2
2
2
2
1
1
1
1
1
1
1
1
1
1
1
1
1
10
9
3
25
9
7
7
4
1
2
3
6
7
0
0
2
0
4
2
1
4
8
0
2
0
3
13
13
1
9
2
4
3
4
0
0
2
8
1
0
0
2
0
0
3
0
1
7
0
5
0
1
4
5
0
10
1
6
7
2
0
3
1
13
3
0
0
1
0
0
2
0
1
2
0
12
1
3
35
31
7
47
15
20
20
12
3
7
8
29
13
1
1
6
1
5
8
2
7
18
1
20
2
8
Приложение 2.
откры+ть
откры+то
открыва+ть
откры+тым
откры+той
откры+тку
откры+тки
откры+та
откры+тие
откры+тка
откры+тыми
откры+тые
откры+точки
откры+тое
откры+тками
откры+тия
Драма
Беллетр.
Публ.
Научн.
Корпус
8
4
3
3
2
2
2
2
2
1
1
1
1
1
1
1
10
9
9
7
4
1
2
3
6
0
4
2
1
8
0
2
13
13
2
4
4
0
0
2
8
0
0
3
0
7
0
5
4
5
1
6
2
0
3
1
13
0
0
2
0
2
0
12
35
31
15
20
12
3
7
8
29
1
5
8
2
18
1
20
Download