С.А. ШУМСКИЙ Физический институт им.П.Н. Лебедева РАН, Москва [email protected] МОЗГ И ЯЗЫК: ГИПОТЕЗА О СТРОЕНИИ «ОРГАНА ЯЗЫКА» Рассматривается вопрос, каким образом участок коры головного мозга, ответственный за речь («орган языка») способен запоминать и распознавать структуру и значение слов и предложений. Предлагается метод «глубокого обучения» иерархическим паттернам языка (сочетаниям букв, слов, фраз, предложений и т.д.) путем попеременного расширения и сжатия признакового пространства (участками коры и таламуса соответственно). Приводятся результаты обучения предложенной модели на большом массиве русскоязычных текстов. Ключевые слова: нейролингвистика, автоматическая обработка текстов Введение Как язык представлен в мозге? Ответ на этот вопрос требует более глубокого синтеза идей из лингвистики, нейрофизиологии и машинного обучения. В каждой из этих областей в последнее время наблюдается существенный прогресс [1]. В лингвистике происходит отход от трактовки языка, как формальной системы правил, к изучению реальных механизмов освоения языка [2]. «Орган языка» больше не воспринимается как специфический орган для символьных операций, присущий исключительно человеку. Скорее язык «поселился» в мозгу, используя именно его базовые способности распознавания повторяющихся временных паттернов [3]. В свою очередь, развитие функциональной томографии существенно продвинуло вперед весь комплекс наук о мозге. Растет популярность идеи о том, что кора головного мозга представляет собой однородную вычислительную среду. Задача – понять базовый принцип вычислений в этой среде, и использовать его для решения практических задач [4]. Вполне вероятно, что именно нейронные механизмы речи послужат ключом к пониманию работы мозга. Язык – своего рода «рентгенограмма мышления». Моделирование «органа языка», естественно, возможно лишь методами машинного обучения. Здесь значительное продвижение в сторону более реалистичных когнитивных моделей связано с недавно появившимися эффективными методами «глубокого обучения», подразумевающего выявление в потоках данных иерархии все более сложно устроенных признаков [5-6]. В данной работе мы попытались представить, как может выглядеть достаточно реалистичная нейросетевая модель «языкового органа», способная в единой манере самостоятельно выявлять в потоке символов иерархии языковых паттернов, как на уровне слов (морфология), так и на уровне предложений (синтаксис). В качестве бонуса мы получаем прототип «семантического процессора», способного индексировать смысловое содержание текстов. Естественно, лишь в той мере, в какой понимание смысла слов вообще возможно без доступа к сенсорной информации. Изложение построено следующим образом. Сначала мы обсуждаем основные идеи, на которых построена модель. Затем следует ее описание и представлены результаты ее обучения. В заключение мы обсуждаем возможные применения и перспективы данного подхода. Данные нейрофизиологии Ключевую роль в нашем рассмотрении играет теория Маунткасла о строении коры головного мозга [7]. Обобщая свои многолетние исследования, он утверждает, что, несмотря на разнообразие своих функций, все разделы коры головного мозга устроены, в принципе, одинаково. Это означает, что обучение и распознавание образов в коре происходит единообразно, а разнообразие ее функций есть следствие разнообразия сигналов, обрабатываемых разными участками коры. Согласно Маунткаслу, кора имеет двумерную ячеистую структуру. Базовым функциональным элементом коры является мини-колонка диаметром около 30 мкм, состоящая из примерно 100 нейронов. Такие мини-колонки связаны между собой положительными и отрицательными латеральными связями. Причем, последние включаются резко, но с неким запаздыванием относительно первых. В результате одновременно возбуждается целый пул соседних мини-колонок, невольно заставляя вспомнить самоорганизующиеся карты Т. Кохонена [8]. В итоге, повсюду в коре мы наблюдаем самоорганизующиеся карты признаков: детекторы схожих сигналов располагаются рядом друг с другом. Эксперименты свидетельствуют, что площадь элементарных детекторов на этих картах порядка 0.1 мм2, т.е. они содержат 102 миниколонок или 104 нейронов. Такие функциональные единицы Маунткасл называет макро-колонками. Именно они определяют «разрешающую способность» коры и предельное число признаков, которые может запомнить человек (всего несколько миллионов). Зато надежность этой памяти гарантируется большим числом нейронов, составляющих макроколонку. Так что мы сохраняем свою память на протяжении всей жизни даже при гибели существенной части нейронов. Таким образом, карты Кохонена являются, по-видимому, наиболее подходящим инструментом для моделирования работы коры. Надо только научить их работе с динамическими паттернами, с которыми только и работает мозг, т.к. его основная задача – предвидение. О том, как мозг работает с временными паттернами, лучше других знают лингвисты. Данные лингвистики Чтобы ребенок мог усвоить язык быстро и с минимальными усилиями, структура языка должна соответствовать алгоритму обучения коры, где расположен «орган языка». Однако, притом что у всех детей мозг изначально одинаков, на Земле имеется как минимум 6000 различных языков. Быть может, все языки в чем-то существенном очень похожи друг на друга? Действительно, по словам самого известного из современных лингвистов Н. Хомского «Все люди говорят на одном языке» [9]. Все языковые конструкции построены по принципу двоичных деревьев. Вспомним схемы разбора предложений: слова группируются в иерархические структуры путем последовательного слияния веток слева или справа [10]. По-видимому, операция выявления в потоке сигналов повторяющихся пар признаков и их последовательное объединение во все более крупные единицы и есть та базовая операция коры головного мозга, под которую и подстраивается структура любого языка, чтобы уже двухлетний ребенок легко мог усваивать языковые паттерны. Мы воспользуемся этим наблюдением при построении нашей модели. Гипотеза о строении «органа языка» Как должна быть устроена кора, чтобы она отображала временные последовательности в бинарные деревья? Логически связи в ней должны формировать иерархию, где каждый элемент следующего слоя получает на вход не только очередной входной сигнал, но и отклик всех нижележащих слоев на предысторию временного ряда. Физически это может быть организовано на одной карте в парадигме рекурсивных самоорганизующихся карт [11]. При обучении такая сеть сначала запоминает наиболее частые парные комбинации сигналов (например, букв), затем – характерные трех- и четырехбуквенные сочетания. И так далее, вплоть до самых крупных морфем. Обученная сеть кодирует поступающие на ее вход слова ансамблем возбуждений, представляющих все его составные части – префиксы, корни, суффиксы и окончания. Наша первая гипотеза состоит в том, что обработка временных рядов в коре осуществляется подобными модулями, распознающими типовые временные паттерны, каждый в своем входном потоке. Например, участок коры, ответственный за морфологический анализ слов, распознает порядка 105 слов и составляющих их морфем и слогов. Другой участок коры, определяющий структуру предложений, работает таким же образом, только с другим первичным алфавитом, каждый символ которого кодирует уже не букву, а целое слово. Этот участок запоминает характерные паттерны комбинирования слов в грамматически правильные фразы. Следующий модуль связывает друг с другом фразы в предложения, и так далее. Остается открытым вопрос, каким образом можно сопрягать работу таких корковых модулей. Как преобразовать многомерный отклик предыдущего модуля в компактный алфавит для следующего? Очевидно, необходимо пропустить многомерный сигнал через какое-то «узкое горло». Какая структура в мозге может осуществлять подобное сжатие? Возможно, что такой структурой является таламус, располагающийся в «фокальном центре» коры. Каждая область коры имеет свое представительство в таламусе. С другой стороны, поверхность таламуса на два порядка меньше поверхности коры. Следовательно, многомерное состояние каждого коркового модуля будет представлено в таламусе компактным малоразмерным сигналом. Итак, согласно нашей второй гипотезе, входом для следующего коркового модуля, ответственного за анализ временных структур более высокого порядка, служит сжатый таламусом выходной сигнал от предыдущего модуля. Последовательная цепочка корковых и таламических модулей (T1-G1-T2-G2-T3-G3… на Рис. 1) способна распознавать в потоке речи разномасштабные языковые штампы (грамматические конструкции). Смысловые значения элементов речи задаются статистикой употребления распознанных паттернов в их грамматических контекстах. Эту статистику должны накапливать и обобщать семантические карты, формирующие иерархию смысловых значений все более сложных понятий (S1-S2-S3… на Рис. 1). В итоге, согласно нашей третьей гипотезе, в «органе языка» существуют два взаимосвязанных канала «глубокого обучения»: грамматический и семантический. Аналогично дорсальному (анализ сцен) и вентральному (распознавание объектов) каналам анализа зрительной информации. Рис. 1. Архитектура модели «органа языка». Таламус подает в кору временные цепочки символов из малоразмерных алфавитов (T1, T2, T3, …). Грамматические модули (G1, G2, G3, …) распознают паттерны характерных сочетаний символов. Смысловые значения этих паттернов выявляются иерархией семантических модулей (S1, S2, S3, …). Моделирование «органа языка» Для проверки нашей гипотезы был создан программный комплекс «семантический процессор Голем», способный выявлять иерархии языковых паттернов при обучении на больших текстовых массивах. По всей видимости, реалистичные модели «органа языка» будут сопоставимы по сложности с моделями зрительного восприятия [12]. Здесь мы приведем результаты обучения минимальной содержательной модели, содержащей три самоорганизующихся корковые карты: морфологическую, синтаксическую и семантическую (T1-G1-T2-G2-S1 на Рис. 1). Обучение проводилось на текстовом массиве объемом 6 ГБ, состоящем из материалов русскоязычных интернет-СМИ. Чтобы приблизить условия эксперимента к обучению устной речи ребенком, все слова приводились к строчным буквам. Объем обучающей выборки примерно соответствует языковому опыту 20-летнего человека (при восприятии ~105 слов в день). Обучение заняло около двух месяцев работы современного ПК. 1. Морфологический модуль (T1-G1) отвечает за кодирование и распознавание слов. По мере обучения он поэтапно запоминает типовые слоги и их последовательности, из которых складываются слова данного языка. Морфологический состав слов используется для последующего анализа в синтаксическом и семантическом модулях. 2. Синтаксический модуль (T2-G2) запоминает и распознает в текстах типовые комбинации слов (синтагмы). В реальности запоминаются комбинации не слов, а их наиболее характерных признаков, выявляемых при обучении сжимающей самоорганизующейся карты (T2). Количество таких признаков (размер «синтаксического алфавита») должно быть порядка числа букв в обычном алфавите, т.е. 30. Тогда число базовых типов словосочетаний из трех слов (субъект, объект, предикат) будет 3104, и ребенок сможет набрать значимую статистику (103 примеров по каждому из этих типов) примерно за год обучения языку, что мы и наблюдаем при «языковом прорыве» в возрасте около 2 лет. Рис. 2 иллюстрирует, как обученный Голем разбирает структуру предложений. Рис. 2. Разбор предложений синтаксическим модулем Голема Интересно, что для разбора предложений нам не понадобились ни грамматические правила, ни определение частей речи, падежей, склонений, спряжений, времен и т.д. Вся необходимая информация о слове задается отнесением его к той или иной «букве синтаксического алфавита», а структура фразы определяется путем конкуренции между собой ~104 синтагм (языковых штампов). 3. Семантическая карта (S1) имеет своими входами непосредственно морфологическую и синтаксическую карты, минуя таламус (Рис. 1). Ее задача – не анализ грамматической структуры речи, а понимание значений ее отдельных элементов, зависящих от характера их употребления. Семантическая и синтаксическая карты по-разному используют результаты морфологического анализа. Например, в русском языке слова «зацепляются» друг с другом своими окончаниями, а их значения определяются основами. Значения двух слов совпадают, если они употребляются одинаково (могут заменять друг друга в синтагмах). Соответственно, семантическая карта русского языка будет обобщать, в основном, статистику взаимного употребления основ (из морфологической карты) в синтагмах (из синтаксической карты). Приведенная ниже таблица иллюстрирует содержание нескольких из 4000 ячеек такой семантической карты. алексей олег александра николай валерий игорь евгений татьяна иванов васильев орлов алексеев андреев николаев александров жуков грузия армения турция украина эстония белоруссия узбекистан азербайджан париж москва лондон петербург город берлин нью йорк вылетают отправляются приезжают вышли прилетели посетили выехали уехали заявил рассказал говорит заявляет говорил подтвердил напомнил рассказал Видно, что Голем довольно уверенно распознает имена, фамилии, города, страны и прочие понятия. Поскольку он также понимает и то, какие понятия в данном предложении соотносятся с какими, можно сказать, что Голем способен достаточно адекватно распознавать и индексировать смысловое содержание предложений. Таким образом, даже в своем минимальном варианте семантический процессор можно использовать для автоматического анализа больших массивов текстовой информации – выявления и индексации различного рода фактов. Например: поездки и встречи публичных персон, кадровые перестановки, параметры сделок между собственниками и компаниями. Ключевой поиск плохо подходит для таких задач, т.к. один и тот же факт можно представить слишком большим числом способов. Семантическая индексация во многом облегчает задачу. Заключение На пути к пониманию основных механизмов мышления (обратному конструированию мозга) реконструкция «органа языка» является, возможно, важнейшим этапом. Ведь мозг специализируется на распознавании временных паттернов, а язык представляет собой наиболее изученные типы временных паттернов. Чтобы приблизиться к этой цели, мы попытались понять, какие операции необходимы для анализа речи, и какие нейронные механизмы могут реализовать эти операции. Создана минимальная действующая модель «языкового органа». Практическая применимость полученных результатов является дополнительным стимулом к дальнейшей работе в этом направлении. Возможно, что в недалеком будущем графические процессоры персональных компьютеров будут продаваться под видом семантических процессоров, а в социальных сетях станет модным накачка своих аватаров знаниями и взаимовыгодные «обмены разумами». Список литературы Черниговская Т.В. Мозг и язык: полтора века исследований // В: Теоретические проблемы языкознания. К 140-летию кафедры общего языкознания. СПб. 2004. С. 16-34 2. Tomasello M. Constructing a Language: A Usage-Based Theory of Language Acquisition. Harward University Press. 2004. 3. Deacon T.W. The Symbolic Species: The Co-Evolution of Language and the Brain. N.Y.: Norton. 1997. 4. Hawkins J., Blakeslee S. On intelligence. Times Books, Henry Holt and Co. 2005. (Русский перевод: Хокинс Дж., Блейксли С. Об интеллекте. Вильямс. 2007.) 5. Salakhutdinov R., Hinton G. An Efficient Learning Procedure for Deep Boltzmann Machines. Technical Report MIT-CSAIL-TR-2010-037, MIT. 2010 6. Dileep G. How the Brain Might Work: a Hierarchical Temporal Model for Learning and Recognition. Ph.D. Thesis. Stanford University. 2008. 7. Mountcastle V. The columnar organization of neocortex // Brain. 1997. V. 120. P. 701–722 8. Kohonen T. Self-Organizing Maps. Springer Verlag. 2001. 9. Бейкер М. Атомы языка. Грамматика в темном поле сознания. ЛКИ. 2008. 10. Hauser M., Chomsky N., Fitch W. The Faculty of Language: What Is It, Who Has It, and How Did It Evolve // Science. 2002. V. 298. P.1569-1579 11. Voegtlin T. Recursive Self-Organizing Maps // Neural Networks. 2002. V. 15 No 8-9. P. 979-992 12. Gorder P. Computer Vision, Inspired by the Human Brain // Computing in Science & Engineering. 2008. Mar/Apr, P. 6-11 1.