Язык и мозг: индексация смыслов Может ли компьютер выучить язык? Шумский Сергей Александрович [email protected] Почему это важно Science, 2011 1024 Память компьютеров 1026 1024 1022 1022 Знания людей 1020 1018 1020 1018 Все Знания уже оцифрованы но компьютеры их не понимают 1016 1016 1014 1014 1012 1012 1980 1990 2000 2010 2020 2030 2040 2050 Почему это важно сейчас 1024 Производительность компьютеров 1024 1022 Разум 22 людей 10 1020 1020 GPU 1018 1018 1016 Компьютерный ресурс уже нельзя игнорировать CPU 1014 1016 1014 1012 1012 1980 1990 2000 2010 2020 2030 2040 2050 Ключевая технология Обучить компьютеры языку Индексация текстов 101 102 103 Индексация смыслов 104 Мама мыла раму мылом Текст Кто Что Чем Мама мыла раму мылом Семантический процессор Смысл Требуется Понимание значений Кто: Сергей ~ Андрей ~ Геннадий Когда: вчера ~ на днях ~ 18 апреля Что сделал: сказал ~ сообщил ~ доложил Понимание отношений Собака лает караван идет Задача Построить модель «языкового органа» Зная, как устроен продукт этого органа Опираясь на принципы работы мозга S AuxP NP N Aux VP V PP P NP N План Как устроен язык Структура данных в мозге Как устроена кора мозга Алгоритм обработки данных Как мозг понимает язык Архитектура органа языка Моделирование органа языка Учим компьютер языку Как устроен язык Рекурсивная природа языка Разбор предложений: рекурсия бинарных слияний S AuxP NP N S Aux VP V Джон N VP PP P John AuxP NP PP NP NP N N is in love with Mary влюблен в Мэри John-ga Mary Джон Мэри Aux V P to renaisite iru в влюблен есть Как устроена кора мозга Мыслящая поверхность Мыслящая поверхность Интеллект сосредоточен в коре мозга У человека ~ 4/5 объема мозга Кора относительно проста Однородная ткань ~ 3 мм 50 50 см2 Единый алгоритм Распознать ситуацию Выработать ответ Ваша кора слушает это Клеточная теория коры Кора: однородная слоисто-ячеистая 6 слоев у всех млекопитающих Мини-колонки (ячейки) D ~ 30 мкм ~100 клеток Общее происхождение Макро-Колонки D ~ 300 мкм ~100 мини-колонок Возбуждаются одновременно «Разрешающая способность» мозга ~ 106 признаков “The columnar organization of neocortex” Mountcastle, 1997 Модель коры: самоорганизующиеся карты Каждая ячейка распознает «свой» входной сигнал Активирует ближние, подавляет дальние Подкрепляет свою «память» ~ 0.3 мм Победитель забирает все Модель коры: самоорганизующиеся карты Каждая ячейка распознает «свой» входной сигнал Распространяет активность на соседей и далее Подкрепляет свою «память» ~ 0.3 мм Kohonen, 1981 Формальный нейрон ~ 104 биологических нейронов Иерархия признаков Лурия, Поляков, 1962 102 бит/c 106 1/104÷105 Понятия Сущности 106 1/102÷103 Сложные признаки 1/10 105 Базовые признаки 106 бит/c Первичные, вторичные, третичные области коры Иерархия корковых зон Базовые действия А.Р. Лурия, 1962 Сложные действия Планирование действий Принятие решений Базовые признаки Синтетические понятия Сложные признаки Результат обучения: зрительная кора 1 mm Кора – «тату» из ~ 106 специализированных детекторов Результат обучения: сенсорная/моторная кора Кора – «тату» из ~ 106 специализированных детекторов Как устроен «орган языка»? Как кора организует рекурсивные вычисления? Источник рекурсии – таламус (?) Кора -ритм ~ 20 Гц Таламус 1:1000 Карты корреляций Пара-победитель «забирает все» Карты корреляций Пара-победитель «закорачивает» путь повторного сигнала Повторный сигнал Рекурсивные карты корреляций Джон был влюблен в Мэри Код динамического паттерна -ритм Таламуса (~20 Гц) Модель «органа языка» Смыслы слов Кора Структура слов Структура предложений Части речи Алфавит Таламус 1:1000 Моделирование «органа языка» Машинное обучение языку Текст Семантический процессор Смысл Семантический процессор Голем Из коллекции текстов любого языка Автоматически выявляет иерархию языковых паттернов (штампов) Типичные сочетания Букв/фонем: морфология Окончаний: синтаксис Оснований: семантика Морфологический модуль Смыслы слов Кора Структура слов Структура предложений Части речи Алфавит Таламус Морфология Обучение Сочетания букв Результат Разбор слов Словоформы Морфологическая кора Синтаксический модуль Смыслы слов Кора Структура слов Структура предложений Части речи Алфавит Таламус Синтаксис Обучение Сочетания окончаний Результат Разбор предложений Семантический модуль Смыслы слов Кора Структура слов Структура предложений Части речи Алфавит Таламус Семантика Обучение Сочетания оснований Результат Распознавание понятий (классы эквивалентности): Кто, Где, Когда, Сколько, … баллистическая зенитная сергей процентов крылатая александр километров дэвид windows межконтинентальная андрей килограмм майкл dvd противотанковая юрий миль вера player твердотопливная николай нанометров марк internet … вышла олег баксов давид flash тысяч (33) приехал … … федор twitter метров вышел (298) (12) … грамм приезжает (1799) квт вылетает килограмм уехал миллиметров … ван … (89) браун (31) титов шевченко сказал семенов отметил павлов подчеркнул … добавил (4341) белоруссия грузия напомнил столица армения турция уточнил москва венесуэла азербайджан … сочи туркменистан узбекистан (19) париж сирия абхазия пекин нкр индия астана … … … (69) (40) (428) Семантическая карта Как это использовать? Машинная обработка знаний Семантический поисковик Шерлок Иван смотрел, как Федор Петр Митяй Ваня … (1200) видел наблюдал что заметил убедился … (2) (120) машина ехала по Форд Мерседес вездеход Лада … (1370) мчался скользил двигался плелась … (110) дороге шоссе автобану тракту проселку … (340) 1 прототип: 1200 × 120 × 2 × 1370 × 110 × 340 = 1013 вариантов Шерлок: Интерактивное досье Интерактивное досье Next Big Thing Бит/с за $1000 1014 1012 Роботы Поиск мультимедиа Умные поисковики 1010 108 Сжатие видео 106 Мультимедиа коммуникации 104 1980 Искусственный Интеллект 1990 2000 2010 2020 2030 2040