Нейросемантические структуры как инструментарий для построения Баз Знаний Бодякин В.И. Институт проблем управления им. В.А. Трапезникова РАН, Москва , E-mail: [email protected] http://www.informograd.narod.ru , служ.тел.:334-92-39 1 Схема формирования БЗ по инноватике Экспертыаналитики Программист База знаний Предметная область Интернет Документы, обзоры, аналитика, ответы на запросы, … ≈ 1012-14 байт/сутки СМИ ≈ 1012 б/с НТП ≈ 108 б/с Специальность ≈ 103-4 б/сутки Интеллектуальный инструментарий по формированию и пополнению БЗ Пользователь КПД < 2% Ассоциация пользователей НСС Номера слоев Предметная область 6 N-элементы 5 Связи 4 Алгоритм НСС 1100101010100110100 Текстовая форма 3 2 1 0 "0" "1" Семантика, тексты ПО, содержание процессов 1 2 3 4 5 6 Номера элементов в слоях При моделировании предметных областей (ПО) специализированными нейросетями (НСС) было обнаружено явление автокластеризации. Которое выражалось в том, что при минимизации ресурсов нейросети, затрачиваемых на отображение реальных предметных областей, структура нейросети приобретала топологическую гомоморфность причинно-следственной структуре физических процессов произвольной ПО. Нейросемантическая форма (НСС) представления информации Предметная область Процесс А Номера слоев N-элемент (3,2) Образ А НСС 6 N-элементы 5 Связи 4 3 2 Алгоритм НСС 01100101011011011010001101101001 1 0 "0" "1" Семантика, тексты ПО, содержание процессов 1 2 3 4 5 6 Номера элементов в слоях ТФ описания процесса А При минимизации затрат (памяти) НСС получаем: процесс предметной области N-элементу (образу), при этом, структура образов НСС гомоморфна структуре процессов ПО ! Автоструктуризация на нейросемантических структурах Lim RИС = f(число N-элементов, число связей) в битах 0 при t TФИС = объем текстовой информации в ИС в битах или RИС / TФИС 0 при t и RИС < const при t Т Примеры: а) <RISMAKDUBLENLENDUBMAKMAKLENRISRISLENMAKRISDUBRIS> правильно выделяются все процессы: <MAK><RIS><MAK><DUB>; б)<ДОМЗЕБРЫСКИТНАДОМДОМВДОМВСКИТВНАСКИТВВЗЕБРЫНАВНА>, - выделяются все процессы:<ЗЕБРЫ><СКИТ><ДОМ><НА><В>. сдвиг алфавита А в кодах ASCII в примере б) <ЕПНИЖВСЬТЛЙУОБЕПНЕПНГОБЕПНГТЛЙУГОБТЛЙУГЖВСЬОБГОБ> на +1 <?IGB@<KVLECMH;?IG?IG=H;?IG=LECM =H;LECM==B<KVH;=H;{> на -133 5 НСС – это пример формального преобразования количественной текстовой формы представления информации в качественно новую форму 1— Автоструктуризация "с учителем" – "школа" "без учителя" "игра" 0 log (tn) (в битах) Критерии достаточности ТФ: а) все пространство состояний процессов ПО; б) если человек может правильно структурировать данную ТФ в непривычной, но взаимнооднозначной нотации, в) наличие характерных особенностей динамического процесса при минимизации ресурса RИС Min ТФ = 2N-1, где N – число процессов ПО. 6 Расширив свойства формального нейрона введением в него относительности времени активации входов, получим нейроподобный N-элемент. U*(t) Выход U(t+1)= U(t)/a t U*(t) = U(t) / Umax Параметры ИС U(t) Набор функционалов сходства Fi x1 t0 Xi+1 = f(U*,Xi) x2 dt2 x3 dt3 * ** * * * * ... Входы Umax ** Входящие N-элементы xk dtk ... Пространство образов Х U(t)= Fi(P1*X1(t0) P2*X2T2*(t2- t0) … Pk*XkTk*(tk- t0)) 1 F1-20(P,T) = 1 1 1 … 0 1 k 0 1 k 0 1 k 0 1 k 7 Объединенные N-элементы в НСС представляют многодольный иерархический граф k слоя 5 № слоя ... 2 … ... ... ... ... ДП 5 1 ... ... 1 2 ... ... Резерв . . . КП ... ... ... ... ... ... ... ... Номер N-элемента Межслойные связи N-элементов формируются входящей информаций. Процесс заполнения связями (памяти) НСС идет слева направо и снизу вверх (долговременная память, кратковременная память и резерв). В слое N-элементы независимы – максимальная распараллеливаемость. Время распознавания НСС монотонно 1 обобщ.такту, по мере работы. Классическая (файловая, ТФ) и нейросемантическая парадигмы автоматизации информационных процессов База знаний Алгоритм if<> then<> if<> …then<> if<> then<> Пользователь Аналитик, программист Алгоритм БД Предметная область Форма НСС АЦП- 01011011011010001101101001010 1101001101101000110110100101101 000101011011001000110110100101101 ЦАП 01100101011001101000110110100101010 Текстовая форма "0" "1" Алгоритм НCC Основные свойства НСС k Номера входов слоев Нейросемантическая форма (НСС) представления информации гомоморфна причинно-следственной 2 6 3 5 3 4 2 3 2 2 взаимосвязи процессов ПО. 2 1 Каждый N-элемент имеет свое имя (номер слоя, номер в слое). 1 0 N-элементы структуре процессов ПО. Связи - связи НСС отражают порядок "а" "в" "с" 1 2 3 4 5 6 Номера элементов в слоях …авасасвсавасв Текстовая форма - N-элемент (образ) НСС процесс ПО, (информ. модель ПО или ее онтология). Топология НСС дает: - всю статистику процессов ПО; - поле текстовой энтропии; - целостность и аналитичность; -… т.е. НСС гораздо информативнее ТФ. Дополнительные свойства НСС - ассоциативность (через N-эл. пред. слоя) - прогностичность (прич.-след. связи) - иерархичность (вверх-вниз) - локальная интеграция и анализ - полный образный анализ ПО - однотипность (множество слоя) - кратковременная и долговрем. памяти - максимальная распараллеливаемость - открытость и наращиваемость "а" "в" "с" - гипертекстовость (навигация по N-эл.) - произвольность ПО - демонстрация абстракций, творчества … -… Дополнительные свойства НСС - ассоциативность (через N-эл. пред. слоя) - прогностичность (прич.-след. связи) - иерархичность (вверх-вниз) - локальная интеграция и анализ - полный образный анализ ПО - однотипность (множество слоя) - кратковременная и долговрем. памяти - максимальная распараллеливаемость - открытость и наращиваемость "а" "в" "с" - гипертекстовость (навигация по N-эл.) - произвольность ПО - демонстрация абстракций, творчества … -… Дополнительные свойства НСС - ассоциативность (через N-эл. пред. слоя) - прогностичность (прич.-след. связи) - иерархичность (вверх-вниз) - локальная интеграция и анализ - полный образный анализ ПО - однотипность (множество слоя) - кратковременная и долговрем. памяти - максимальная распараллеливаемость - открытость и наращиваемость "а" "в" "с" - гипертекстовость (навигация по N-эл.) - произвольность ПО - демонстрация абстракций, творчества … -… Характеристики ассоциативной памяти на базе НСС: - время доступа, - коэффициент компрессии-сжатия, - надежность хранения информации и др.) имеют тенденцию к улучшению, как в среднем, так и в абсолютных значениях, по мере роста объема вводимой информации из ПО. Коэффициент сжатия Р раз 1 Время Надеждоступа ность ИС T сек. Q % q элемента Q T P 1 0 log (tn) (в битах) ВИД ИСХОДНОЙ ТФ (1000 символов) на которой будет построена НСС А.С.Иванов ст.инж., оклад 8500 руб.; М.А.Сидорян мнс, оклад 5505 руб.; С.С.Петровичев ст.инж., отдел 17, 850 руб.; М.А.Иванидзе холост, ст.инж., оклад, 8500 руб.; М.А.Сидорян женат, двое детей. ст.инж., оклад 7200 руб.; Д.А.Иваншвили инженер, оклад 4055 руб.; М.М.Петров, оклад 6050 руб. ст.инж.; И.И.Петров, оклад 9050 руб., вед.инж.; С.С.Иванян оклад 8550 руб., инженер; М.К.Сидоров, инженер, оклад 5000 руб.; Ф.А.Иваненко, оклад 4700 руб. холост; А.С.Иванов ст.инж., оклад 8500 руб., холост; И.Д.Петрян, оклад 9000 руб. вед.инж.; В.А.Ивановский вед.инж., оклад 9500 руб.; А.В.Ивановский женат, четверо детей. оклад 7600 руб.; Ф.Ф.Петров мнс, оклад 5650 руб.; А.А.Иванов, оклад 6500 руб. вед.инж.; И.И.Иванский зав.отделом, оклад 7440 руб.; М.К.Сидоров, оклад 8020 руб. ст.инж.; А.Д.Иваншвили ст.инж., оклад 8500 руб.; С.С.Иванян ст.инж., оклад 8500 руб.; М.М.Иванидзе ст.инж., оклад 4000 руб.; А.М.Иваншвили вед.инж., оклад 5605 руб.; М.А.Петров, оклад 9000 руб. вед.инж.; А.А.Иванов вед.инж., уволен 05.05.05.; Вид ТФ в другой нотации (ASCII-1) -Р-ЗбЯмнбрс-зме-+нйкЯг7/4/пта-:Л-ї-ЗбЯмзгждфнкнрс+рс-зме+нйкЯг7///пта-:Р-Р-Одспнбзцдб рс-зме-+нсгдк06+нйкЯг74//пта:Л-ї-Рзгнпюмлмр+нйкЯг44//пта-:Л-ї-Одспюм едмЯс+гбндгдсдирс-зме-+нйкЯг6/5/пта-:ї-Р-ЗбЯмчбзкззмедмдп+нйкЯг3/3/пта-:Лї-Одспнб+ нйкЯг7/4/пта-рс-зме-:ї-Г-Одспюм бдг-зме+нйкЯг8///пта-:Р-Р-ЗбЯмюмзмедмдп+нйкЯг74//пта-:Л-ЙРзгнпнб+ нйкЯг4/4/пта-змедмдп:Л-Й-ЗбЯмдмйн+нйкЯг3/2/птафнкнрс:З-З-Одспнб+нйкЯг8/2/пта-бдг-зме-:З-З-ЗбЯмнбрйзибдгзме-+ нйкЯг804/пта-:ї-Р-РзгнпнбрйзиедмЯс+спндгдсдинйкЯг80//пта-:ї-Р-Одспдмйн лмр+нйкЯг4///пта-:ї-їЗбЯмзгжд+нйкЯг84//пта-зме-:З-З-РзгнпрйзижЯбнсгдкнл+ нйкЯг64//пта-:Л-Й-Рзгнпнб+нйкЯг7/6/пта-рс-зме-:Р-РРзгнпцтй+ нйкЯг746/пта-рс-зме-:ї-Г-ЗбЯмчбзкзрс-зме+нйкЯг74//пта-:Л-Й-Рзгнпюм+ нйкЯг474/пта-рс-зме-:Л-ЛЗбЯмзгждрс-зме-+нйкЯг57//пта-:З-З-Рзгнпчбзкзбдг-зме+нйкЯг88//пта-:Л-ї-Двнпнб нйкЯг8/8/пта-бдг-зме-:ї-ї-ЗбЯмнб бдгзме-+тбнкдм/4-/4-/4-:я Автоматически сформированный гиперграф NSS структуры N-элементов === Max compress = 1.70 (!!!) === NN kb L_N w buf inf_sod cods - sloi=1 slovar=82 12345678910 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 - … 6 4 8 8 8 8 7 7 6 6 6 6 6 6 2 5 5 5 5 5 5 4 4 4 4 4 3 3 3 6 4 8 8 8 8 7 7 6 6 6 6 6 6 2 5 5 5 5 5 5 4 4 4 4 4 3 3 3 22 24 10 7 3 2 5 3 3 3 2 2 2 2 31 7 3 3 2 2 2 5 4 2 2 2 3 3 2 256 175 172 166 158 156 144 140 122 122 120 120 120 120 111 101 93 93 91 91 91 81 79 75 75 75 54 54 52 <оклад > < руб> < ст.инж.> <вед.инж.> <А.Иванов> <холост;/> <.Петров> <инженер> <А.Иван> <Иванов> <Иванян> <К.Сидо> <швили > <детей.> <, > <.;/М.> <.;/А.> <ский > <.;/Ф.> <Сидор> <женат> <8500> <Иван> <отде> <идзе> <А.С.> <05.> <С.С> <ров> NN kb L_N w buf inf_sod cods - sloi=2 slovar=63 12345678910 11 12 13 14 - … 7 34 2 238 <А.С.Иванов ст.инж., оклад 8500 руб> 26 10 3 15 8 20 2 228 <9000 руб. вед.инж.;/> 74 31 80 2 34 4 70 71 2 8 18 108 <, оклад > 15 1 2 9 6 97 < руб.;/М.> 2 16 3 10 2 88 < ст.инж.;/> 3 70 71 7 24 1 70 <И.И.Иванский зав.отделом> 33 33 23 18 47 24 5 2 9 2 69 <К.Сидоров> 12 29 2 9 2 69 <, инженер> 15 8 2 6 5 64 <00 руб> 31 2 2 5 4 61 < руб.> 2 69 2 7 2 59 <А.Сидор> 32 20 2 <.;/> 35 71slovar=35 NN 3kb 3L_N 41 w buf inf_sod cods - sloi=3 2 4 2 40 <С.С.> 69 1 - 3 63 1 12 <А.С.Иванов28 ст.инж., оклад 8500 руб., холост;/И.Д. 2 3 2 39 <000> оклад > 31 1 8021 3 2 3 4 5 6 7 - 3 3 3 3 3 3 51 46 40 44 33 33 1 1 1 1 1 1 12 11 11 11 11 11 <9000 руб. вед.инж.;/В.А.Ивановский вед.инж., ок <А.С.Иванов ст.инж., оклад 8500 руб.;/М.А.Сидор> <отдел 17, 850 руб.;/М.А.Иванидзе холост,> 3 <А.Сидорян женат, двое детей. ст.инж., оклад > <Д.А.Иваншвили инженер, оклад 4055> 26 3 4 <9500 руб.;/А.В.Ивановский женат, > 58 9 2 8 - NN 3 46 1 11 детей. оклад 7600 руб.;/Ф.Ф.Петров мнс> kb L_N w buf<четверо inf_sod cods - sloi=4 slovar=12 … 1 - 3 114 1 12 <отдел 17, 850 руб.;/М.А.Иванидзе холост, ст.инж., ок руб.;/М.А.Сидорян женат, двое детей. ст.инж., ок 2 - 3 111 1 12 <000 руб.;/Ф.А.Иваненко, оклад 4700 руб. холост;/А.С. … 8500 руб., холост;/И.Д.Петрян, оклад > 18 28 … NN kb L_N w buf inf_sod cods - sloi=7 slovar=1 1 - 2 1014 1 11 < …> 2 1 оклад Иван швили оклит Max_sloi=2 Max_sloi=1 Max_sloi=1 Max_sloi=3 Max_sloi=4 Файл запроса в НСС Динамика реакции НСС на запрос =========== Номер запроса=1 Запрос = 'оклад' j_max=49 UT= 1 T_astr=1 запрос = <о> j_max=68 UT= 50 T_astr=2 запрос = <ок> j_max= 4 UT= 36 T_astr=3 запрос = <окл> j_max= 2 UT= 53 T_astr=4 запрос = <окла> j_max= 9 UT= 1 T_astr=5 запрос = <оклад> => => => => => реакция = <енко, > реакция = <к> реакция = <оклад> реакция = <оклад > реакция = <6500 руб. вед.инж.; => => => => реакция = <И.Д.Петрян> реакция = <во> реакция = <Иван> реакция = <А.С.Иванов> => => => => реакция = <швили> реакция = <во> реакция = <швили> реакция = < 4000 руб.; => => => => => реакция = <енко, > реакция = <к> реакция = <оклад> реакция = <оклад> реакция = <оклад> И.И.Иванский зав.отделом, оклад 7440 руб.;> Max_sloi=2 Max_sloi=1 Max_sloi=1 Max_sloi=3 Max_sloi=1 Max_sloi=1 Max_sloi=1 Max_sloi=3 =========== Номер запроса=2 Запрос = 'Иван' j_max=41 UT= 1 T_astr=1 запрос = <И> j_max=43 UT= 50 T_astr=2 запрос = <Ив> j_max= 6 UT= 56 T_astr=3 запрос = <Ива> j_max=26 UT= 36 T_astr=4 запрос = <Иван> =========== Номер запроса=3 Запрос = 'швили' j_max=12 UT= 4 T_astr=1 запрос = <ш> j_max=43 UT= 50 T_astr=2 запрос = <шв> j_max=12 UT= 36 T_astr=3 запрос = <шви> j_max=10 UT= 1 T_astr=5 запрос = <швили> М.А.Иваншвили вед.инж., оклад 56> Max_sloi=2 Max_sloi=1 Max_sloi=1 Max_sloi=1 Max_sloi=1 =========== Номер запроса=4 Запрос = 'оклит' j_max=49 UT= 1 T_astr=1 запрос = <о> j_max=68 UT= 50 T_astr=2 запрос = <ок> j_max= 4 UT= 36 T_astr=3 запрос = <окл> j_max= 4 UT= 48 T_astr=4 запрос = <окли> j_max= 4 UT= 60 T_astr=5 запрос = <оклит> Информация – f(ПО(S)) причинно-связанная <X, Y, E+> последовательность образов. (деятельностная единица ИС) ПО причинно-связанное E+объединение в НССn образов о ПО с образами о состоянии ИС. (семантические закономерности) Е+ Х Знание – f(ПО(S), ИС(S)) ИС НСС2 Y НСС3 ... НСС ПО Знаниеi – f(ПО(S), ИС(S)1 ,… ИС(S)i-1) Пример категории знание - "логические высказывания". В текстовой форме они обязательно содержат ритмические п о в т о р е н и я ! |ВСЕ| |ВОЛК|И| |СЕР|Ы||А||ЕСТЬ| |ВОЛК|,||ЗНАЧИТ|,|А||ЕСТЬ| СЕР|ЫЙ|<E+> |ВСЕ||ПЕТУХ|И||КРАСИВ|Ы||В||ЕСТЬ||ПЕТУХ|,||ЗНАЧИТ|,|В||ЕСТЬ|КРАСИВ|ЫЙ|<E+> НСС в НСС2 автоматически строится структура: |ВСЕ| |X1 |И| | X2 |Ы|, |X3| |ЕСТЬ| |X1 |, | |ЗНАЧИТ|, |X3| |ЕСТЬ| X2 |Ы|Й|<E+> t1 t3 t2 <ВСЕ ПЛЮКИ КАНЫ, ОН ЕСТЬ ПЛЮК, ЗНАЧИТ, ОН ЕСТЬ >t2+Ы|Й<КАНЫЙ> <ВСЕ ЛЮДИ СМЕРТНЫ, СОКРАТ ЕСТЬ ЛЮД, ЗНАЧИТ, СОКРАТ ЕСТЬ >, ИС в своей грамматике выдаст: <СМЕРТНЫЙ>. Таким образом, все типы логических высказываний произвольной ПО покрываются механизмом НСС2 20 Язык диалога: <ситуация ПО> <реакция ИС> <оценка> Xi , Yj : Ek+ (Yj Xj) Xj , Yn : Eb+ (Yn Xn) t … Прототип компьютерного интерфейса “человек-ИP“ с а м о р е ф л е к с и я Параллельные каналы Л П "Моти- Л вация оценка" Е=+0,3 "Глаз" "Ухо"(Л,П), "Нос", … П "Рука" "Речь" "эмоции" < м а ш и н а > Последовательные каналы обработка информации Входная информация - "рецепторы" Пользователь ПО Оценка Выходная соответствия информация адекватности - "эффекторы" выхода на вход СПАСИБО ЗА ВНИМАНИЕ По всем вопросам Проекта обращаться к Бодякину Владимиру E-mail: [email protected] www.informograd.narod.ru/ тел. (495)334-92-39 в ИПУ тел 1-346 22 1. Проблемы автоматизации в материальной и информационной сферах производств За последние 200-300 лет автоматизация в промышленности дала более чем ~ 100 кратное повышение производительности труда За это же время, в информационной области человеческой деятельности, производительность труда возросла не более чем в ~ 3-5 раз. 23 В "экономике знаний" нет более ценного ресурса, чем ИНФОРМАЦИЯ и ЗНАНИЕ В развитых странах на долю новых ИТтехнологий приходится от 70 до 80% прироста ВВП. США на экспорте наукоемких технологий зарабатывают в год 700 млрд. долл., Япония - порядка 400 млрд. долл. 24 Ежемесячные объемы мирового цифрового контента слабоструктурированной информации (тексты на ЕЯ, материалы СМИ, ТВ), а также телеметрии, и различных БД и БЗ оцениваются в ~ 1020 байт Главные проблемы экономики знаний: - нет четких определений базовых понятий: «сигнал», «информация», «знание», «семантика», «целевая функция» … ; - отсутствие технологий автоматизированной ообработки и недостаточная "мощность" экспертов. Основания для надежд решения проблем: - наличие социального заказа; - возросшая мощность вычислительной техники; - формализуемость когнитивных функций человека. 25 Для решения проблем информационной экономики, необходимо знать: - "Какие" принципы лежат в основе саморазвивающихся информационных систем (СИС) ? - "На каких" механизмах построена переработка информации в СИС ? - "Как" построить или промоделировать на ЭВМ саморазвивающуюся информационную систему ? Вывод: есть острейшая потребность в крупномасштабных СИС и нет никаких принципиальных "запретов" на ее построение. 26 Современные технологии автоматизации решения задач пользователя t1 t2 Аналитикпостановщик Программист Отказ - Тексты описания предметной области t5 "Неформализуемо!" Текст задачи t3 Текст решения от ЭВМ Текст решения от эксп. Экспертыаналитики Пользователь t4 Инженер Язык ЭВМ Аналитикинтерпретатор Время решения задач: ЭВМ Т1 = t1+ t2+ t4 + n t3, Т2 = t4 Эксперты Т1 = t5 Т2 (t5 Т1 >> t4) Качество решения задач: ограниченное и удовлетворительное долгое, субъективное и приемлемое Стоимость: ЭВМ Т1 Эксперты Т1 27 Технологии решения задач пользователя на НСС Тексты описания предметной области Язык Текст задачи t6 НСС Текст решения от ЭВМ Инженер Пользователь Время решения задач: НСС Т1>Т2 ЭВМ Т2 << Т1 Т1 Качество решения задач: монотонно стремящееся к отличному Стоимость: равна вводу информации 28