м.наук В.И.Бодякина (Москва

advertisement
Нейросемантические структуры
как инструментарий
для построения Баз Знаний
Бодякин В.И.
Институт проблем управления
им. В.А. Трапезникова РАН,
Москва
,
E-mail: body@ipu.ru
http://www.informograd.narod.ru ,
служ.тел.:334-92-39
1
Схема формирования БЗ по инноватике
Экспертыаналитики
Программист
База знаний
Предметная область
Интернет
Документы,
обзоры,
аналитика,
ответы на
запросы,
…
≈ 1012-14 байт/сутки
СМИ ≈ 1012 б/с
НТП ≈ 108 б/с
Специальность
≈ 103-4 б/сутки
Интеллектуальный
инструментарий
по формированию
и пополнению БЗ
Пользователь
КПД < 2%
Ассоциация
пользователей
НСС
Номера
слоев
Предметная область
6
N-элементы
5
Связи
4
Алгоритм
НСС
1100101010100110100
Текстовая форма
3
2
1
0
"0" "1"
Семантика, тексты ПО,
содержание процессов
1
2
3
4
5
6
Номера элементов в слоях
При моделировании предметных областей (ПО)
специализированными нейросетями (НСС)
было обнаружено явление автокластеризации.
Которое выражалось в том, что при минимизации
ресурсов нейросети, затрачиваемых на
отображение реальных предметных областей,
структура нейросети приобретала топологическую
гомоморфность причинно-следственной структуре
физических процессов произвольной ПО.
Нейросемантическая форма (НСС)
представления информации
Предметная область
Процесс А
Номера
слоев
N-элемент
(3,2)
Образ А
НСС
6
N-элементы
5
Связи
4
3
2
Алгоритм
НСС
01100101011011011010001101101001 
1
0
"0" "1"
Семантика, тексты ПО,
содержание процессов
1
2
3
4
5
6
Номера элементов в слоях
ТФ описания процесса А
При минимизации затрат (памяти) НСС получаем:
процесс предметной области  N-элементу (образу),
при этом, структура образов НСС
гомоморфна структуре процессов ПО !
Автоструктуризация на
нейросемантических структурах
Lim
RИС = f(число N-элементов, число связей) в битах
0
при t   TФИС = объем текстовой информации в ИС в битах
или RИС / TФИС  0
при t  
и RИС < const
при t  Т
Примеры:
а) <RISMAKDUBLENLENDUBMAKMAKLENRISRISLENMAKRISDUBRIS>
правильно выделяются все процессы: <MAK><RIS><MAK><DUB>;
б)<ДОМЗЕБРЫСКИТНАДОМДОМВДОМВСКИТВНАСКИТВВЗЕБРЫНАВНА>,
- выделяются все процессы:<ЗЕБРЫ><СКИТ><ДОМ><НА><В>.
сдвиг алфавита А в кодах ASCII в примере б)
<ЕПНИЖВСЬТЛЙУОБЕПНЕПНГОБЕПНГТЛЙУГОБТЛЙУГЖВСЬОБГОБ> на +1
<?IGB@<KVLECMH;?IG?IG=H;?IG=LECM =H;LECM==B<KVH;=H;{> на -133
5
НСС – это пример формального преобразования
количественной текстовой формы представления
информации в качественно новую форму
1—
Автоструктуризация
"с учителем"
– "школа"
"без учителя"
 "игра"
0
log (tn)
(в битах)
Критерии достаточности ТФ:
а) все пространство состояний процессов ПО;
б) если человек может правильно структурировать данную ТФ
в непривычной, но взаимнооднозначной нотации,
в) наличие характерных особенностей динамического процесса
при минимизации ресурса RИС
Min ТФ = 2N-1, где N – число процессов ПО.
6
Расширив свойства формального нейрона введением в
него относительности времени активации входов,
получим нейроподобный N-элемент.
U*(t)
Выход
U(t+1)= U(t)/a
t
U*(t) = U(t) / Umax
Параметры ИС
U(t)
Набор функционалов
сходства Fi
x1
t0
Xi+1 = f(U*,Xi)
x2
dt2
x3
dt3
*
**
*
*
*
*
...
Входы
Umax
**
Входящие N-элементы
xk
dtk
...
Пространство
образов Х
U(t)= Fi(P1*X1(t0)  P2*X2T2*(t2- t0)  … Pk*XkTk*(tk- t0))
1
F1-20(P,T) =
1
1
1
…
0
1
k
0
1
k
0
1
k
0
1
k
7
Объединенные N-элементы в НСС представляют
многодольный иерархический граф
k
слоя
5
№
слоя
...
2
…
...
...
...
...
ДП
5
1
...
...
1
2
...
...
Резерв
. . .
КП
...
...
...
...
...
...
...
... Номер N-элемента
Межслойные связи N-элементов формируются входящей информаций.
Процесс заполнения связями (памяти) НСС идет слева направо и снизу
вверх (долговременная память, кратковременная память и резерв).
В слое N-элементы независимы – максимальная распараллеливаемость.
Время распознавания НСС монотонно  1 обобщ.такту, по мере работы.
Классическая (файловая, ТФ) и нейросемантическая
парадигмы автоматизации информационных процессов
База знаний
Алгоритм
if<> then<>
if<>
…then<>
if<> then<>
Пользователь
Аналитик, программист
Алгоритм
БД
Предметная
область
Форма
НСС
АЦП- 01011011011010001101101001010
1101001101101000110110100101101
000101011011001000110110100101101
ЦАП 01100101011001101000110110100101010
Текстовая форма
"0" "1"
Алгоритм
НCC
Основные свойства НСС
k
Номера
входов слоев
Нейросемантическая форма (НСС)
представления информации
гомоморфна причинно-следственной
2
6
3
5
3
4
2
3
2
2
взаимосвязи процессов ПО.
2
1
Каждый N-элемент имеет свое имя
(номер слоя, номер в слое).
1
0
N-элементы
структуре процессов ПО.
Связи
- связи НСС отражают порядок
"а" "в" "с"
1
2
3
4
5
6
Номера элементов в слоях
…авасасвсавасв
Текстовая
форма
- N-элемент (образ) НСС  процесс ПО,
(информ. модель ПО или ее онтология).
Топология НСС дает:
- всю статистику процессов ПО;
- поле текстовой энтропии;
- целостность и аналитичность;
-…
т.е. НСС гораздо информативнее ТФ.
Дополнительные свойства НСС
- ассоциативность (через N-эл. пред. слоя)
- прогностичность (прич.-след. связи)
- иерархичность (вверх-вниз)
- локальная интеграция и анализ
- полный образный анализ ПО
- однотипность (множество слоя)
- кратковременная и долговрем. памяти
- максимальная распараллеливаемость
- открытость и наращиваемость
"а" "в" "с"
- гипертекстовость (навигация по N-эл.)
- произвольность ПО
- демонстрация абстракций, творчества …
-…
Дополнительные свойства НСС
- ассоциативность (через N-эл. пред. слоя)
- прогностичность (прич.-след. связи)
- иерархичность (вверх-вниз)
- локальная интеграция и анализ
- полный образный анализ ПО
- однотипность (множество слоя)
- кратковременная и долговрем. памяти
- максимальная распараллеливаемость
- открытость и наращиваемость
"а" "в" "с"
- гипертекстовость (навигация по N-эл.)
- произвольность ПО
- демонстрация абстракций, творчества …
-…
Дополнительные свойства НСС
- ассоциативность (через N-эл. пред. слоя)
- прогностичность (прич.-след. связи)
- иерархичность (вверх-вниз)
- локальная интеграция и анализ
- полный образный анализ ПО
- однотипность (множество слоя)
- кратковременная и долговрем. памяти
- максимальная распараллеливаемость
- открытость и наращиваемость
"а" "в" "с"
- гипертекстовость (навигация по N-эл.)
- произвольность ПО
- демонстрация абстракций, творчества …
-…
Характеристики ассоциативной памяти на базе НСС:
- время доступа,
- коэффициент компрессии-сжатия,
- надежность хранения информации и др.)
имеют тенденцию к улучшению, как в среднем, так и в
абсолютных значениях, по мере роста объема вводимой
информации из ПО.
Коэффициент
сжатия
Р раз
1
Время Надеждоступа ность ИС
T сек. Q %
q
элемента
Q
T
P
1
0
log (tn)
(в битах)
ВИД ИСХОДНОЙ ТФ
(1000 символов)
на которой будет построена
НСС
А.С.Иванов ст.инж., оклад 8500 руб.;
М.А.Сидорян мнс, оклад 5505 руб.;
С.С.Петровичев ст.инж., отдел 17, 850 руб.;
М.А.Иванидзе холост, ст.инж., оклад, 8500 руб.;
М.А.Сидорян женат, двое детей. ст.инж., оклад 7200 руб.;
Д.А.Иваншвили инженер, оклад 4055 руб.;
М.М.Петров, оклад 6050 руб. ст.инж.;
И.И.Петров, оклад 9050 руб., вед.инж.;
С.С.Иванян оклад 8550 руб., инженер;
М.К.Сидоров, инженер, оклад 5000 руб.;
Ф.А.Иваненко, оклад 4700 руб. холост;
А.С.Иванов ст.инж., оклад 8500 руб., холост;
И.Д.Петрян, оклад 9000 руб. вед.инж.;
В.А.Ивановский вед.инж., оклад 9500 руб.;
А.В.Ивановский женат, четверо детей. оклад 7600 руб.;
Ф.Ф.Петров мнс, оклад 5650 руб.;
А.А.Иванов, оклад 6500 руб. вед.инж.;
И.И.Иванский зав.отделом, оклад 7440 руб.;
М.К.Сидоров, оклад 8020 руб. ст.инж.;
А.Д.Иваншвили ст.инж., оклад 8500 руб.;
С.С.Иванян ст.инж., оклад 8500 руб.;
М.М.Иванидзе ст.инж., оклад 4000 руб.;
А.М.Иваншвили вед.инж., оклад 5605 руб.;
М.А.Петров, оклад 9000 руб. вед.инж.;
А.А.Иванов вед.инж., уволен 05.05.05.;
Вид ТФ в другой нотации (ASCII-1)
-Р-ЗбЯмнбрс-зме-+нйкЯг7/4/пта-:Л-ї-ЗбЯмзгждфнкнрс+рс-зме+нйкЯг7///пта-:Р-Р-Одспнбзцдб рс-зме-+нсгдк06+нйкЯг74//пта:Л-ї-Рзгнпюмлмр+нйкЯг44//пта-:Л-ї-Одспюм едмЯс+гбндгдсдирс-зме-+нйкЯг6/5/пта-:ї-Р-ЗбЯмчбзкззмедмдп+нйкЯг3/3/пта-:Лї-Одспнб+ нйкЯг7/4/пта-рс-зме-:ї-Г-Одспюм бдг-зме+нйкЯг8///пта-:Р-Р-ЗбЯмюмзмедмдп+нйкЯг74//пта-:Л-ЙРзгнпнб+ нйкЯг4/4/пта-змедмдп:Л-Й-ЗбЯмдмйн+нйкЯг3/2/птафнкнрс:З-З-Одспнб+нйкЯг8/2/пта-бдг-зме-:З-З-ЗбЯмнбрйзибдгзме-+ нйкЯг804/пта-:ї-Р-РзгнпнбрйзиедмЯс+спндгдсдинйкЯг80//пта-:ї-Р-Одспдмйн лмр+нйкЯг4///пта-:ї-їЗбЯмзгжд+нйкЯг84//пта-зме-:З-З-РзгнпрйзижЯбнсгдкнл+ нйкЯг64//пта-:Л-Й-Рзгнпнб+нйкЯг7/6/пта-рс-зме-:Р-РРзгнпцтй+ нйкЯг746/пта-рс-зме-:ї-Г-ЗбЯмчбзкзрс-зме+нйкЯг74//пта-:Л-Й-Рзгнпюм+ нйкЯг474/пта-рс-зме-:Л-ЛЗбЯмзгждрс-зме-+нйкЯг57//пта-:З-З-Рзгнпчбзкзбдг-зме+нйкЯг88//пта-:Л-ї-Двнпнб нйкЯг8/8/пта-бдг-зме-:ї-ї-ЗбЯмнб бдгзме-+тбнкдм/4-/4-/4-:я
Автоматически сформированный гиперграф NSS структуры N-элементов
=== Max compress = 1.70 (!!!) ===
NN kb L_N w buf inf_sod cods - sloi=1 slovar=82
12345678910 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 -
…
6
4
8
8
8
8
7
7
6
6
6
6
6
6
2
5
5
5
5
5
5
4
4
4
4
4
3
3
3
6
4
8
8
8
8
7
7
6
6
6
6
6
6
2
5
5
5
5
5
5
4
4
4
4
4
3
3
3
22
24
10
7
3
2
5
3
3
3
2
2
2
2
31
7
3
3
2
2
2
5
4
2
2
2
3
3
2
256
175
172
166
158
156
144
140
122
122
120
120
120
120
111
101
93
93
91
91
91
81
79
75
75
75
54
54
52
<оклад >
< руб>
< ст.инж.>
<вед.инж.>
<А.Иванов>
<холост;/>
<.Петров>
<инженер>
<А.Иван>
<Иванов>
<Иванян>
<К.Сидо>
<швили >
<детей.>
<, >
<.;/М.>
<.;/А.>
<ский >
<.;/Ф.>
<Сидор>
<женат>
<8500>
<Иван>
<отде>
<идзе>
<А.С.>
<05.>
<С.С>
<ров>
NN kb L_N w buf inf_sod cods - sloi=2 slovar=63
12345678910 11 12 13 14 -
…
7 34 2 238 <А.С.Иванов ст.инж., оклад 8500 руб> 26 10 3 15
8 20 2 228 <9000 руб. вед.инж.;/> 74 31 80 2 34 4 70 71
2 8 18 108 <, оклад >
15 1
2 9 6
97 < руб.;/М.>
2 16
3 10 2
88 < ст.инж.;/> 3 70 71
7 24 1
70 <И.И.Иванский зав.отделом> 33 33 23 18 47 24 5
2 9 2
69 <К.Сидоров> 12 29
2 9 2
69 <, инженер> 15 8
2 6 5
64 <00 руб> 31 2
2 5 4
61 < руб.>
2 69
2 7 2
59 <А.Сидор> 32 20
2
<.;/>
35 71slovar=35
NN 3kb 3L_N 41
w buf
inf_sod cods - sloi=3
2
4
2
40
<С.С.>
69
1 - 3 63 1 12 <А.С.Иванов28
ст.инж.,
оклад 8500 руб., холост;/И.Д.
2 3 2
39 <000> оклад > 31 1 8021 3
2
3
4
5
6
7
-
3
3
3
3
3
3
51
46
40
44
33
33
1
1
1
1
1
1
12
11
11
11
11
11
<9000 руб. вед.инж.;/В.А.Ивановский вед.инж., ок
<А.С.Иванов ст.инж., оклад 8500 руб.;/М.А.Сидор>
<отдел 17, 850 руб.;/М.А.Иванидзе холост,>
3
<А.Сидорян женат, двое детей. ст.инж., оклад >
<Д.А.Иваншвили инженер, оклад 4055> 26 3 4
<9500 руб.;/А.В.Ивановский женат, >
58 9 2
8 - NN
3 46
1 11
детей.
оклад
7600 руб.;/Ф.Ф.Петров мнс>
kb L_N
w buf<четверо
inf_sod cods
- sloi=4
slovar=12
… 1 - 3 114 1
12 <отдел 17, 850 руб.;/М.А.Иванидзе холост, ст.инж., ок
руб.;/М.А.Сидорян женат, двое детей. ст.инж., ок
2 - 3 111 1 12 <000 руб.;/Ф.А.Иваненко, оклад 4700 руб. холост;/А.С.
…
8500 руб., холост;/И.Д.Петрян, оклад > 18 28
…
NN kb L_N w buf inf_sod cods - sloi=7 slovar=1
1 - 2 1014 1 11 < …> 2 1
оклад
Иван
швили
оклит
Max_sloi=2
Max_sloi=1
Max_sloi=1
Max_sloi=3
Max_sloi=4
Файл запроса в НСС
Динамика реакции НСС на запрос
=========== Номер запроса=1 Запрос = 'оклад'
j_max=49 UT= 1 T_astr=1 запрос = <о>
j_max=68 UT= 50 T_astr=2 запрос = <ок>
j_max= 4 UT= 36 T_astr=3 запрос = <окл>
j_max= 2 UT= 53 T_astr=4 запрос = <окла>
j_max= 9 UT= 1 T_astr=5 запрос = <оклад>
=>
=>
=>
=>
=>
реакция = <енко, >
реакция = <к>
реакция = <оклад>
реакция = <оклад >
реакция = <6500 руб. вед.инж.;
=>
=>
=>
=>
реакция = <И.Д.Петрян>
реакция = <во>
реакция = <Иван>
реакция = <А.С.Иванов>
=>
=>
=>
=>
реакция = <швили>
реакция = <во>
реакция = <швили>
реакция = < 4000 руб.;
=>
=>
=>
=>
=>
реакция = <енко, >
реакция = <к>
реакция = <оклад>
реакция = <оклад>
реакция = <оклад>
И.И.Иванский зав.отделом, оклад 7440 руб.;>
Max_sloi=2
Max_sloi=1
Max_sloi=1
Max_sloi=3
Max_sloi=1
Max_sloi=1
Max_sloi=1
Max_sloi=3
=========== Номер запроса=2 Запрос = 'Иван'
j_max=41 UT= 1 T_astr=1 запрос = <И>
j_max=43 UT= 50 T_astr=2 запрос = <Ив>
j_max= 6 UT= 56 T_astr=3 запрос = <Ива>
j_max=26 UT= 36 T_astr=4 запрос = <Иван>
=========== Номер запроса=3 Запрос = 'швили'
j_max=12 UT= 4 T_astr=1 запрос = <ш>
j_max=43 UT= 50 T_astr=2 запрос = <шв>
j_max=12 UT= 36 T_astr=3 запрос = <шви>
j_max=10 UT= 1 T_astr=5 запрос = <швили>
М.А.Иваншвили вед.инж., оклад 56>
Max_sloi=2
Max_sloi=1
Max_sloi=1
Max_sloi=1
Max_sloi=1
=========== Номер запроса=4 Запрос = 'оклит'
j_max=49 UT= 1 T_astr=1 запрос = <о>
j_max=68 UT= 50 T_astr=2 запрос = <ок>
j_max= 4 UT= 36 T_astr=3 запрос = <окл>
j_max= 4 UT= 48 T_astr=4 запрос = <окли>
j_max= 4 UT= 60 T_astr=5 запрос = <оклит>
Информация – f(ПО(S))
причинно-связанная <X, Y, E+>
последовательность образов.
(деятельностная единица ИС)
ПО
причинно-связанное
E+объединение в НССn образов
о ПО с образами о состоянии ИС.
(семантические закономерности)
Е+
Х
Знание – f(ПО(S), ИС(S))
ИС
НСС2
Y
НСС3
...
НСС

ПО
Знаниеi – f(ПО(S), ИС(S)1 ,… ИС(S)i-1)
Пример категории знание
- "логические высказывания".
В текстовой форме они обязательно содержат
ритмические п о в т о р е н и я !
|ВСЕ| |ВОЛК|И|
|СЕР|Ы||А||ЕСТЬ| |ВОЛК|,||ЗНАЧИТ|,|А||ЕСТЬ|
СЕР|ЫЙ|<E+>
|ВСЕ||ПЕТУХ|И||КРАСИВ|Ы||В||ЕСТЬ||ПЕТУХ|,||ЗНАЧИТ|,|В||ЕСТЬ|КРАСИВ|ЫЙ|<E+>
НСС
в НСС2 автоматически строится структура:
|ВСЕ| |X1 |И| | X2 |Ы|, |X3| |ЕСТЬ| |X1 |, | |ЗНАЧИТ|, |X3| |ЕСТЬ| X2 |Ы|Й|<E+>
 t1
 t3
 t2
<ВСЕ ПЛЮКИ КАНЫ, ОН ЕСТЬ ПЛЮК, ЗНАЧИТ, ОН ЕСТЬ >t2+Ы|Й<КАНЫЙ>
<ВСЕ ЛЮДИ СМЕРТНЫ, СОКРАТ ЕСТЬ ЛЮД, ЗНАЧИТ, СОКРАТ ЕСТЬ >,
ИС в своей грамматике выдаст: <СМЕРТНЫЙ>.
Таким образом, все типы логических высказываний
произвольной ПО покрываются механизмом НСС2
20
Язык диалога: <ситуация ПО> <реакция ИС> <оценка>
Xi , Yj : Ek+ (Yj  Xj)
Xj , Yn : Eb+ (Yn  Xn) t …
Прототип компьютерного интерфейса “человек-ИP“
с а м о р е ф л е к с и я
Параллельные
каналы
Л
П "Моти- Л
вация
 оценка"
Е=+0,3
"Глаз"
"Ухо"(Л,П), "Нос", …
П
"Рука"
"Речь"
"эмоции" < м а ш и н а >
Последовательные
каналы
обработка информации
Входная
информация
- "рецепторы"
Пользователь
ПО
Оценка
Выходная
соответствия
информация
адекватности - "эффекторы"
выхода на вход
СПАСИБО ЗА ВНИМАНИЕ
По всем вопросам Проекта
обращаться к Бодякину Владимиру
E-mail: body@ipu.ru
www.informograd.narod.ru/
тел. (495)334-92-39
в ИПУ тел 1-346
22
1. Проблемы автоматизации в
материальной и информационной
сферах производств
За последние 200-300 лет автоматизация
в промышленности дала более чем
~ 100 кратное повышение
производительности труда
За это же время, в информационной
области человеческой деятельности,
производительность труда возросла не
более чем в ~ 3-5 раз.
23
В "экономике знаний"
нет более ценного ресурса,
чем ИНФОРМАЦИЯ и ЗНАНИЕ
В развитых странах на долю новых ИТтехнологий приходится от 70 до 80%
прироста ВВП.
США на экспорте наукоемких технологий
зарабатывают в год 700 млрд. долл.,
Япония - порядка 400 млрд. долл.
24
Ежемесячные объемы мирового цифрового контента
слабоструктурированной информации
(тексты на ЕЯ, материалы СМИ, ТВ), а также телеметрии,
и различных БД и БЗ оцениваются в ~ 1020 байт
Главные проблемы экономики знаний:
- нет четких определений базовых понятий:
«сигнал», «информация», «знание»,
«семантика», «целевая функция» … ;
- отсутствие технологий автоматизированной
ообработки и недостаточная "мощность" экспертов.
Основания для надежд решения проблем:
- наличие социального заказа;
- возросшая мощность вычислительной техники;
- формализуемость когнитивных функций человека.
25
Для решения проблем
информационной экономики,
необходимо знать:
- "Какие" принципы лежат в основе саморазвивающихся информационных систем (СИС) ?
- "На каких" механизмах построена переработка
информации в СИС ?
- "Как" построить или промоделировать на ЭВМ
саморазвивающуюся информационную систему ?
Вывод: есть острейшая потребность в крупномасштабных СИС
и нет никаких принципиальных "запретов" на ее построение.
26
Современные технологии автоматизации
решения задач пользователя
t1
t2
Аналитикпостановщик
Программист
Отказ -
Тексты описания
предметной области
t5
"Неформализуемо!"
Текст задачи
t3
Текст
решения
от ЭВМ
Текст
решения
от эксп.
Экспертыаналитики
Пользователь
t4
Инженер
Язык
ЭВМ
Аналитикинтерпретатор
Время решения задач: ЭВМ Т1 = t1+ t2+ t4 + n t3, Т2 = t4
Эксперты Т1 = t5  Т2 (t5  Т1 >> t4)
Качество решения задач: ограниченное и удовлетворительное
долгое, субъективное и приемлемое
Стоимость: ЭВМ Т1  Эксперты Т1
27
Технологии решения задач пользователя
на НСС
Тексты описания
предметной области
Язык
Текст задачи
t6
НСС
Текст
решения
от ЭВМ
Инженер
Пользователь
Время решения задач: НСС Т1>Т2  ЭВМ Т2 << Т1  Т1
Качество решения задач: монотонно стремящееся к отличному
Стоимость: равна вводу информации
28
Download