Ю.П. ЛАНКИН , Т.И. ЛОБОВА , Л.Ю. ПОПОВА

advertisement
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 3
Ю.П. ЛАНКИНа, Т.И. ЛОБОВАб, Л.Ю. ПОПОВАа
аИнститут
биофизики СО РАН, Красноярск
lan7@mail.ru
бООО «Территориально-ориентированные информационные системы»,
Красноярск
yanalobova@mail.ru
НЕЙРОСЕТЕВОЙ АНАЛИЗ АНТРОПОГЕННОГО ВЛИЯНИЯ
НА ОЗЕРНУЮ ЭКОСИСТЕМУ
Аннотация
Разработан нейросетевой метод анализа свойств экологических систем
по сложноорганизованным экспериментальным данным. На его основе
создана нейросетевая экспертная система для оценки антропогенного воздействия на экосистему озера Шира (республика Хакасия).
Введение
Воздействие антропогенных факторов на природные водные экосистемы, зачастую, сопровождается негативными изменениями, как физикохимических показателей воды, так и признаков биологических объектов.
Реакция биологических объектов на антропогенное воздействие служит
основой биомониторинга. В последнее время в работах, связанных с мониторингом состояния водных экосистем в качестве объектов биоиндикации используют бактерии. Популяции бактерий, по сравнению с другими
организмами, заселяющих экосистемы, являются довольно чуткими информационными системами, способными быстро реагировать на различного рода изменения в окружающей среде.
Исследование специфических признаков бактерий, изолированных из
экосистемы в разные сезоны, позволяет получить данные о фоновой
устойчивости бактерий, а анализ специфических признаков бактерий,
изолированных из разных зон – о степени воздействия человека в исследуемых зонах.
Важно отметить, что оценка состояния экосистемы должна включать в
себя данные экологического мониторинга, осуществляемого не только в
течение конкретного года или, тем более, сезона, а также данные, полученные в течение нескольких лет. Только в результате систематических
наблюдений за биообъектами представляется возможным «правильно»
спрогнозировать состояние экосистемы.
УДК 004.032.26(06) Нейронные сети
128
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 3
Цель работы заключалась в разработке метода анализа экологических
свойств исследуемых объектов на основе нерегулярных выборок сложноорганизованных данных с использованием нейронных сетей. Исследование выполнено на примере оценки антропогенного влияния на экосистему
озера Шира (республика Хакасия) путем анализа маркерных признаков
выделенных из озера автохтонных и аллохтонных бактерий.
Объекты и методы исследования
Объектами исследования служили бактериальные культуры, выделенные в разные сезоны из разных зон оз. Шира: центральной, курортной,
зоны расположенной близ сельскохозяйственных полей и устья р. Сон
(рис. 1). Вода оз. Шира – сульфатно-хлоридно-натриево-магниевая и содержит до 22 г/л растворенных солей.
Устье
р. Сон
Близ
сельскохозяйственных
полей
Центр
0.5 м
10 м
20 м
Курортная
зона
Курорт
Рис. 1. Расположение станций отбора проб воды из оз. Шира
Соленость озера испытывает значительные колебания по глубине и по
времени, увеличиваясь от 18 г/л у поверхности до 30 г/л в придонных слоях. В летний период в озере с учетом неравномерной минерализации воды
по глубине образуется стратификация, близкая к двухслойной. На поверхности озера температура воды 15-25 оС, на глубине 6-8 м располагается
зона термоклина, где температура воды составляет 4-15 оС, в придонном
горизонте озера – холодная вода (1.4-3 оС).
УДК 004.032.26(06) Нейронные сети
129
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 3
Использованные методы
Наряду с традиционными (статистическими и др.) методами обработки
данных, в данной работе использованы нейронные сети. Их применение
позволяет, во многих случаях, обойти трудности формализации экспертных знаний и получить решения сложных нелинейных задач в тех случаях, когда традиционные методы оказываются неэффективны. Имитационные нейросетевые модели могут использоваться для решения практических и научных задач, как самостоятельно, так и служить основой для
построения традиционных формальных моделей.
Особенностью нейронных сетей является их адаптивность. В отличие
от вычислительных алгоритмов они «обучаются» решению задачи и в
дальнейшем позволяют быстро и эффективно обрабатывать данные того
типа, на которых они были обучены.
В данной работе использовано два типа нейросетевых алгоритмов.
Первый из них – карты признаков Кохонена [1], а второй – алгоритм
двойственного функционирования [2], являющийся обобщением известного алгоритма back-propagation [3].
Карты признаков предназначены для автоматической классификации
векторов данных. В работе использована версия алгоритма, предложенная
в [4], решающая задачу разбиения множества n-мерных векторов на k
классов, близких в смысле квадрата евклидова расстояния.
Алгоритм двойственного функционирования относится к так называемым
алгоритмам, «обучающимся с учителем», поскольку обучение нейронной
сети решению задачи идет по примерам. В возможности алгоритма входит
классификация данных, прогноз, имитационное моделирование и др.
В данной работе использована нейросетевая программа «Модель» [5],
функционирование нейронов которой описывается уравнением:
 ( , i , xij )  


 sin   x A  ,
i

i
ij
j
j

где Aj – входные параметры, а xij – веса связей, соединяющие входы сети с
ее нейронами. Обучающая процедура использует метод сопряженных
градиентов.
Анализ данных
Каждая озерная экосистема уникальна. Одной из фундаментальных
научных задач является построение обобщенных научных представлений
УДК 004.032.26(06) Нейронные сети
130
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 3
и методов анализа, охватывающих свойства различных озер. В то же время, большое значение имеет развитие методов изучения индивидуальных
микробиологических свойств этих объектов.
Как показали проведенные исследования, экспериментальные данные,
полученные в результате многолетних экспедиций на оз. Шира, представляют существенную сложность для обработки стандартными математическими методами. Возникшие трудности и особенности экспериментальных данных являются типичными при изучении свойств микроорганизмов, как водных, так и наземных экосистем. Вместе с тем, обсуждение
этих важных особенностей редко встречается в литературе. С другой стороны, в современной науке происходит накопление больших массивов
экологической информации, сосредоточенной в базах данных (таких как
[6]) и требующих развития методов автоматической обработки данных.
По этим причинам полученные результаты и предложенные методы представляют интерес при анализе широкого класса экологических объектов.
Одной из целей работы являлась формализация оценки степени антропогенного воздействия на экосистему озера Шира.
Подобная оценка может быть выполнена на основе анализа изменения
антибиотикорезистентности бактерий озера, в частности, благодаря внесению аллохтонных бактерий. Особенно заметно это изменение в летние
месяцы в периоды активного посещения озера отдыхающими.
В данных исследованиях рассматривались три возможных уровня антропогенного воздействия, существенно влияющих на состояния экосистемы: сильное, среднее и слабое. Для удобства обсуждения этим трем
ситуациям ставятся в соответствие три класса, условно названных: красный, желтый, зеленый.
Изучение экспериментальных данных и результатов их обработки
микробиологическими методами позволило сделать вывод о том, что
наиболее перспективными для использования в проводимых исследованиях являются значения четыре параметра антибиотикорезистентности
(А1-А4) и три – галотолерантности (Г1-Г3) бактерий озера, выделенных
из заборов проб воды в летние месяцы на четырех базовых станциях
(рис. 1):
А1 – устойчивость к ампициллину;
А2 – устойчивость к канамицину;
А3 – множественная устойчивость к антибиотикам;
А4 – чувствительные к антибиотикам;
Г1 – негалофильные бактерии;
Г2 – среднегалотолерантные бактерии;
УДК 004.032.26(06) Нейронные сети
131
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 3
Г3 – умеренно галотолерантные бактерии.
Подготовка данных для дальнейших исследований включала отнесение ученым-экспертом каждого вектора этих параметров к одному из трех
перечисленных классов: R – красный, Y – желтый, G – зеленый.
Вектора этих параметров, составленные для каждого забора проб на
базовых станциях, исследовались с помощью ряда линейных и нелинейных математических методов на предмет наличия закономерностей с целью выделения трех перечисленных состояний экосистемы. В частности
использовались статистические оценки, супервизорные и несупервизорные нейронные сети, графический анализ.
Комбинируя перечисленные методы, удалось выделить наиболее значимые и достаточные для решения задачи параметры: А1, А3, А4.
Одним из полезных методов исследования свойств множества векторов исходных данных на предмет возможности их разделения на классы,
является их визуализация. В данном случае наиболее значимы для классификации две компоненты – А3 и А4. Анализ рис. 2 позволяет сделать
вывод о перспективности применения формальных методов. Вместе с тем,
их использование требует учета пограничных областей между классами.
Как явствует из рис. 2, исследуемые данные имеют зоны перекрытия
между кластерами, затрудняющие классификацию экологических ситуаций. Уточнение класса экологической ситуации в этих областях удается
достигнуть благодаря переходу к трехмерному представлению путем введения третьего компонента – А1.
120
100
A4, %
80
Red
Yellow
60
Green
40
20
0
0
50
100
150
A3, %
Рис. 2. Двумерная диаграмма группировки векторов исходных данных
по двум их компонентам А3, А4
УДК 004.032.26(06) Нейронные сети
132
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 3
Прямое применение математических методов не позволило провести
разделение на три рассмотренных класса. Корреляционный анализ выявил
парадоксальную ситуацию: ряд пар векторов из различных классов имели
значительно более высокие коэффициенты корреляции, чем многие из пар
векторов, относящиеся к одному классу.
Изучение полученных результатов привело к выводу о сильной нелинейности задачи. В качестве иллюстрации, на рис. 3a приведен пример
двух векторов исходных данных, относящихся к одному классу, а на
рис. 3b – двух векторов, относящихся к различным классам. Значения на
оси ординат выражены в процентах от общего числа колоний, выросших
из данной пробы, полученных в ходе лабораторных экспериментов. Первая буква в легенде обозначает базовый класс: Y – желтый, G – зеленый,
цифра после нее – номер подкласса внутри базового класса (пояснения
будут приведены ниже), номера в скобках соответствуют порядковым
номерам векторов в таблице исходных данных.
100
100
80
80
60
60
Y1(44)
Y2(06)
40
Y3(28)
G1(23)
40
Y3(28)
20
20
0
0
A1
A3
A4
A1
a
A3
A4
b
Рис.3. Иллюстрация возможных различий векторов одного класса (a)
и сходства векторов разных классов (b)
Одним из возможных способов, позволяющих в ряде случаев получить требуемое решение в подобной ситуации, является разбиение выделенных классов на подклассы, внутри которых вектора одного класса имеют более высокое сходство, чем похожие вектора различных классов. Идея заключается
в том, чтобы выделить пограничные зоны между классами, в которых вектора этих классов имеют достаточно высокое сходство. Возможность разделения базируется на выявлении внутри этих пограничных зон областей
УДК 004.032.26(06) Нейронные сети
133
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 3
векторного пространства, в которых сходство векторов одного класса выше,
чем сходство этих же векторов с векторами соседнего класса.
Следует отметить, что выделение подобных областей для формирования подклассов с целью их эффективного разделения не является тривиальной задачей. Зачастую, появляется необходимость неравномерного
разбиения ряда зон векторного пространства на близлежащие компактные
области, каждая из которых служит для оптимального разделения подмножеств сходных векторов соседних классов.
Весьма полезным инструментом в данном случае оказываются карты
признаков Кохонена [1, 4]. Высокая нелинейность пространства решений
не позволяет, в данном случае, использовать карты признаков для прямого решения классификационной задачи. Однако их использование дает
возможность разбить множество векторов данных на минимально необходимое число классов, содержащих сходные вектора. Для решаемой задачи
было выделено семь таких классов. Часть этих классов совпали с базовыми (красный, желтый, зеленый) и вошедшие в них вектора составили первые три подкласса внутри базовых. Остальные классы, выделенные сетью
Кохонена, содержали смешанные данные, включающие вектора разных
базовых классов. Это смешивание явились указателем на необходимость
введение подклассов внутри базовых классов: красный, желтый, зеленый.
Окончательные решения по разделению на подклассы принимались с
учетом результатов корреляционного и графического анализа исходных
данных. Общее число выделенных подклассов составило одиннадцать:
два красных, шесть желтых и три зеленых. Пример разделения сходных
векторов на два подкласса приведен на рис. 4. Обозначения на осях и в
легенде графиков аналогичны рис. 3.
120
120
100
100
80
80
60
60
G3(19)
Y1(03)
40
Y1(07)
G3(23)
40
G3(34)
Y1(28)
Y1(37)
20
0
20
0
A1
A3
A4
A1
a
A3
A4
b
УДК 004.032.26(06) Нейронные сети
134
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 3
Рис. 4. Пример сходных векторов двух классов: a – желтый и b – зеленый
Нейросетевая экспертная система
Полученное разделение дало возможность составить задачник для
обучения супервизорной нейронной сети [2, 3, 5], позволяющей решать
сложные нелинейные задачи. Фрагмент этого задачника приведен на
рис. 5. Значения А1, А3, А4 подаются на входы нейронной сети, а с ее
выходов снимается значение одного из подклассов – красный, желтый,
зеленый. На конкретный подкласс указывает наличие 1 на определенном
выходе, каждый из которых сопоставлен одному из подклассов.
Выходы
№
1
2
3
4
5
…
Красный
1 2
0 0
0 0
0 0
0 0
0 0
… …
Желтый
1
1
0
0
1
0
…
2
0
1
0
0
0
…
3
0
0
1
0
0
…
4
0
0
0
0
0
…
Зеленый
5
0
0
0
0
0
…
6
0
0
0
0
0
…
1
0
0
0
0
0
…
2
0
0
0
0
1
…
3
0
0
0
0
0
…
Входы
Антибиотикорезистентность
A1
A3
A4
68.2 14
17.8
19.8 41.5 38.7
15.4 16.8 67.8
40.7 26.4 28.5
21.3 8.5
70.2
…
…
…
Рис. 5. Фрагмент задачника нейронной сети, сформированного
для ее обучения
После обучения получена нейросетевая экспертная система для оценки
экологической ситуации на озере Шира, результаты работы которой совпадают с оценками эксперта-микробиолога.
Полученные результаты оказываются полезными не только для формализации экспертных знаний, но и для их уточнения.
Работа поддержана грантом РФФИ 04-05-64188.
Список литературы
. Kohonen T. Self-Organizing Maps / Second Edition.- Springer-Verlag, Heidelberg, 1997. 426 p.
2. Bartsev S.I., Okhonin V.A. Variation Principle and the Algorithm of Dual Functioning: Examples of Applications // Neurocomputers and attention II: connectionism and neurocomputers.Manchester and New York: Manchester University Press, 1991. - p. 453-458.
3. Rumelhart D.E., Hinton G.E. & Williams R.J. Learning representations by back-propogating
errors // Nature. - 1986. - 323. - P. 533-536.
4. Миркес Е.М. Нейрокомпьютер. Проект стандарта. - Новосибирск: Наука, 1999. – 337 с.
5. Okhonin V., Okhonin S., Ils A., Ilegemres M. Neural network based approach to the Evaluation of Degradation Lifetime // Neural Network World. 2001. V.11, No 2. P. 145-151.
УДК 004.032.26(06) Нейронные сети
135
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 3
6. Medvedeva S.E., Boyandin A., Lankin Yu., Kotov D., Rodicheva E. and Popova L. BIOLUMBASE – the database of natural and transgenic bioluminescent organisms // Luminescence,
2005. - 20. – P. 90-96.
УДК 004.032.26(06) Нейронные сети
136
Download