referat Shtumpf - Институт фундаментальной биологии и

advertisement
Федеральное государственное автономное
образовательное учреждение
высшего профессионального образования
«Сибирский федеральный университет»
Институт фундаментальной биологии и биотехнологии
Кафедра биофизики
РЕФЕРАТ
по дисциплине Информационно-коммуникационные технологии в
естественнонаучных исследованиях
«Метод упругих карт и метод кластеризации»
Преподаватель
___________
И.Е. Суковатая
подпись, дата
Студент БФ12-01М
___________
подпись, дата
Красноярск 2013
А.Ф. Штумпф
Оглавление
Метод упругих карт. .................................................................................. 3
Кластерный анализ. ................................................................................... 5
Список литературы. ................................................................................... 8
Метод упругих карт.
Упругая карта служит для нелинейного сокращения размерности
данных. В многомерном пространстве данных располагается поверхность,
которая приближает имеющиеся точки данных и при этом является, по
возможности, не слишком изогнутой. Данные проецируются на эту
поверхность и потом могут отображаться на ней, как на карте. Ее можно
представлять себе как упругую пластину, погруженную в пространство
данных
и
прикрепленную
к
точкам
данных
пружинками.
Служит
обобщением метода главных компонент (в котором вместо упругой пластины
используется абсолютно жесткая плоскость).
По построению, упругая карта представляет собой систему упругих
пружин, вложенную в многомерное пространство данных1. Эта система
апроксимирует
двумерное
многообразие.
Изменение
коэффициентов
упругости системы позволяет пользователю переключаться от совершенно
неструктурированной
кластеризации
методом K-средних (в
пределе
нулевой упругости) к многообразиям близким к линейным многообразиям
главных компонент (в пределе очень больших модулей изгиба и малых
модулей растяжения). В промежуточном диапазоне значений коэффициентов
упругости, система эффективно аппроксимирует некоторое нелинейное
многообразие. Данный подход основывается на аналогии с механикой:
главное многообразие, проходящее через «середину» данных, может быть
представлено как упругая мембрана или пластинка. Метод был разработан
проф., д.ф.-м.н.А. Н. Горбанем, к.т.н. А. Зиновьевым и к.т.н А. Питенко в
1996—2001 гг.
Ниже приведён пример использования главной кривой, построенной
методом упругих карт: Нелинейный индекс качества жизни2. Здесь точки
представляют собой данные о 171 странах в 4-мерном пространстве
сформированном значениями четырёх показателей: валовый доход на душу
населения, ожидаемая
продолжительность
жизни,детская
смертность,
заболеваемось туберкулезом. Различные формы и цвета точек отображают
разные географические местоположения. Толстая красная линия изображает
«главную кривую», апроксимирующую набор данных.
Рис.1. Нелинейный индекс качества жизни.
Главные
разведочного
применения
анализа
и
метод
нашёл
визуализации
в
биоинформатике3,
многомерных
данных,
для
для
визуализации данных в экономике, социологии и политологии 4, как
вспомогательный метод для визуализации данных различной природы,
привязанных к географической сетке. В последнее время метод был
адаптирован как средство для систем поддержки принятия решений для
отбора, оптимизации и организации биржевых корзин.
Кластерный анализ.
Кластерный
анализ —
задача
заданной выборки объектов (ситуаций)
разбиения
на подмножества,
называемые кластерами, так, чтобы каждый кластер состоял из схожих
объектов, а объекты разных кластеров существенно отличались. Задача
кластеризации относится к статистической обработке, а также к широкому
классу задач обучения без учителя.
Большинство исследователей склоняются к тому, что впервые термин
«кластерный анализ» был предложен математиком Р.Трионом. Впоследствии
возник ряд терминов, которые в настоящее время принято считать
синонимами термина «кластерный анализ»: автоматическая классификация;
ботриология.
Кластерный анализ — это многомерная статистическая процедура,
выполняющая сбор данных, содержащих информацию о выборке объектов, и
затем упорядочивающая объекты в сравнительно однородные группы56
(кластеры)(Q-кластеризация, или Q-техника, собственно кластерный анализ).
Кластер — группа элементов, характеризуемых общим свойством, главная
цель кластерного анализа — нахождение групп схожих объектов в выборке.
Спектр применения кластерного анализа очень широк: его используют в
археологии, медицине, психологии, химии, биологии, государственном
управлении, филологии, антропологии, маркетинге, социологии и других
дисциплинах.
Кластерный анализ выполняет следующие основные задачи:
 Разработка типологии или классификации.
 Исследование полезных концептуальных схем группирования
объектов.
 Порождение гипотез на основе исследования данных.
 Проверка
гипотез
или
исследования
для
определения,
действительно ли типы (группы), выделенные тем или иным
способом, присутствуют в имеющихся данных.
Независимо от предмета изучения применение кластерного анализа
предполагает следующие этапы:
 Отбор выборки для кластеризации. Подразумевается, что имеет
смысл кластеризовать только количественные данные.
 Определение
оцениваться
множества
объекты
в
переменных,
выборке,
то
по
которым
есть
будут
признакового
пространства.
 Вычисление значений той или иной меры сходства (или
различия) между объектами.
 Применение метода кластерного анализа для создания групп
сходных объектов.
Проверка достоверности результатов кластерного решения.
 Кластерный
анализ
предъявляет
следующие требования
к
данным]:
 показатели не должны коррелировать между собой;
 показатели не должны противоречить теории измерений;
 распределение показателей должно быть близко к нормальному;
 показатели должны отвечать требованию «устойчивости», под
которой понимается отсутствие влияния на их значения
случайных факторов;
 выборка должна быть однородна, не содержать «выбросов».
Цели кластерного анализ:
 Понимание данных путём выявления кластерной структуры.
Разбиение выборки на группы схожих объектов позволяет
упростить дальнейшую обработку данных и принятия решений,
применяя к каждому кластеру свой метод анализа (стратегия
«разделяй и властвуй»).
 Сжатие данных. Если исходная выборка избыточно большая, то
можно сократить её, оставив по одному наиболее типичному
представителю от каждого кластера.
 Обнаружение
новизны.
Выделяются
нетипичные
объекты,
которые не удаётся присоединить ни к одному из кластеров.
Список литературы.
1
A. N. Gorban, A. Y. Zinovyev, Principal Graphs and Manifolds, Из:
Handbook of Research on Machine Learning Applications and Trends:
Algorithms, Methods and Techniques, Olivas E.S. et al Eds. Information Science
Reference, IGI Global: Hershey, PA, USA, 2009. 28-59.
2
A. N. Gorban, A. Zinovyev, Principal manifolds and graphs in practice:
from molecular biology to dynamical systems,International Journal of Neural
Systems, Vol. 20, No. 3 (2010) 219—232.
3
M. Chacón, M. Lévano, H. Allende, H. Nowak, Detection of Gene
Expressions in Microarrays by Applying Iteratively Elastic Neural Net, In: B.
Beliczynski et al. (Eds.), Lecture Notes in Computer Sciences, Vol. 4432,
Springer: Berlin — Heidelberg 2007, 355—363.
4
A. Zinovyev, Data visualization in political and social sciences,
In: SAGE «International Encyclopedia of Political Science», Badie, B., BergSchlosser, D., Morlino, L. A. (Eds.), 2011.
5
Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л.
Д. Прикладная статистика: Классификация и снижение размерности. — М.:
Финансы и статистика, 1989. — 607 с.
6
Хайдуков Д. С. Применение кластерного анализа в государственном
управлении// Философия математики: актуальные проблемы. – М.: МАКС
Пресс, 2009. — 287 с.
Download