Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Сибирский федеральный университет» Институт фундаментальной биологии и биотехнологии Кафедра биофизики РЕФЕРАТ по дисциплине Информационно-коммуникационные технологии в естественнонаучных исследованиях «Метод упругих карт и метод кластеризации» Преподаватель ___________ И.Е. Суковатая подпись, дата Студент БФ12-01М ___________ подпись, дата Красноярск 2013 А.Ф. Штумпф Оглавление Метод упругих карт. .................................................................................. 3 Кластерный анализ. ................................................................................... 5 Список литературы. ................................................................................... 8 Метод упругих карт. Упругая карта служит для нелинейного сокращения размерности данных. В многомерном пространстве данных располагается поверхность, которая приближает имеющиеся точки данных и при этом является, по возможности, не слишком изогнутой. Данные проецируются на эту поверхность и потом могут отображаться на ней, как на карте. Ее можно представлять себе как упругую пластину, погруженную в пространство данных и прикрепленную к точкам данных пружинками. Служит обобщением метода главных компонент (в котором вместо упругой пластины используется абсолютно жесткая плоскость). По построению, упругая карта представляет собой систему упругих пружин, вложенную в многомерное пространство данных1. Эта система апроксимирует двумерное многообразие. Изменение коэффициентов упругости системы позволяет пользователю переключаться от совершенно неструктурированной кластеризации методом K-средних (в пределе нулевой упругости) к многообразиям близким к линейным многообразиям главных компонент (в пределе очень больших модулей изгиба и малых модулей растяжения). В промежуточном диапазоне значений коэффициентов упругости, система эффективно аппроксимирует некоторое нелинейное многообразие. Данный подход основывается на аналогии с механикой: главное многообразие, проходящее через «середину» данных, может быть представлено как упругая мембрана или пластинка. Метод был разработан проф., д.ф.-м.н.А. Н. Горбанем, к.т.н. А. Зиновьевым и к.т.н А. Питенко в 1996—2001 гг. Ниже приведён пример использования главной кривой, построенной методом упругих карт: Нелинейный индекс качества жизни2. Здесь точки представляют собой данные о 171 странах в 4-мерном пространстве сформированном значениями четырёх показателей: валовый доход на душу населения, ожидаемая продолжительность жизни,детская смертность, заболеваемось туберкулезом. Различные формы и цвета точек отображают разные географические местоположения. Толстая красная линия изображает «главную кривую», апроксимирующую набор данных. Рис.1. Нелинейный индекс качества жизни. Главные разведочного применения анализа и метод нашёл визуализации в биоинформатике3, многомерных данных, для для визуализации данных в экономике, социологии и политологии 4, как вспомогательный метод для визуализации данных различной природы, привязанных к географической сетке. В последнее время метод был адаптирован как средство для систем поддержки принятия решений для отбора, оптимизации и организации биржевых корзин. Кластерный анализ. Кластерный анализ — задача заданной выборки объектов (ситуаций) разбиения на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя. Большинство исследователей склоняются к тому, что впервые термин «кластерный анализ» был предложен математиком Р.Трионом. Впоследствии возник ряд терминов, которые в настоящее время принято считать синонимами термина «кластерный анализ»: автоматическая классификация; ботриология. Кластерный анализ — это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы56 (кластеры)(Q-кластеризация, или Q-техника, собственно кластерный анализ). Кластер — группа элементов, характеризуемых общим свойством, главная цель кластерного анализа — нахождение групп схожих объектов в выборке. Спектр применения кластерного анализа очень широк: его используют в археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, маркетинге, социологии и других дисциплинах. Кластерный анализ выполняет следующие основные задачи: Разработка типологии или классификации. Исследование полезных концептуальных схем группирования объектов. Порождение гипотез на основе исследования данных. Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных. Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы: Отбор выборки для кластеризации. Подразумевается, что имеет смысл кластеризовать только количественные данные. Определение оцениваться множества объекты в переменных, выборке, то по которым есть будут признакового пространства. Вычисление значений той или иной меры сходства (или различия) между объектами. Применение метода кластерного анализа для создания групп сходных объектов. Проверка достоверности результатов кластерного решения. Кластерный анализ предъявляет следующие требования к данным]: показатели не должны коррелировать между собой; показатели не должны противоречить теории измерений; распределение показателей должно быть близко к нормальному; показатели должны отвечать требованию «устойчивости», под которой понимается отсутствие влияния на их значения случайных факторов; выборка должна быть однородна, не содержать «выбросов». Цели кластерного анализ: Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй»). Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера. Обнаружение новизны. Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров. Список литературы. 1 A. N. Gorban, A. Y. Zinovyev, Principal Graphs and Manifolds, Из: Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods and Techniques, Olivas E.S. et al Eds. Information Science Reference, IGI Global: Hershey, PA, USA, 2009. 28-59. 2 A. N. Gorban, A. Zinovyev, Principal manifolds and graphs in practice: from molecular biology to dynamical systems,International Journal of Neural Systems, Vol. 20, No. 3 (2010) 219—232. 3 M. Chacón, M. Lévano, H. Allende, H. Nowak, Detection of Gene Expressions in Microarrays by Applying Iteratively Elastic Neural Net, In: B. Beliczynski et al. (Eds.), Lecture Notes in Computer Sciences, Vol. 4432, Springer: Berlin — Heidelberg 2007, 355—363. 4 A. Zinovyev, Data visualization in political and social sciences, In: SAGE «International Encyclopedia of Political Science», Badie, B., BergSchlosser, D., Morlino, L. A. (Eds.), 2011. 5 Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности. — М.: Финансы и статистика, 1989. — 607 с. 6 Хайдуков Д. С. Применение кластерного анализа в государственном управлении// Философия математики: актуальные проблемы. – М.: МАКС Пресс, 2009. — 287 с.