Анализ и управление семейными отношениями с помощью средств Data Mining

advertisement
Чувашский государственный университет им. И.Н. Ульянова
Анализ и управление семейными
отношениями с помощью средств Data
Mining
Карлович Елена Валерьевна
Научный руководитель: профессор
Абруков Виктор Сергеевич
Чебоксары, 2009 г.
Цель работы:
Целью работы была разработка методологической базы и технологий
применения средств Data Mining (DM) при построении количественных
моделей социальных явлений на примере анализа семейных отношений.
Был проведен
анализ данных о разведенных семьях и решена
конкретная задача - построение количественных вычислительных
моделей
семейных
отношений,
позволяющих
вырабатывать
«управленческие решения»
Ранее средства интеллектуального анализа
использовались на кафедре теплофизики ЧГУ:
данных
уже
• для построения вычислительных моделей при решении прямых
и обратных задач оптики на основе неполных данных об
изображении, в частности на основе измерения оптического
сигнала всего в одной точке плоскости изображения
(«одноточечное измерение»);
• для определения профилей температур в волне горения с
помощью измерения скорости горения;
• для определения закономерностей горения конденсированных
систем при различных давлениях и для различных составов.
Методы исследования:
При выполнении данной работы использовались результаты опроса
разведенных супругов. Всего было использовано 136 интервью. Для
анализа данных использовались DM, включенные в аналитическую
платформу Deductor (разработчик – ООО «Аналитические
технологии» - BaseGroup Lab, г. Рязань, www.basegroup.ru).
DM (Data Mining) – «добыча» данных. Это метод обнаружения в
«сырых» данных ранее неизвестных, нетривиальных, практически
полезных и доступных для интерпретации знаний, необходимых для
принятия решений в различных сферах человеческой деятельности.
Методы исследования:
Первый этап – трансформация и очистка данных:
- корреляционный анализ – устранение незначащих факторов;
- факторный анализ - понижении размерности пространства
факторов
Второй этап - Data Mining:
- дерево решений;
- нейросеть – многослойная нейронная сеть.
Основное внимание было уделено выявлению закономерностей,
существующих в данных и построению количественных моделей
семейных отношений. Продолжительность брака (ПД) была
выбрана в качестве целевой функции.
Методы исследования:
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Лет ей во время свадьбы
Лет ему во время свадьбы
Была ли добрачная беременность от будущего мужа
Количество детей (на момент расторжения брака)
№брака (у него, у нее)
Было ли насилие в семье (физическое, психическое, и то и другое)
Алкоголизм (у него, у нее), был ли?
Ее тип родительской семьи (полная, неполная, другое – с отчимом,
мачехой, бабушкой и т.д.)
Наличие братьев, сестер, сколько
Отношения в родительской семье (хорошие, не очень хорошие,
плохие)
Его тип родительской семьи (полная, неполная, другое – с отчимом,
мачехой, бабушкой и т.д.)
Наличие братьев, сестер, сколько
Отношения в родительской семье (хорошие, не очень хорошие,
плохие)
ПРОДОЛЖИТЕЛЬНОСТЬ БРАКА
Методы исследования:
Деревья решений (decision trees) создают иерархическую
структуру классифицирующих правил
имеющую вид дерева.
типа
«ЕСЛИ…
ТО…»,
Искусственные нейронные сети (ИНС) представляют
собой вычислительные структуры, принцип работы которых
похож на принцип работы человеческого мозга. И в том и в другом
случае сначала требуется «научить» сеть на примерах.
Структурным
элементом
ИНС
является
элементарный
преобразователь
(процессор),
называемый
искусственным
нейроном или просто нейроном. Нейроны сети связаны между
собой различным образом.
Методы исследования
(структура использованной ИНС):
Результаты:
Дерево решений:
Результаты:
Правила:
Значимость атрибутов:
Выводы:
1.Разработана методология и технологии применения DM при
анализе социальных явлений на примере анализа семейных
отношений.
2.Впервые
создана
система
прогнозирования
продолжительности брака для различных случаев (до брака, в
процессе брака).
3.Впервые построены многофакторные «вычислительные»
модели брака, способные аппроксимировать влияние комплекса
внутренних и внешних факторов на продолжительность брака и
обладающие прогностическими возможностями. Они также
обладают возможностями выработки мер способствующих
продлению брака.
Заключение :
DM позволяют прогнозировать семейные отношения и
вырабатывать
меры,
направленные
на
увеличение
продолжительности брака.
Полученные
результаты
показывают,
что
DM
могут
рассматриваться как перспективные методы при решении задач
моделирования и для других социальных явлений, например при
анализе таких проблем, как: поиск работы и подбор кадров
(предупреждение быстрых «разводов» предприятия и работника),
прием абитуриентов в ВУЗ (прогнозирование будущей
успеваемости абитуриентов, предотвращение кризисов в
обучении).
Анкеты – интервью в соответствии с которыми в
настоящее время проводится опрос населения, статьи
по теме проекта, отчет за 2007 год и видеофильм,
демонстрирующий порядок работы по построению
модели явления приведены на сайте проекта:
http://www.chuvsu.ru/2008/proekt.html
Работа выполняется при поддержке Российского
фонда фундаментальных исследований, код проекта
07-06-00277
Спасибо за внимание!
Download