Применения методов интеллектуального анализа данных при исследовании социальных явлений.

advertisement
Чувашский государственный университет им. И.Н. Ульянова
Применения методов
интеллектуального анализа
данных при исследовании
социальных явлений.
Выполнила студентка группы ФТ-21-04
Карлович Елена
Научный руководитель: профессор
Абруков Виктор Сергеевич
Чебоксары, 2008 г.
Цель работы:
Разработка
методологии
и
технологий
применения
интеллектуального анализа данных - Data Mining (DM) при
анализе данных о разведенных семьях и решение конкретной
задачи – построения количественных вычислительных моделей
семейных отношений, приводящих к разводу.
Методы исследования:
При выполнении работы использовались данные опроса
разведенных супругов. Всего было использовано 78 интервью. Для
анализа данных использовались DM, включенные в аналитическую
платформу Deductor (разработчик – ООО «Аналитические
технологии» - BaseGroup Lab, г. Рязань, www.basegroup.ru).
DM (Data Mining) – «добыча » данных. Это метод обнаружения в
«сырых» данных ранее неизвестных, нетривиальных, практически
полезных и доступных для интерпретации знаний, необходимых для
принятия решений в различных сферах человеческой деятельности.
Методы исследования:
Первый этап – трансформация и очистка данных:
- корреляционный анализ – устранение незначащих факторов и
факторов корреляция которых с целевой функцией больше 0,8
(их можно перенести в целевую функцию);
- дубликаты и противоречия – устранение их;
- фильтрация строк таблицы по условию;
- замена данных по таблице;
Второй этап - Data Mining:
- дерево решений;
- нейросеть – многослойная нейронная сеть.
Основное внимание было уделено выявлению закономерностей,
существующих в данных и построению количественных моделей
разводящихся (разведенных) семей.
Продолжительность брака (ПД) была выбрана в качестве
целевой функции.
Методы исследования:
Список вопросов:
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Лет ей во время свадьбы
Лет ему во время свадьбы
Была ли добрачная беременность от будущего мужа
Количество детей (на момент расторжения брака)
№брака (у него, у нее)
Было ли насилие в семье
Алкоголизм (у него, у нее), был ли?
Ее тип родительской семьи (полная, полная до 15 лет, неполная)
Наличие братьев, сестер, сколько
Отношения в родительской семье (хорошие, не очень хорошие,
плохие)
Его тип родительской семьи (полная, полная до 15 лет, неполная)
Наличие братьев, сестер, сколько
Отношения в родительской семье (хорошие, не очень хорошие,
плохие)
ПРОДОЛЖИТЕЛЬНОСТЬ БРАКА
Методы исследования:
Деревья решений (decision trees) являются одним из
наиболее популярных подходов к решению задач добычи данных.
Они создают иерархическую структуру классифицирующих правил
типа «ЕСЛИ… ТО…» (if-then), имеющую вид дерева. Чтобы
принять решение, к какому классу следует отнести некоторый
объект или ситуацию, требуется ответить на вопросы, стоящие в
узлах этого дерева, начиная с его корня.
Нейронные сети (НС) представляют собой вычислительные
структуры, моделирующие простые биологические процессы,
аналогичные процессам, происходящим в человеческом мозге. В
основе построения сети лежит элементарный преобразователь,
называемый искусственным нейроном или просто нейроном.
Между нейронами есть связи, называемые весами.
Методы исследования:
Результаты:
Дерево решений:
Таблица сопряженности:
Доля верно
классифицированных
случаев 84,6%
Результаты:
Правила:
Значимость атрибутов:
Поддержка – общее количество
примеров, классифицированных
данным узлов дерева.
Достоверность – количество
правильно классифицированных
данным узлом.
Результаты:
Нейросеть:
Результаты:
Продолжительность брака(добрачная беременность):
• первый для обоих: ПД больше, если есть ДБ;
• первый для нее второй для него: ПД больше, если есть ДБ;
• второй для нее первый для него: ПБ больше, если нет ДБ;
• второй для обоих: ПБ больше, если нет ДБ.
Продолжительность брака(насилие):
ПБ больше, если нет насилия (если он из полной семьи с плохими
отношениями).
Продолжительность брака(алкоголь):
ПБ больше, если есть алкогольная зависимость (для выходцев из
полных семей с плохими отношениями).
Продолжительность брака(количество детей):
Чем больше детей, тем ПБ больше.
Результаты:
Продолжительность брака(тип семьи):
ПБ больше, если он и она из полных семей.
Продолжительность брака(отношения в родительской семье):
ПБ больше, если она из семьи с отношениями ближе к хорошим, а он
из семьи с отношениями ближе к плохим.
Продолжительность брака(наличие братьев, сестер):
ПБ больше, если у него и у нее есть братья, сестры.
Выводы:
1.Разработана методология и технологии применения DM при
анализе социальных явлений на примере анализа семейных
отношений в разведенных семьях. Разработана структура базы
данных, сформулирован перечень факторов, влияющих на
продолжительность брака.
2.Создана система прогнозирования продолжительности брака
для различных случаев (до брака, в процессе брака).
3.Построены многофакторные «вычислительные» модели брака,
способные аппроксимировать влияние различных факторов на
продолжительность брака и обладающие прогностическими
возможностями. Они также обладают возможностями выработки
мер способствующих продлению брака.
Заключение:
Анализ полученных результатов показал, что DM позволяют
принципиально
расширить
возможности
исследования
социальных явлений, построить новые, в том числе,
вычислительные модели социальных явлений. DM позволяют
прогнозировать семейные отношения и вырабатывать меры,
направленные на увеличение продолжительности брака.
Полученные
результаты
показывают,
что
DM
могут
рассматриваться как перспективные методы при решении задач
анализа и моделирования для других социальных явлений, в
частности, при анализе таких проблем, как: поиск работы и
подбор
кадров
(предупреждение
быстрых
«разводов»
предприятия и работника), прием абитуриентов в ВУЗ
(прогнозирование
будущей
успеваемости
абитуриентов,
предотвращение кризисов в обучении).
Заключение:
Проект находится в стадии разработки и
Ваша помощь очень важна. Вы можете
заполнить анкеты, касающиеся семейных
отношений, и получить прогноз на будущие
семейные отношения или анализ
существующих семейных отношений по
адресу:
http://www.chuvsu.ru/2008/proekt.html
Спасибо за внимание!
Download