Jdan

advertisement
Применение метода логистической регрессии
к задаче классификации пользователей виртуальных магазинов
Д.Г. Ждан
Моделирование случайных величин
Для моделирования поведения пользователей в Интернете использовались случайные
величины, распределенные по следующим законам:
Экспоненциальное распределение.
.
Экспоненциальное распределение может быть получено из непрерывного равномерного
распределения методом обратного преобразования. Пусть
. Тогда
Нормальное распределение.
Гауссовская нормальная случайная величина может быть смоделирована при помощи
преобразования Бокса — Мюллера. Пусть и
— независимые случайные величины,
равномерно распределённые на интервале (0, 1]. Вычислим и по формулам
Тогда и будут независимы и распределены нормально с математическим ожиданием 0 и
дисперсией 1. После получения стандартной нормальной случайной величины , можно
легко перейти к величине
распределённой нормально с математическим
ожиданием и стандартным отклонением по формуле
Это уже не является частью преобразования Бокса-Мюллера, но позволяет завершить
генерацию нормальной случайной величины.
Для решения задачи классификации пользователей в Интернете в работе был применен
метод логистической регрессии.
Постановка задачи логистической регрессии
Задана выборка - множество пар (
) , в которых описание -го элемента
значения зависимой переменной
.
,и
Принята
модель
логистической
регрессии,
согласно
переменные и зависимая переменная связаны зависимостью
которой свободные
,
где
.
Примем обозначения
, вектор
.
Для удобства дальнейшего изложения обозначим выборку свободных переменных как
Требуется найти такое значение вектора параметров
норме вектора невязок
, которое бы доставляло минимум
Алгоритм отыскания оптимальных параметров
Оптимальные
параметры
отыскиваются
последовательно
с
помощью
итерационного метода наименьших квадратов с использованием взвешивания элементов
выборки.
В начале работы алгоритма задаются параметры начального приближения: скаляр
, где
- среднее значение выборки зависимой переменной и
значения
для
.
Далее итеративно повторяется следующая процедура.
 С использованием вектора параметров вычисляется переменная

Вычисляется восстановленное значение выборки зависимой переменной

Вычисляется вектор значений зависимой переменной для текущего шага линейной
регрессии
,
где
- вектор весов значений зависимой переменной.
 Решается задача наименьших квадратов с взвешиванием элементов выборки. При этом
больший вес приобретают те элементы, которые имеют большую невязку
,
где диагональная матрица весов
.
Процедура останавливается после того, как норма разности векторов параметров на
каждой итерации не будет превышать заданную константу:
.
Моделирование метода и обработка данных
Использование логистической регрессии возможно при помощи стандартных средств
пакета Mathematica.
Таким образом, было смоделировано поведение двух классов
пользователей: 100 «хороших» (те пользователи, у которых зависимая переменная , отклик,
принимает значение равное единице) и 100 «плохих» ( отклик принимает значение равное
нулю). Пользователи характеризовались при помощи трех признаков (
).
В первом эксперименте поведение «хороших» пользователей моделировалось при
помощи гауссовского нормального распределении с матожиданием равным 1, 2 и 3 и с
дисперсией 1 соответственно для признаков
. Поведение же «плохих» пользователей
моделировалось при помощи гауссовского нормального распределении с матожиданием
равным 20, 21 и 22 и дисперсией 1. Получен устойчивый результат: 57% пользователей
отнесены к 1-му классу, 43%- ко второму (в то время как идеальный результат- 50% на 50%).
Порог принят равным 0.5.
При измененнии матожидания «плохих» пользователей в меньшую сторону, результат
стабильно ухудшался:
 матожидание 15,16,17, результат 58% к 42%,
 матожидание 10,11,12 , результат 61% к 39%,
 матожидание 6,7,8 , результат 63% к 37%,
 матожидание 4,5,6 , результат 68% к 32%.
 если взять пересекающиеся множества матожиданий, т.е. для первого класса
пользователей 1, 2, 3, а для второго 2,3,4, то результаты, естественно, ухудшаются
еще больше: 72% к 28%.
Во втором эксперименте поведение «хороших» пользователей моделировалось при
помощи экспоненциального распределении с матожиданием равным 1, 2 и 3 соответственно
для признаков
. Поведение «плохих» пользователей моделировалось при помощи
экспоненциального распределении с матожиданием равным 10, 11 и 12. Порог в 0.5 не дает
никаких результатов (0% принадлежат к первому классу). А вот если порог взять 0.65, то
результат очень хороший: 51% к 49%. Но при измененнии матожидания для «плохих»
пользователей в меньшую сторону результат ухудшается более стремительно, чем в случае
нормального распределения: если взять пересекающиеся матожидания, т.е. для первого
класса пользователей 1, 2, 3, а для второго 2,3,4, то результаты 81% к 19%.
Рассмотрим третий случай: данные для пользователей первого класса будут
распределены нормально, а для пользователей второго- экспоненциально. Как и во втором
эксперименте, порог 0.5 не оптимален(14%), а вот 0.65 опять дает очень хороший результат –
49.8%.
Ждан Дарья Геннадьевна, 4 курс
Научный руководитель: Чехменок С.Л.
Download