Загрузил •Just Lead•

Статистика в анализе данных

реклама
Статистика в
анализе данных
Халиуллин Шамиль, 2 курс ЭУБ-1
Статистика как прикладная наука
От латинского «status»
Что в переводе означает положение,
состояние, порядок явлений
Вместо Государствоведения
В 18 веке в Германии предложили заменить
государствоведение на статистику
В самых разных отраслях
Экономика, демография,
промышленность, банкинг, Big Data
Аналитическая задача
Вы – аналитик VK
Ваша задача – понять, какая из версий
приложения больше нравиться
пользователям.
А/Б тесты
А/Б тестирование Сравнение двух версий чего-либо,
чтобы выяснить, какая из них лучше
Шаги:
1)
2)
3)
4)
Определить метрику, по которой мы
будем проводить сравнение
Разделить аудитории на две группы
Сбор данных
Сравнение данных и интерпретация
результатов
Данные
Группа А (старая версия):
Группа Б (новая версия):
•Количество пользователей: n1​=2000
•Среднее время в приложении: x1​=150
минут
•Стандартное отклонение: s1​=30 минут
•Количество пользователей: n1​=100
•Среднее время в приложении: x1​=165
минут
•Стандартное отклонение: s1​=35 минут
Нормальное распределение минут
Формула Стьюдента
- статистический метод, используемый для проверки гипотез о равенстве средних
значений в двух группах
Условия применения критерия:
•Нормальность распределения данных
•Независимость выборок
•Примерное равенство дисперсий
𝑥2 − 𝑥1
𝑇=
𝑠1 𝑠2
+
𝑛1 𝑛2
Правило трех сигм
Первой сигме соответствует 68% всех
наблюдений, второй 95% наблюдений,
третьей – 99,7% наблюдений.
У нас же количество сигм – 4,2!
Другие статистические методы
•
•
•
•
•
•
Критерий Манна-Уитни
Множественное сравнение ANOVA
Критерий Тьюки
Линейная регрессия
Нелинейная регрессия
Кластеризация
Спасибо за внимание!
Скачать