Статистика в анализе данных Халиуллин Шамиль, 2 курс ЭУБ-1 Статистика как прикладная наука От латинского «status» Что в переводе означает положение, состояние, порядок явлений Вместо Государствоведения В 18 веке в Германии предложили заменить государствоведение на статистику В самых разных отраслях Экономика, демография, промышленность, банкинг, Big Data Аналитическая задача Вы – аналитик VK Ваша задача – понять, какая из версий приложения больше нравиться пользователям. А/Б тесты А/Б тестирование Сравнение двух версий чего-либо, чтобы выяснить, какая из них лучше Шаги: 1) 2) 3) 4) Определить метрику, по которой мы будем проводить сравнение Разделить аудитории на две группы Сбор данных Сравнение данных и интерпретация результатов Данные Группа А (старая версия): Группа Б (новая версия): •Количество пользователей: n1=2000 •Среднее время в приложении: x1=150 минут •Стандартное отклонение: s1=30 минут •Количество пользователей: n1=100 •Среднее время в приложении: x1=165 минут •Стандартное отклонение: s1=35 минут Нормальное распределение минут Формула Стьюдента - статистический метод, используемый для проверки гипотез о равенстве средних значений в двух группах Условия применения критерия: •Нормальность распределения данных •Независимость выборок •Примерное равенство дисперсий 𝑥2 − 𝑥1 𝑇= 𝑠1 𝑠2 + 𝑛1 𝑛2 Правило трех сигм Первой сигме соответствует 68% всех наблюдений, второй 95% наблюдений, третьей – 99,7% наблюдений. У нас же количество сигм – 4,2! Другие статистические методы • • • • • • Критерий Манна-Уитни Множественное сравнение ANOVA Критерий Тьюки Линейная регрессия Нелинейная регрессия Кластеризация Спасибо за внимание!