Задание 5 Задача 1 Используйте данные в файле data.xls для создания линейной модели стоимости московских квартир. Попробуйте добавить в модель разные факторы (площадь, число комнат, расстояние до метро, крайний этаж, тип дома и т.п.). При добавлении категориальных факторов учитывайте, сколько примеров с каждым классом имеется в данных. Например, ситуация по типам домов выглядит так: Обозначение Б П Ж-б Смысл Блочный Панельный Железнобетонный Сколько наблюдений 397 2150 1 Что делать Объединить с панельным Оставить Удалить или объединить с панельными К Кирпич 1979 Оставить М-К Монолит-кирпич 613 Объединить с монолит М Монолит 1963 Оставить Ста Сталиника 350 Оставить? Шла Шлакоблок 1 Удалить При вводе категориальных факторов не кодируйте их числами (1 – К, 2 – Ста и т.п.), вместо этого используйте по одной новой переменной для каждой категории, и устанавливайте её в 1 для наблюдений, которые относятся к этой категории, и в 0 для остальных. Например, для типа дома надо будет создать 4 переменные и кодировать следующим образом (строки таблицы – исходный тип дома из файла, столбцы – новые переменные для регрессии): П К П (и Б) 1 0 К 0 1 М (и М-К) 0 0 Ста 0 0 Аналогичным образом можно поступить с ближайшими балконов и т.п. М 0 0 1 0 станциями метро, Ста 0 0 0 1 наличием лифтов, Для контроля качества модели при добавлении переменных обязательно используйте разбиение на тестовую и обучающую выборки.