Uploaded by ulanabulygina5

BigData 1

advertisement
МИНИСТЕРСТВО ПРОСВЕЩЕНИЯ РФ
ФГБОУ ВО БАШКИРСКИЙ ГОСУДАРСТВЕННЫЙ ПЕДАГОГИЧЕСКИЙ
УНИВЕРСИТЕТ ИМ.М.АКМУЛЛЫ
Кафедра Информационных технологий
Отчет по лабораторной работе № 1
На тему «ОБРАБОТКА ДАННЫХ. ОСНОВНЫЕ АЛГОРИТМЫ
ПО ОЧИСТКЕ И ТРАНСФОРМАЦИИ ДАННЫХ В DEDUCTOR»
По дисциплине «Big-data, анализ данных и прогнозирование»
Выполнил:
Студент группы ИСИТ-31-21
Булыгина У.А.
Проверил:
преподаватель каф.ИТ
Маликов Р.Ф.
Уфа 2024
Ход работы
Цель работы: ознакомиться и приобрести умения и навыки
трансформации данных при подготовке их к анализу, приобретение
практических навыков по использованию инструментария Deductor.
Импорт Credit.txt для исходных данных
Назначение используемым “Дата кредитования” и тип данных строка для
“Год+Неделя”
Выбор “Куб” в качестве визуализатора
Назначение столбца "Дата кредитования_YWStr (Год + Неделя)" и столбца
"Цель кредитования" как “Измерение”, а столбца “Сумма кредита” как
“Факт”. “Неиспользуемое” для других столбцов
Перенос одного измерения из области "доступных" в область" Измерения в
строках", а другого – в область "Измерения в столбцах".
Выводится кросс-диаграмма с суммами взятых кредитов по неделям (за
первые две недели года) в разрезе целей кредитования.
Выбираем назначение поля "Возраст" используемым, укажем способ
разбиения "По интервалам", зададим количество интервалов равное 5, в
качестве значения выберем "Метка интервала".
Определим сами метки соответственно возраста кредиторов
Выбор “Куб” в качестве визуализатора
В Мастере укажем "Сумма кредита" в качестве факта, "Возраст" и поле "Дата
кредитования (Год +Неделя)" в качестве измерения, остальные поля укажем
неиспользуемыми.
Далее перенесем "Возраст" из доступных измерений в "Измерения в
строках", a "Дата кредитования (Год + Неделя)" в "Измерения в столбцах".
На кросс-диаграмме будет видна информация о том, какие суммы кредитов
берут кредиторы определенных возрастных групп по неделям.
Настройка набора данных. Изменяем метку столбца на более
информативную
Установка вида данных “Дискретный” для столбца “Срок кредита”
Настройка измерений
Отчет в виде кросс-таблицы
Фильтрация данных по имени поля “Сумма кредита”, условию “<”, значению
“10000”
Результат фильтрации в таблице
Проверка правильности выполненной операции, выбрав в качестве
визуализации данных статистику и просмотрев значения минимального и
максимального значения поля "Сумма кредита".
Замена данных. Добавление списка значений для пола:муж и жен. Замена
этих значений на полные слова.
Выбор визуализации “Куб”
Укажем в качестве измерений поля "Пол" и "Цель кредитования", а в
качестве факта "Сумма кредита". Остальные поля отметим как
"неиспользуемый".
Получаем отчет в виде кросс-таблицы
Импорт Banks.txt
Настройка столбцов
После обработки получим суммарные данные по прибыли всех банков по
каждому городу.
Импорт Trade.txt
Указывание точки в качестве разделителя дробной и целой части
Теперь в качестве входных факторов можно использовать "Количество - 12",
"Количество - 11" - данные по количеству 12 и 11 месяцев назад
Выбор узла связи и типа слияния данных
Установка связи между наборами данных
Укажем необходимые взаимосвязи между столбцами двух узлов сценария
Полученные результаты будут представлены в виде диаграммы
Вывод: В результате проделанной лабораторной работы мы ознакомились и
приобрели умения и навыки трансформации данных при подготовке их к
анализу, приобрели практические навыки по использованию инструментария
Deductor.
Download