IIS_Lab_4_my_report

advertisement
Поволжский государственный университет телекоммуникаций и информатики
Кафедра информационных систем и технологий
Отчет по лабораторной работе №4
по дисциплине
«Интеллектуальные информационные системы»
Выполнил: Уксусов К.С. ИСТ-72
Проверил: Пальмов С. В.
ТРАНСФОРМАЦИЯ ДАННЫХ
Разбиение даты
Разбиение даты служит для анализа всевозможных временных интервалов на основе имеющейся
информации о дате и времени. Суть разбиения заключается в том, что на основе столбца с
информацией о дате формируется другой столбец, в котором указывается, к какому заданному
интервалу времени принадлежит строка данных. Тип интервала задается аналитиком, исходя из того,
что он хочет получить: данные за год, квартал, месяц, неделю, день или сразу по всем интервалам.
Пусть нам необходимо получить данные по суммам взятых кредитов по неделям (в
файле "Credit.txt" содержится информация за первые две недели 2003 года).
Таким образом, на кросс-диаграмме имеем суммы взятых кредитов по неделям (за
первые две недели года) в разрезе целей кредитования.
Квантование
Квантование предназначено для преобразования непрерывных данных в дискретные. Преобразование
может проходить как по интервалам (данные разбиваются на заданное количество интервалов
одинаковой длины), так и по квантилям (данные разбиваются на интервалы разной длины так, чтобы в
каждом интервале находилось одинаковое количество записей). В качестве значений
результирующего набора данных могут выступать номер интервала, нижняя или верхняя граница
интервала, середина интервала либо метка интервала (значения определяемые аналитиком).
На кросс-диаграмме теперь видна информация о том, какие суммы кредитов берут
кредиторы определенных возрастных групп по неделям.
Настройка набора данных
Настройка набора данных применяется, когда необходимо изменить имя, метку, размер, тип, вид и
назначение полей текущей таблицы данных для более удобного дальнейшего использования. Кроме
того, в данном обработчике реализован механизм кэширования данных, который позволяет загрузить
данные в оперативную память и оптимизировать скорость выполнения сценариев.
Фильтрация данных
Фильтрация бывает необходима для разбиения данных на какие-либо группы (например, товарные)
для последующей обработки или анализа данных уже отдельно по каждой группе. Также некоторые
данные могут не подходить для дальнейшего анализа в силу накладываемых условий (например, если
на каком–либо этапе обработки данных были выявлены противоречивые записи, то их следует
исключить из последующей обработки). В этом случае также возникает необходимость фильтрации
записей.
Замена значений
Данный обработчик предназначен для замены значений по таблице подстановок, которая содержит
пары, состоящие из исходного и измененного значения. Кроме того, замену часто используют для
замены пустых значений на константу.
Группировка данных
Группировка позволяет объединять записи по полям-измерениям и агрегировать данные в поляхфактах для дальнейшего анализа.
Преобразование данных к скользящему окну
Когда требуется прогнозировать временной ряд, тем более, если налицо его периодичность
(сезонность), то лучшего результата можно добиться, учитывая значения факторов не только в данный
момент времени, но и, например, за аналогичный период прошлого года. Такую возможность можно
получить после трансформации данных к скользящему окну.
Как видно, теперь в качестве входных факторов можно использовать "Количество - 12", "Количество 11" - данные по количеству 12 и 11 месяцев назад (относительно прогнозируемого месяца) и
остальные необходимые факторы. В качестве результата прогноза будет указан столбец "Количество".
Слияние
Обработчик "Слияние" предназначен для объединения двух наборов данных по нескольким
одинаковым полям. Обработчик применяется, например, для добавления в таблицу с данными о
продажах данных по остаткам за те же месяцы. Операция производится над двумя таблицами:
исходной и присоединяемой. К исходной таблице добавляются новые поля и/или строки, значения
которых берутся из присоединяемой таблицы.
Красный (верхний) – количество
Зелёный (нижний) – остаток
При помощи слияния удалось объединить объем продаж с объемом остатков.
Download