Автоматическое определение скачков часов в РСДБнаблюдениях Докладчик Константин Яркоев 2009 г. Введение РСДБ – радиоинтерферометрия со сверхлинной базой (станций) T1 T2 oc o c Антенна №1 Антенна №2 Рис. 1 Схема РСДБ-наблюдений воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 2/25 Наблюдения функции (t ), непрерывной по нулевой и первой производной oc Рис. 2 воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 3/25 Наблюдения функции (t ), имеющей разрыв производной нулевого порядка oc Рис. 3 воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 4/25 Наблюдения функции (t ), имеющей разрыв производной первого порядка oc Рис. 4 воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 5/25 Наблюдения функции (t ) , имеющей устранимый разрыв первого рода oc Рис. 5 воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 6/25 Диаграмма потока данных Рис. 6 воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 7/25 Постановка задачи Требуется: Разработать алгоритмы, которые позволяют • определять скачки нулевого и первого порядков • определять выбросы Написать программную систему, которая позволяет • считывать задержки o c в формате пакета Quasar • определять скачки нулевого и первого порядков • определять выбросы • компоновать и записывать результаты вычисления в файл воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 8/25 Обзор существующих методов определения скачков и выбросов • Комплекс Mark CALC/SOLVE – разрабатывается в NASA (США) c 1975 года – определение выбросов с помощью метода трех сигм – определение скачков вручную • Пакет Quasar – разрабатывается в ИПА РАН (Россия) с 1999 года – определение выбросов с помощью метода трех сигм – определение выбросов и скачков вручную с помощью системы графической чистки данных воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 9/25 Гипотеза о виде шума • Выдвинута гипотеза о нормальном законе распределения шума • Гипотеза подтверждена с помощью критерия Пирсона с уровнем значимости 0.05 Рис. 7 Проверка гипотезы о нормальном распределении шума воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 10/25 Алгоритмы • Локальные фильтры – Базовая эвристика – Определение доверительных интервалов • с использованием критерия трех сигм • с использованием коэффициентов Стьюдента • с использованием коэффициентов Снедекора • Глобальные фильтры – Эвристика для определения скачков – Эвристика для определения выбросов воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 11/25 Локальный фильтр. Гипотеза k Пусть мы оценили параметры ˆ j полинома j t j 0 для первых i точек (t1, y1), … (ti, yi) j Гипотеза: очередная точка (ti+1, yi+1) принадлежит функции, заданной полиномом с параметрами ˆ j с уровнем значимости p воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 12/25 Локальный фильтр. Эвристика для нахождение выброса. y yi 1 yi 2 ti 1 ti 2 t Рис. 8 Нахождение выброса. (i+2) точка удовлетворяет гипотезе воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 13/25 Локальный фильтр. Эвристика для нахождение скачка. y y yi 2 yi 1 yi 1 yi 2 ti 1 ti 2 t Рис. 9 Нахождение скачка нулевого порядка. (i+2) точка не удовлетворяет гипотезе воскресенье, 8 мая 2016 г. t ti 1 ti 2 Рис. 10 Нахождение скачка первого порядка. (i+2) точка не удовлетворяет гипотезе докладчик Яркоев Константин 14/25 Локальный фильтр. Проход справа налево y t i ti 2 t Рис. 11 При проходе слева найден левый край скачка с индексом i+2. При проходе справа найден левый край скачка с индексом i. воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 15/25 Оценивание интервала для ординаты линии регрессии с помощью критерия трех сигм P(a 3 a 3 ) Ф(3) Ф(3) 2Ф(3) 2 0.49865 0.9973 2 1 i Di y j (aˆ t j bˆ) i j 1 y i 1 aˆ ti 1 bˆ y y i 1 3 Di y i 1 y i 1 yi 1 3 Di y i 1 3 Di ti 1 t Рис. 12 Доверительный интервал для ординаты с использованием критерия трех сигм воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 16/25 Оценивание доверительного интервала для ординаты линии регрессии с использованием коэффициента Стьюдента n n S (a ) ( y i y ) a (t i t ) 2 2 2 i 1 i 1 1 n s (t ) (t i t ) 2 n i 1 2 y (ti 1 t ) aˆ yi 1 воскресенье, 8 мая 2016 г. 2 1 t t t(1 y ) / 2,n 2 S (aˆ ) 1 n (n 2) s(t ) докладчик Яркоев Константин 17/25 Оценивание доверительного интервала для параметров линии регрессии с использованием коэффициента Снедекора n n S (a ) ( y i y ) a (t i t ) 2 2 2 i 1 i 1 n 2 2 2 1 ˆ ˆ ˆ (b b) 2 t (b b) (a aˆ ) (b b) ti2 S (aˆ ) F , 2,n 2 n i 1 2 (n 2) b b̂ â a Рис. 13 Доверительный интервал для параметров линии регрессии с использованием критерия трех сигм воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 18/25 Глобальный фильтр. Эвристика для нахождение выброса. y y t y y t t y t t Рис. 14 Пример действия глобального алгоритма нахождения выброса воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 19/25 Глобальный фильтр. Эвристика для нахождение скачка. y y t y t y t t Рис. 15 Пример действия глобального алгоритма нахождения скачка воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 20/25 Проблемы при реализации • Потеря точности при вычислении значения полинома в точке. Необходимо нормирование временного ряда на отрезок [0,1] • Проблема необнаружения краевых выбросов и близких скачков/выбросов. Необходимо рассмотрение краевых случаев и случаев близких скачков/выбросов • Необходим попарный анализ для определения станции A воскресенье, 8 мая 2016 г. скачок скачок B C нет скачка Рис. 16 докладчик Яркоев Константин 21/25 Сравнение различных методов • Разработан критерий оценки качества методов для нахождения скачков на основе суммы среднеквадратичных отклонений • Проведен эксперимент на основе 700 суточных наблюдений • Наилучший результат среди всех рассмотренных фильтров дает глобальный фильтр. Значение среднеквадратичных отклонений суточных наблюдений после глобального фильтра даже меньше чем после ручной обработки воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 22/25 Сравнение различных методов методы обнаружения Сумма среднеквадратичных отклонений без обработки 4,9 108 обработка человеком 6.3 10 7 локальный фильтр с использованием критерия 3 сигм 1.4 10 8 локальный фильтр с использованием коэффициента Стьюдента 5.1 10 8 локальный фильтр с использованием коэффициента Снедекора 1.0 10 8 глобальный фильтр 3.1 10 7 воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 23/25 Диаграмма вариантов использования Quasar.Graphics Open file 1 Select Base 1 Select Filter 1 1 11 1 1 1 11 Select Power 1 1 Save file Customer 1 Draw o-c plot 1 Draw residuals plot 1 Draw distribution plot Рис. 17 Диаграмма вариантов использования воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 24/25 Список результатов • Выдвинуто и подтверждено предположение о нормальном законе распределения шума • Предложены эвристики, реализованы алгоритмы нахождения скачков и выбросов • Разработана программная система на языке C#, включающая в себя набор библиотек, консольное и графическое приложение • Выбран критерий оценки качества для нахождения скачков и выбросов. По результатам анализа наилучший результат среди всех рассмотренных фильтров дает глобальный фильтр. воскресенье, 8 мая 2016 г. докладчик Яркоев Константин 25/25