Автоматическое определение скачков часов в РСДБ- наблюдениях Докладчик Константин Яркоев

advertisement
Автоматическое определение
скачков часов в РСДБнаблюдениях
Докладчик Константин Яркоев
2009 г.
Введение
РСДБ – радиоинтерферометрия со
сверхлинной базой (станций)
  T1  T2
 oc   o   c

Антенна №1
Антенна №2
Рис. 1 Схема РСДБ-наблюдений
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
2/25
Наблюдения функции  (t ), непрерывной по
нулевой и первой производной
oc
Рис. 2
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
3/25
Наблюдения функции  (t ), имеющей разрыв
производной нулевого порядка
oc
Рис. 3
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
4/25
Наблюдения функции  (t ), имеющей разрыв
производной первого порядка
oc
Рис. 4
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
5/25
Наблюдения функции  (t ) , имеющей
устранимый разрыв первого рода
oc
Рис. 5
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
6/25
Диаграмма потока данных
Рис. 6
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
7/25
Постановка задачи
Требуется:
Разработать алгоритмы, которые позволяют
• определять скачки нулевого и первого порядков
• определять выбросы
Написать программную систему, которая позволяет
• считывать задержки  o c в формате пакета Quasar
• определять скачки нулевого и первого порядков
• определять выбросы
• компоновать и записывать результаты вычисления в
файл
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
8/25
Обзор существующих методов
определения скачков и выбросов
• Комплекс Mark CALC/SOLVE
– разрабатывается в NASA (США) c 1975 года
– определение выбросов с помощью метода трех сигм
– определение скачков вручную
• Пакет Quasar
– разрабатывается в ИПА РАН (Россия) с 1999 года
– определение выбросов с помощью метода трех сигм
– определение выбросов и скачков вручную с
помощью системы графической чистки данных
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
9/25
Гипотеза о виде шума
• Выдвинута гипотеза о нормальном законе
распределения шума
• Гипотеза подтверждена с помощью критерия
Пирсона с уровнем значимости 0.05
Рис. 7 Проверка гипотезы о нормальном
распределении шума
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
10/25
Алгоритмы
• Локальные фильтры
– Базовая эвристика
– Определение доверительных интервалов
• с использованием критерия трех сигм
• с использованием коэффициентов Стьюдента
• с использованием коэффициентов Снедекора
• Глобальные фильтры
– Эвристика для определения скачков
– Эвристика для определения выбросов
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
11/25
Локальный фильтр.
Гипотеза
k
Пусть мы оценили параметры ˆ j полинома   j  t
j 0
для первых i точек (t1, y1), … (ti, yi)
j
Гипотеза: очередная точка (ti+1, yi+1) принадлежит
функции, заданной полиномом с параметрами ˆ j с
уровнем значимости p
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
12/25
Локальный фильтр.
Эвристика для нахождение выброса.
y
yi 1
yi  2
ti 1 ti  2
t
Рис. 8 Нахождение выброса. (i+2) точка удовлетворяет гипотезе
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
13/25
Локальный фильтр.
Эвристика для нахождение скачка.
y
y
yi  2
yi 1
yi 1
yi  2
ti 1 ti  2
t
Рис. 9 Нахождение скачка нулевого порядка.
(i+2) точка не удовлетворяет гипотезе
воскресенье, 8 мая 2016 г.
t
ti 1 ti  2
Рис. 10 Нахождение скачка первого порядка.
(i+2) точка не удовлетворяет гипотезе
докладчик Яркоев Константин
14/25
Локальный фильтр.
Проход справа налево
y
t i ti  2
t
Рис. 11 При проходе слева найден левый край скачка с
индексом i+2. При проходе справа найден левый край
скачка с индексом i.
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
15/25
Оценивание интервала для ординаты линии
регрессии с помощью критерия трех сигм
P(a  3    a  3 )  Ф(3)  Ф(3)  2Ф(3)  2  0.49865  0.9973


2
1 i
Di   y j  (aˆ  t j  bˆ)
i j 1
y i 1  aˆ  ti 1  bˆ
y
y i 1  3  Di
y i 1
y i 1  yi 1  3  Di
y i 1  3  Di
ti 1
t
Рис. 12 Доверительный интервал для ординаты
с использованием критерия трех сигм
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
16/25
Оценивание доверительного интервала для ординаты
линии регрессии с использованием коэффициента
Стьюдента
n
n
S (a )   ( y i  y )  a   (t i  t ) 2
2
2
i 1
i 1
1 n
s (t )   (t i  t ) 2
n i 1
2
y  (ti 1  t )  aˆ  yi 1
воскресенье, 8 мая 2016 г.
2



1
t t 
 
 t(1 y ) / 2,n 2 
 S (aˆ )  1  
n  (n  2)
  s(t )  
докладчик Яркоев Константин
17/25
Оценивание доверительного интервала для
параметров линии регрессии с использованием
коэффициента Снедекора
n
n
S (a )   ( y i  y )  a   (t i  t ) 2
2
2
i 1
i 1
n
2
2
2 1
ˆ
ˆ
ˆ
(b  b)  2  t  (b  b)  (a  aˆ )  (b  b)    ti2 
S (aˆ )  F , 2,n  2
n i 1
2  (n  2)
b
b̂
â
a
Рис. 13 Доверительный интервал для параметров линии
регрессии с использованием критерия трех сигм
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
18/25
Глобальный фильтр.
Эвристика для нахождение выброса.
y
y
t
y
y
t
t
y
t
t
Рис. 14 Пример действия глобального алгоритма нахождения выброса
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
19/25
Глобальный фильтр.
Эвристика для нахождение скачка.
y
y
t
y
t
y
t
t
Рис. 15 Пример действия глобального алгоритма нахождения скачка
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
20/25
Проблемы при реализации
• Потеря точности при вычислении значения полинома в
точке. Необходимо нормирование временного ряда на
отрезок [0,1]
• Проблема необнаружения краевых выбросов и близких
скачков/выбросов. Необходимо рассмотрение краевых
случаев и случаев близких скачков/выбросов
• Необходим попарный анализ для определения станции
A
воскресенье, 8 мая 2016 г.
скачок
скачок
B
C
нет скачка
Рис. 16
докладчик Яркоев Константин
21/25
Сравнение различных методов
• Разработан критерий оценки качества методов для
нахождения скачков на основе суммы
среднеквадратичных отклонений
• Проведен эксперимент на основе 700 суточных
наблюдений
• Наилучший результат среди всех рассмотренных
фильтров дает глобальный фильтр. Значение
среднеквадратичных отклонений суточных
наблюдений после глобального фильтра даже меньше
чем после ручной обработки
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
22/25
Сравнение различных методов
методы обнаружения
Сумма
среднеквадратичных
отклонений
без обработки
4,9 108
обработка человеком
6.3  10 7
локальный фильтр с использованием критерия 3 сигм
1.4  10 8
локальный фильтр с использованием коэффициента Стьюдента
5.1  10 8
локальный фильтр с использованием коэффициента Снедекора
1.0  10 8
глобальный фильтр
3.1  10 7
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
23/25
Диаграмма вариантов использования
Quasar.Graphics
Open file
1
Select Base
1
Select Filter
1
1
11
1
1
1
11
Select Power
1
1
Save file
Customer
1
Draw o-c plot
1
Draw residuals plot
1
Draw distribution plot
Рис. 17 Диаграмма вариантов использования
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
24/25
Список результатов
• Выдвинуто и подтверждено предположение о
нормальном законе распределения шума
• Предложены эвристики, реализованы алгоритмы
нахождения скачков и выбросов
• Разработана программная система на языке C#,
включающая в себя набор библиотек, консольное и
графическое приложение
• Выбран критерий оценки качества для нахождения
скачков и выбросов. По результатам анализа
наилучший результат среди всех рассмотренных
фильтров дает глобальный фильтр.
воскресенье, 8 мая 2016 г.
докладчик Яркоев Константин
25/25
Download