1178 УДК 519.21 МОДЕЛИРОВАНИЕ ЭКСТРЕМУМОВ СЛУЧАЙНЫХ ПРОЦЕССОВ И ИХ ПРИМЕНЕНИЕ Н.М. Маркович Институт проблем управления им. В.А. Трапезникова РАН Россия, 117997, Москва, Профсоюзная ул., 65 E-mail: [email protected] Ключевые слова: Экстремумы случайных процессов, кластеры превышений уровня, экстремальный индекс, логарифмическая производная, качество передачи пакетов в Интернете Аннотация: Современные исследования показывают, что распределения с тяжелыми хвостами могут быть использованы, как реалистичные модели многих явлений. Для нетипичных наблюдений случайных процессов, превышающих заданный достаточно высокий уровень, характерна кластерность. Это означает, что такие наблюдения обычно происходят не по одному, а группами. Такие кластеры или конгломераты последовательных превышений уровня вызываются зависимостями в случайных процессах и тем, что их распределения имеют тяжелый хвост. В работе [6] доказывается, что асимптотически эквивалентные распределения размеров кластеров (числа последовательных превышений) и межкластеров (числа последовательных непревышений) имеют геометрический тип. При этом в качестве уровней используются квантили исследуемого процесса. Геометрические модели обеспечивают простые и точные аппроксимации распределений и моментов размеров кластеров и межкластеров. Результаты моделирования хорошо согласуются с точными аналитическими формулами кластерных характеристик рассматриваемых процессов. 1. Введение Интерес к экстремумам случайных процессов, проявляющихся в кластерах превышений уровня, растет вследствие многочисленных приложений, например в климатологии, сейсмологии, финансах, сложных системах массового обслуживания таких, как Интернет, астрофизике. Предельные распределения размеров кластеров и межкластеров были исследованы в немногих статьях, например, в [3], [4], [11], [12]. В этих статьях моделирование таких предельных распределений основано на рассмотрении точечного процесса превышений, т.е. используются моменты наступления превышений. Еще меньше работ посвящено статистическому моделированию и идентификации распределений кластеров по выборкам конечного объема. В [1] предлагается рекурсивная оценка распределения размера кластера на основе эмпирических моментов количества межкластерных наблюдений. В [2] доказано, что предельное распределение количества межкластерных наблюдений, нормализованное на хвосто- XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г 1179 вую функцию процесса, экпоненциально с весом, равным так называемому экстремальному индексу. Пусть {Rn : n > 1} стационарная последовательность случайных величин с функцией распределения F (x), а Mn = max{R1 , ..., Rn } - максимум, полученный по конечной выборке наблюдений процесса. Предполагается, что P {R1 = xF } = 0, где xF = sup{x : F (x) < 1} конечная точка распределения F (x). Пусть {Xi : i > 1} стационарная последовательность временных промежутков между последовательными наблюдениями {Rn }. Следуя работе [2], в [6] рассматривался размер межкластеров, т.е. случайная величина T1 (u) - число временных промежутков между интересующими нас событиями (например, пакетами, передаваемыми по Интернету), возникающими между двумя последовательными превышениями процессом {Rn }n>1 уровня u, т.е. T1 (u) = min{j > 1 : M1,j 6 u, Rj+1 > u|R1 > u}, где M1,j = max{R2 , ..., Rj }, M1,1 = −∞. Также был введен размер кластера или число временных промежутков между интересующими нас событиями, возникающими между двумя последовательными непревышениями T2 (u) = min{j > 1 : L1,j > u, Rj+1 6 u|R1 6 u}, где L1,j = min{R2 , ..., Rj }, L1,1 = +∞. Предполагалось, что для каждого 0 < τ < ∞ существует последовательность действительных чисел un = un (τ ) таких, что выполнено (1) lim n(1 − F (un )) = τ, n→∞ lim P {Mn 6 un } = e−τ θ . n→∞ Эти условия, задающие достаточно высокие уровни {un }, были введены в [5], p.53. В [6] доказано, что асимптотически эквивалентные распределения T1 (xρ ) и T2 (xρ ) имеют геометрический тип. Содержание работы следующее. В параграфе 2. описывается асимптотически эквивалентные геометрические распределения случайных величин T1 (xρ ) и T2 (xρ ), полученное в [6]. Также приведены результаты, касающиеся асимптотических первых двух моментов этих случайных величин. Результаты иллюстрируются примером кластерных характеристик процесса ARMAX в параграфе 3.. В параграфе 4. обсуждается связь между логарифмической производной нормированной случайной величины T1 (xρ ) и экстремального индекса. Параграф 5. посвящен применению кластеров в телекоммуникациях для оптимизации и управления качеством передачи пакетов видео и голосовых сообщений по Интернету. 2. Основные результаты Для доказательства Теоремы 1 использовался следующий коэффициент перемешивания, приведенный в [2]. Определение 1. Пусть для действительного u и целых 1 6 k 6 l Fk,l (u) -это σ-алгебра, генерируемая событиями {Ri > u}, k 6 i 6 l. Определим коэффициенты перемешивания αn,q (u), (2) αn,q (u) = max sup |P (B|A) − P (B)|, 16k6n−q XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г 1180 где супремум берется по всем A ∈ F1,k (u) с P (A) > 0 и B ∈ Fk+q,n (u), а k, q положительные целые числа. В [6] квантили процесса Rt используются в качестве уровней {un }. Доказан следующий результат. Рассмотрим разбиение интервала [1, j] для фиксированного j, а именно, ∗ ∗ ∗ = [jkn,i /n] + 1, i = {1, 2}, = j, kn,i = 1, kn,5 kn,0 ∗ ∗ (3) kn,4 = j − [jkn,3 /n], kn,3 = j − [jkn,4 /n], соответствующее разбиению интервала [1, n] (4) {kn,i−1 = o(kn,i ), i ∈ {2, 3, 4}}, kn,4 = o(n), n → ∞, ∗ ∗ ∗ ∗ ∗ ∗ где n - объем выборки. Здесь kn,1 и kn,2 стремятся к 1, kn,3 и kn,4 к j, а {[kn,2 , kn,3 ]} последовательность расширяющихся интервалов при n → ∞. Теорема 1. [6]: Пусть {Rn }n>1 - стационарный процесс с экстремальным индексом θ. Пусть {xρn } и {xρ∗n } последовательности квантилей R1 уровней {1−ρn } и {1 − ρ∗n }, соответственно, которые удовлетворяют условиям (1), если un заменено на xρn или на xρ∗n и qn = 1 − ρn , qn∗ = 1 − ρ∗n , ρ∗n = (1 − qnθ )1/θ . Пусть положительные ∗ }, i = 0, 5, и {kn,i }, i = 1, 4, определены как в (3) и (4), p∗n,i = o(∆n,i ), целые {kn,i ∗ ∗ i ∈ {1, 2, ..., 5}, {p∗n,3 } - возрастающая последовательность, ∆n,i = kn,i − kn,i−1 , и ∗ ∗ qn,i = o(pn,i ), такое, что выполнено ∗ ,q ∗ ; αk ∗ ,q ∗ ; α∆ ∗ ∗ ∗ (5) αn∗ (xρn ) = max{αkn,4 n,3 ,qn,3 ; αj+1−kn,2 ,qn,4 ; n,1 n,3 n,2 ∗ ,q ∗ ; αj+1,k ∗ −k ∗ } = o(1) αj+1−kn,1 n,5 n,4 n,1 при n → ∞, где αn,q = αn,q (xρn ) определена как (2), тогда выполнено для j > 1 lim P {T1 (xρn ) = j}/(ρn (1 − ρn )(j−1)θ ) = 1, n→∞ lim P {T2 (xρ∗n ) = j}/(qn∗ (1 − qn∗ )(j−1)θ ) = 1, n→∞ и если дополнительно последовательность {Rn } удовлетворяет условию перемеши∗ ∗ вания D00 (xρn ) на [1, kn,1 + 2] и [kn,4 − 1, j + 1], то выполнено для j > 1 lim P {T1 (xρn ) = j}/(ρn (1 − ρn )(j−1)θ ) > θ2 , n→∞ lim P {T2 (xρ∗n ) = j}/(qn∗ (1 − qn∗ )(j−1)θ ) > θ2 . n→∞ Экстремальный индекс θ показывает отклонение асимптотических распределений от геометрического. Кроме того, в [6] доказаны асимптотически эквивалентный первый момент размера кластера, а также распределение продолжительности кластера. В дополнение в [7] приведены асимптотические первые два момента размеров кластеров и межкластерных расстояний. Результат (8) для первого момента размера кластера T2 (u) доказан в [6]. Он может быть обобщен на T1 (u) с помощью следующей леммы. Лемма 1. Пусть выполнены условия Теоремы 1, и последовательность {Rn } удовлетворяет условию перемешивания (5). Если для некоторого ε > 0 выполнено (6) sup E(T11+ε (xρn ))/Λn,1 < ∞, Λn,1 = 1/(1 − (1 − ρn )θ )2 , n то следует limn→∞ E(T1 (xρn ))/(Λn,1 ρn ) = 1, и, если выполнено (7) sup E(T21+ε (xρ∗n ))/Λn,2 < ∞, n Λn,2 = qn∗ /(1 − (1 − qn∗ )θ )2 , XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г 1181 то следует (8) lim E(T2 (xρ∗n ))/Λn,2 = 1. n→∞ Этот результат может быть распространен на моменты более высоких порядков. P∞Замечание 1. Условия (6) и (7) необходимы дял равномерной сходимости рядов j=1 jP {Ti (xρn ) = j}/Λn,i , i ∈ {1, 2} по n. Условия выполнены, например, для геометрически распределенных Ti (xρn ), i ∈ {1, 2} с θ = 1, когда P {T1 (xρn ) = j} = ρn (1 − ρn )(j−1) и P {T2 (xρn ) = j} = qn (1 − qn )(j−1) . Для 0 < ε < 1 имеем E(T11+ε (xρn ))/Λn,1 < E(T12 (xρn ))/Λn,1 = 2 − ρn < ∞ и E(T21+ε (xρn ))/Λn,2 < E(T22 (xρn ))/Λn,2 = (2 − qn )/qn < ∞ для таких n, что ρn и qn удовлетворяют (3), т.е. ρn ∼ τ /n и qn ∼ 1 − τ /n. 3. Иллюстрации В качестве иллюстрации аппроксимируем первые два момента T1 (xρn ) авторегрессионного процесса максимума (ARMAX) геометрическими первыми двумя моментами 1/(1 − q) и (1 + q)/(1 − q)2 , а также полученными из Леммы 1 моделями θ2 (1 − q)/(1 − q θ )2 и θ2 (1 − q)(1 + q θ )/(1 − q θ )3 соответственно, Рис. 1. , Рис. 1. Моделирование E(T1 (xρ )) и E(T1 (xρ ))2 процесса ARMAX для различных уровней квантилей q и θ = 0.6 с помощью геометрических моментов и Леммы 1. 4. Экстремальный индекс и логарифмическая производная Функции очков (score function) такие, как логарифмическая производная плотности распределения вероятностей и t-скор функция, применяются во многих задачах управления динамическими системами. Однако их оценивание по выборкам ограниченных объемов требует непараметрического оценивания плотности распределения вероятностей и ее производной, что является трудной задачей. Для преодоления этой проблемы в [10] рассматривается случайная величина T1 (u) - количество наблюдений процесса между двумя кластерами превышений уровня u, которая нормируется на хвостовую функцию распределения процесса F (u). Предельное распределение F (u)T1 (u) экспоненциальное с весом, равным экстремальному индексу θ, как доказано в [2]. Воспользовавшись этим результатом, найдено, что логарифмическая XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г 1182 производная нормированной случайной величины T1 (u) может быть аппроксимированна экстремальным индексом. Последний может быть оценен известными непараметрическими оценками, например, интервальной, предложенной в [2]. Кроме того, найдено соотношение между скор-функциями исходного процесса и нормированной случайной величины T1 (u). Если первая скор-функция несет информацию о распределении, то вторая о структуре зависимости. В [10] соотношения демонстрируются для процессов ARMAX, moving maxima, moving average и AR(1) для иллюстрации методологии. 5. Приложения в телекоммуникационных системах В [8], [9] рассматривается проблема качества передачи пакетов информации в мультимедийных оверлейных сетях. В связи с этим в [8] предлагается соотношение между вероятностью потери Pm передаваемых видео пакетов, длины пути пакета в оверлейной сети, пропускной способности узлов сети и временем задержки в узле доставки. Поскольку потоки пакетов используют один канал и его пропускную способность, то определяется эквивалентная пропускная способность на основе предполагаемой безбуферной модели. Наименьшая эквивалентная пропускная способность u, обеспечивающая наилучший баланс между средней задержкой между успешно переданными пакетами и средним временем передачи пакетов без потерь, предлагается как оптимальная пропускная способность. Показано, что u меньше максимальной скорости передачи пакетов. Время задержки b в узле доставки рассматривается как квантиль распределения задержки пакета. Доказано, что нормализованная длина пути пакета в оверлейной сети имеет геометрическое распределение. Статья [9] посвящена анализу телетрафика и качеству передачи пакетов в пир-ту-пир системах. Применяя теорию экстремальных событий, доказывается, что предельное распределение задержки пакета, т.е. время его доставки от источника к потребителю, имеет субэкспоненциальное распределение с тяжелыми хвостами, если временные промежутки между пакетами распределены с тяжелыми хвостами. Работа выполнена при поддержке Российского фонда фундаментальных исследований (13-08-00744 A). Список литературы 1. 2. 3. 4. 5. 6. Ferro C.A.T. Statistical mehtods for clusters of extreme values. Ph.D. thesis. Lancaster Univ., 2003. Ferro C.A.T., Segers J. Inference for Clusters of Extreme Values // J. R. Statist. Soc. B. 2003. Vol. 65. P. 545-556. Hsing T. Estimating the parameters of rare events // Stochastic Process. Appl. 1991. Vol. 37. P. 117-139. Hsing T., Huesler J., Leadbetter M.R. On the exceedance point process for a stationary sequence // Prob. Theory Relat. Fields. 1988. Vol. 78. P. 97-112. Leadbetter M.R., Lingren G., Rootzén H. Convergence of the Point Process of Exceedances, and the Distribution of kth Largest Maxima // Extremes and Related Properties of Random Sequence and Processes. New York: Springer, 1983. Ch. 3. P. 101-122. Markovich N. Modeling clusters of extreme values // Extremes. 2013. (Accepted) XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г 1183 7. 8. 9. 10. 11. 12. Markovich N.M. Moments of cluster characteristics of time series // Proceedings of the Workshop Extremes in Vimeiro Today EVT ’2013 in honour of Ivette Gomes. Vimeiro, Portugal, 8-11 September, 2013. P. 97-101. ISBN: 978-989-733-023-0 Markovich N.M. Quality Assessment of the Packet Transport of Peer-to-Peer Video Traffic in High-Speed Networks // Performance Evaluation. 2013. Vol. 70. P. 28-44. Markovich N.M. Stochastic Inferences of Packet Transmission in Peer-To-Peer Overlay Networks // IFAC-PapersOnLine. ISSN: 1474-6670. Manufacturing Modelling, Management, and Control. 2013. Vol. 7. Part 1. P. 922-927. Markovich N.M., Stehlik M. On relationship between score functions and extremal index // IFACPapersOnLine. ISSN: 1474-6670. Manufacturing Modelling, Management, and Control. 2013. Vol. 7. Part 1. P. 933-938. Robert C.Y. Inference for the limiting cluster size distribution of extreme values // The Annals of Statistics. 2009. Vol. 37, No. 1. P. 271-310. Robinson M.E., Tawn J.A. Extremal analysis of processes sampled at different frequences // Journal of the Royal Statistical Society Series B. 2000. Vol. 62, No. 1. P. 117–135. XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г