Адаптивная оптимизация сервера , обрабатывающего очередь

АДАПТИВНАЯ ОПТИМИЗАЦИЯ СЕРВЕРА , ОБРАБАТЫВАЮЩЕГО ОЧЕРЕДЬ ЗАДАНИЙ Дипломная работа студента 545 группы Ле Чунг Хьеу Научный руководитель : О. Н. Граничин Рецедент : А. С. Лопатин Санкт – Петербург 2007 ВВЕДЕНИЕ    Проблема эффективного обслуживания сервером очереди заданий. Рандомизированный алгоритм стохастической аппроксимации. Обучение с подкреплением. ПОСТАНОВКА ЗАДАЧИ  Рассмотрим задачу повышения эффктивности сервера: L(x) – среднее время ожидания клиентами.  q(x) – стоимость исползования параметра x.  y(x) – время, которое задание ожидало в сервере до момента своего завершения.   Требуется найти параметра θ : f(x) → min по x ( Θ ) ПОСТАНОВКА ЗАДАЧИ Эту задачу оптимизации не решить традиционными средствами.  F(x,ω) – эмпирическая функция. f(x) = E{F(x,ω)}.  Ft(x,ω) – случайная функция дескретного времени t = 1 , 2 , . . . ft(x) = Eω{Ft(x,ω)}. θt = argminxft(x).  Требуется по наблюдениям Ft(x,ω) → {θn} |θn - θt|→ min.  ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ o  Обучение с подкреплением, представляет класс задач, в которых агент, действуя в определенной среде, должен найти оптимальную стратегию взаимодействия с ней. Цель агента – максимизировать суммарную награду. ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ  Оценочная Функция : V π ( s )  E π {R t | s t  s} Q π (s, a)  E π {R t | s t  s, a t  a} RL алгоритмы основано на оценке оценочной функцией.  Оценка Стратегии.  Усовершенствование Стратегии.  Повторение Стратегии.  РАНДОМИЗИРОВАННЫЕ АЛГОРИТМЫ СТОХАСТИЧЕСКОЙ АППРОКСИМАЦИИ    p r Пусть F(ω(x) : R  R  R - дифференцируемая по второму аргументу. n n Наблюдении y n  F(ω , x )  v n . Требуется по наблюдениям : y1 , y2 , . . . построить последовательность оценок {θn} вектора θ : f(x)   p F(ω(x)Pω (dω)  min R SPSA ДЛЯ РЕШЕНИЯ ЗАДАЧИ О СЕРВЕРЕ 1. 2. Положим k = 0 и выберем некоторое начальное значение оценки θ0. В начале каждого k-го такта вычисляем θ'k  P[a,b] (θ k  βΔ k ). 3. 4. Запускаем сервер с значением параметра x = θk’. После завершения k-го такта подсчитаем новую оценку по правилу α θ k 1  P[a, b] (θ k  Δ k y k ). β 5. 6. Увеличиваем номер такта k = k+1. Переход к п.2 (повтор действий заново). МОДЕЛИРОВАНИЕ  Интерфейс программы : РЕЗУЛЬТАТЫ  Результаты программы с фиксированным значением РЕЗУЛЬТАТЫ  Минимум функции = 51 достигается при значении θ = 0.84. РЕЗУЛЬТАТЫ ПРОГРАММЫ С АЛГОРИТМОМ SPSA  θ = 0.12.  θ = 1. РЕЗУЛЬТАТЫ ПРОГРАММЫ С АЛГОРИТМОМ МОНТЕ КАРЛО ЗАКЛЮЧЕНИЕ  Работа с алгоритмом SPSA .  Работа с методом Монте Карло .

Адаптивная оптимизация сервера , обрабатывающего очередь

Related documents

Products

Support

Адаптивная оптимизация сервера , обрабатывающего очередь

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib