Цепи Маркова – частный случай случайного процесса, применительно к изучению состояния рейтинга МИЭФ План 1. Введение 1.1. Введение в теорию случайных процессов; классификация случайных процессов; 1.2. Цепи Маркова как метод прогнозирования; 2. Построение теоретической модели прогнозирования рейтинга учащихся с применением цепей Маркова. 2.1. Определение состояния системы в нулевой момент времени 2.2. Построение матрицы перехода и стохастической матрицы 3. Применение теоретической модели к рейтингу студентов МИЭФ, поступивших в 2007 году. 3.1. Деление на группы и построение трех вариантов прогноза. 3.2. Построение регрессионной модели для выявления наиболее удачного прогноза 3.3. Корректировка результатов. 4. Библиография. Введение в теорию случайных процессов. Теория случайных процессов – это наука, изучающая закономерности случайных явлений в динамике их развития. Понятие случайного процесса появилось в начале прошлого века и связано с именами А. Н. Колмогорова, А.Я. Хинчина, Е.Е. Слуцкого, Н. Винера и других. Это понятие в наши дни является одним из центральных не только в теории вероятностей, но также в естествознании, инженерном деле, экономике, организации производства, теории связи. Теория случайных процессов принакдлежит к категории наиболее быстро развивающихся математических дисциплин. Несомненно, это обстоятельство в значительной мере определяется ее глубокими связями с практикой. ХХ век не мог удовлетвориться наследием, которое было получено им от прошлого. Действительно, в то время как физика, биолога, инженера интересовал процесс, т.е. изменение изучаемого явления во времени, теория вероятностей предлагала им в качестве математического аппарата лишь средства, изучавшие стационарные состояния. Для исследования изменения во времени теории вероятностей конца XIX начала ХХ века не имела ни разработанных частных схем, ни тем более общих приемов. Изучение броуновского движения в физике подвело математику к порогу создания теории случайных процессов. В исследованиях датского ученого А.К.Эрланга была начата новая важная область поисков, связанная с изучением загрузки телефонных сетей. Работы Эрланга оказали влияние на развитие не только чисто телефонных задач, но и на теорию случайных процессов: процессов гибели и размножения.1 Многие физические явления описываются теорией случайных процессов. К примеру движение молекулы, в случайные моменты времени сталкивающейся с другими молекулами и при этом меняющей направление и скорость является случайным процессом. Существует статистическая теория диффузии, основанная на теории случайных процессов и описывающая процессы диффузии и их характеристики. Радиоактивный распад молекул, напряжение в электросети, население города, полет космической ракеты, плотность воды в океане, направление ветра, уровень воды в реке – все это примеры случайных процессов. В природе не существует неслучайных процессов, однако, есть факторы, влиянием которых в контексте конкретной задачи можно пренебречь. К примеру, решая задачу о составлении расписания самолетов мы можем предположить, что траектории полета прямолинейны а скорость полета равномерна. Однако, это допущение нельзя делать если мы сталкиваемся с задачей конструирования автопилота для управления полетом самолета.2 Случайная функция некоторой системы S – это случайные переходы системы из состояния в состояние. Случайную функцию называют случайным процессом в том случае если мы рассматриваем реализацию функции по времени. То есть случайный процесс – это случайная функция, аргументом которой является время – t. 1 2 Гнеденко Б.В. Очерк по истории теории вероятностей. Вентцель Е.С. Овчаров Л.А. Теория случайных процессов и ее инженерные приложения. 3 Если мы зафиксируем время (t=t0) , то случайное состояние системы превращается в некоторую случайную величину- одно из возможных состояний в котором может оказаться система в момент времени t0. Случайный процесс может быть описан одной и более переменными. К примеру напряжение в электросети описывается одной случайной переменной (напряжение) зависящей от времени, движение частицы – двумя переменными (в двухмерном пространстве – координатами X и Y, зависящими от времени. Примером многомерного случайного процесса может служить полет ракеты: здесь случайными переменными будут не только координаты в пространстве, но и углы наклона ракеты, скорость, запас топлива.3 Несмотря на то, что теория случайных процессов – сравнительно новая ветвь в теории вероятностей, существует большое количество отечественной и зарубежной литературы, посвященной этому разделу. Многие издания в незначительной степени отличаются друг от друга в определении случайного процесса, и в большинстве источников дается следующее определение случайного процесса: «Случайным процессом X(t) называется процесс, значение которого при любом значении аргумента t является случайной величиной» 4 Случайный процесс можно записать в виде функции двух аргументов: некоторого элементарного события ω и времени t. X(t) = ! !, ! , ! ∈ Ω, ! ∈ !, ! ! ∈ ! где ! − элементарное событие, Ω − пространство элементарных событий, T – область значений аргумента t функции X(t), I – множество возможных значений случайного процесса X(t). Если опыт, в ходе которого протекает случайный процесс, уже произведен, то есть уже произошло элементарное событие ! ∈ Ω, случайный процесс перестает быть случайным и его зависимость от времени приняла вполне определенный вид – это уже обычная неслучайная функция аргумента t. Реализацией случайного процесса X(t) называется неслучайная функция x(t) в которую превращается случайный процесс в результате опыта. Реализацию процесса можно записать как функцию от времени t при фиксированном элементарном событии !. ! ! = ! !, !! , ! ∈ ! Если произведено более одного опыта, то мы получим несколько реализаций одного и того же процесса – семейство реализаций. На основе семейства реализаций мы можем получить характеристики случайного процесса: математическое ожидание и дисперсию.5 Самыми простыми классификациями случайных процессов являются классификации по времени и по состояниям. Случайный процесс называется процессом с дискретным временем, если система может менять свои состояния в фиксированные моменты, число которых конечно и счётно. 3 Вентцель Е.С. Овчаров Л.А. Теория случайных процессов и ее инженерные приложения. Н.Ш. Теория вероятностей и математическая статистика. Основные характеристики случайного процесса в данной работе не рассматриваются. 4 Кремер 5 4 Случайный процесс с непрерывным временем – это процесс, в котором переходы системы из одного состояния в другое могут происходить в любой момент времени. Случайный процесс называется процессом с дискретными состояниями, если в любой момент времени множество его состояний конечно, и процессом с непрерывными состояниями – если в любой момент времени множество его состояний бесконечно или несчетно. Другими словами, если сечение процесса в любой момент времени является дискретной случайной величиной, то мы имеем дело с процессом с дискретными состояниями; в противном случае – с процессом с непрерывными состояниями. Таким образом мы можем разделить все процессы на четыре класса: 1. Процессы с дискретными состояниями и дискретным временем; 2. Процессы с дискретными состояниями и непрерывным временем; 3. Процессы с непрерывными состояниями и дискретным временем; 4. Процессы с непрерывными состояниями и непрерывным временем.6 Примером процесса с дискретным временем и дискретными состояниями может служить число билетов лотереи выигравших до момента t из общего числа билетов m. Процесс с дискретными состояниями и непрерывным временем: количество узлов прибора (из n узлов), отказавших до момента времени t. Процесс с непрерывными состояниями и дискретным временем: температура воздуха, измеряемая в определенные моменты времени. И наконец, процесс с непрерывными состояниями и непрерывным временем: напряжение в электросети. Цепи Маркова как метод прогнозирования. Особое место в теории случайных процессов занимают Марковские процессы. Случайный процесс, протекающий в системе I с дискретными состояниями i1, i2,…, ii,…, называется марковским, или случайным процессом без последействия, если для любого момента времени t0 вероятность каждого из состояний системы в будущем (при t>t0) зависит только от ее состояния в настоящем(t=t0) и не зависит от того, когда и как она пришла в это состояние, то есть не зависит от ее поведения в прошлом(при t<t0). (Будущее зависит от прошлого через настоящее). Марковские процессы делятся на процессы с дискретным и с непрерывным временем. В некоторых источниках под цепями Маркова понимают только Марковские процессы с дискретным временем, однако есть и авторы (Кельберт, Сухов), которые все Марковские процессы называют цепями Маркова. В данной работе под цепями Маркова будем понимать Марковские процессы с дискретным временем. Итак, цепью Маркова называется Марковский случайный процесс с дискретным временем, в котором его возможные состояния i1, i2,… можно заранее перечислить, а переход из состояния в состояние происходит мгновенно (скачком), но только в определенные моменты времени (t0, t1,…), называемые шагами процесса. Случайный механизм, вызывающий изменение состояния, описывается матрицей перехода Р с элементами рij , где i,j∈ !. Элемент рij равен вероятности, с которой система перейдет из 6 Вентцель Е.С. Овчаров Л.А. Теория случайных процессов и ее инженерные приложения. 5 состояния i в состояние j за единицу времени. Таким образом рij – это условная вероятность того, что система будет находиться в состоянии j в следующий момент, при условии что в данный момент она находится в состоянии i. значит все элементы Р неотрицательны, но не превышают 1, и сумма элементов в любой строке равна 1: 0≤ !!" ≤ 1 ∀!, ! ∈ ! !!" = 1 ∀! ∈ ! !∈! Матрица Р, обладающая вероятностной. такими свойствами называется стохастической, т. е. Простейший случай имеет вид 2x2 (пространство из 2 состояний). Можно считать, что состояниями являются 0 и 1. Тогда элементы матрицы имеют вид !!" , i,j=0,1, а стохастическую матрицу можно представить в виде: 1−! ! где 0 ≤ !, ! ≤ 1. ! 1−! В частности при ! = ! = 0 получаем единичную антидиагональную матрицу: 1 0 0 1 , 0 1 1 0 матрицу, а при ! = ! = 1 – Система с единично матрицей остается в начальном состоянии навсегда, а в антидиагональном случае она меняет состояние в каждый момент времени, переходя из 0 в 1 и обратно. ! С другой стороны при ! = ! = ! мы получаем матрицу 1/2 1/2 1/2 1/2 В этом случае система может либо остаться в том же состоянии, либо поменять его с вероятностью ½. Пусть !! - состояние системы в момент n. Правила задающие марковскую цепь с начальным распределением ! и матрицей перехода P таковы: 1. !! имеет распределение !: ! !! = ! = !! ∀! ∈ !; 2. Более общим образом, ∀! и !! , … , !! ∈ ! вероятность !(!! = !! , !! = !! , … , !! = !! ) того, что система находится в состоянии !! , !! , … , !! в моменты времени 0, 1, … , n записывается как произведение !(!! = !! , !! = !! , … , !! = !! ) = !!! !!! !! … !!!!! !! 1 – это частный случай 2 при n=0. Для условной вероятности ! !!!! = ! !! = !! , !! = !! , … , !! = !! момент n+1 есть j, при условии что заданы состояния !! , … , !!!! и !! = ! в моменты времени 0, … , ! − 1, !: того, что состояние в 6 ! !!!! = ! !! = !! , !! = !! , … , !! = ! = !(!! !!! ,…,!!!! !!!!! ,!! !!,!!!! !!) !(!! !!! ,…,!!!! !!!!! ,!! !!) = !!! !!! !! …!!!!! ! !!" !!! !!! !! …!!!!! ! = !!" Таким образом, при условии, что !! = !! , … , !!!! = !!!! , !! = !, !!!! имеет распределение !!" , ! ∈ !. В частности, условное распределение !!!! не зависит от !! , … , !!!! , т. е. зависит только от состояния i в последний предшествующий момент n. Эта формула иллюстрирует свойство ограниченной памяти цепи Маркова. Теперь нас интересует вероятность !(!! = !)того, что в момент n наша система находится в состоянии j. Для n=1: !(!! = !)= !∈! !( !! = !, !! = !), где i – все возможные начальные состояния. Тогда, !∈! !( !! = !, !! = !)= И для общих значений n: ! !! = ! = !∈! !! !!" =(!")j для n=1. !!! !!! !! … !!!!! ! = (!!! )! ! !! = !! , !! = !! , … , !! = ! = !! ,…,!!!! !! ,…,!!!! где Pn – n-я степень матрицы P. Таким образом стохастический вектор, описывающий распределение случайной величины Xn, можно получить помножив матрицу Рn к начальному стохастическому вектору !. Теперь аналогично: ! !! = !, !!!! = ! = = ! !! = !! , !! = !! , … , !! = !, !!!! = ! = !! ,…,!!!! !!! !!! !! … !!!!! ! !!" !! ,…,!!!! = (!!! )! !!" и отсюда следует, что !!! ! !!" ! !! = !, !!!! = ! = = !!" . ! !! = ! !!! ! То есть элемент !!" равен условной вероятности того, что в следующий момент состояние будет j, если в данный момент оно есть i. ! !!!! = !|!! = ! = ! !! = !, !! = ! = = ! !! = !! , !! = !! , … , !!!! = !!!! , !! = ! !! ,…,!!!! = и !! !! … !!!!! ! !!" = !! (!! )!" !! ,…,!!!! ! !! = !|!! = ! = !! !! (!! )!" ! !! = !, !! = ! = = (!! )!" . ! !! = ! !! 7 Значит, элемент (!! )!" матрицы !! дает вероятность перехода за n шагов из состояния i в состояние j. В общем случае ! !! = !, !!!! = ! = (!!! )! (!! )!" и (!!! )! (!! )!" ! !! = !, !!!! = ! ! !!!! = !|! = ! = = = (!! )!" ! !! = ! (!!! )! Теперь можно дать точное определение цепи Маркова с дискретным временем: Говорят, что последовательность случайных величин !! со значениями в конечном или счетном множестве I образует цепь Маркова с дискретным временем с начальным распределением ! и матрицей перехода Р, если ∀!! , … , !! ∈ ! совместное распределение !(!! = !! , !! = !! , … , !! = !! ) равно !!! !!! !! … !!!!! !! . 7 Построение теоретической модели применением цепей Маркова. прогнозирования рейтинга учащихся с Целью данной работы является определить на основании данных рейтинга за первый и второй курс обучения с какими показателями закончит обучение данный курс студентов. Имеются данные рейтингов студентов МИЭФ, поступивших в 2007 году, за первый, второй и третий курс. Итоговый рейтинг за первый курс (2007/2008 год) включает в себя 118 человек. На основании рейтинга студенты разделяются на n групп. Обозначим балл студента по рейтингу за X, Рейтинг ℛ – множество действительных чисел от 0 до 100 - делится на n-1 непересекающихся подмножеств Δi таких, что ! Δ! = ℛ . В k-ю группу входят все студенты прошедшие аттестацию с баллом рейтинга !!Δ! , в n-ю группу относим студентов не прошедших аттестацию или покинувших курс по разным причинам. В каждой группе у нас Аk студентов, k=1,2,…,n. Под состоянием системы мы будем понимать определенное распределение студентов по группам, в зависимости от рейтинга. Тогда наша система в начальный момент времени t=0 выглядит в виде столбца: !! ! S0 = ! ⋮ !! Таким образом наша система состоит из распределения студентов по n группам, и изменение состояния системы в моменты времени t=1,2,3 – связано с переходом студентов из одной группы в другую. Понятно, что такая система может принимать конечное число состояний. Система может менять свои состояния в определенные моменты времени t. Предполагается, что состояние системы в момент времени t зависит только от состояния системы в момент времени t-1 (при t=0 состояние системы по итогам первого курса, t=1 – состояние системы по итогам второго курса и т.д. Считаем, что состояние системы в текущем году зависит только от её состояния в предыдущий год), то есть мы определяем данный процесс изменения системы как цепь Маркова. 7 М.Я.Кельберт, Ю.М.Сухов Марковские цепи как отправная точка теории случайных процессов и их приложения. 8 Составляем матрицу перехода для следующего курса: ! !!! A1 = ⋮ ! !!! ⋯ ⋱ ⋯ ! !!! ⋮ , ! !!! где !!" - это количество человек, которые были в i-й группе для t=0 и попали в j-ю группу в момент t=1(т.е. после второго курса). Соответственно система примет следующее значение: ! !!! = ! !!! ! ! S1= !! = ! !!! ⋮ ! ! !! = ! !!" Аналогично для третьего курса: ! !!! A2 = ⋮ ! !!! ⋯ ⋱ ⋯ ! !!! ⋮ ! !!! где !!" - это количество человек, которые были в i-й группе для t=0 и попали в j-ю группу в момент t=2 (после третьего курса). И система примет вид ! !!! = ! !!! ! ! S2= !! = ! !!! ⋮ ! ! !! = ! !!" Наша задача состоит в том, чтобы используя имеющийся аппарат цепей Маркова спрогнозировать состояние системы в следующий момент времени. С имеющимися данными, мы можем спрогнозировать состояние системы после третьего курса и сравнить результаты прогнозных данных с реальными. Находим вероятностную (стохастическую) матрицу перехода для второго курса: ! !!! !! ! P= !!" !! ⋮ ! !!! !! ! !!" !! ! !!! !! ⋮ ! !!! !! ⋯ ⋯ ⋱ ⋯ ! !!! !! ! !!! !! ⋮ ! !!! !! Возведением матрицы Р в квадрат мы получим матрицу Р2 прогнозированных вероятностей, каждый элемент !!" которой будет показывать вероятность перехода из состояния i (t=0) в состояние j(t=2). Полученную матрицу можно перевести в реальные значения, помножив каждый элемент на соответствующее ему количество студентов в группе (в момент времени t=0). В результате имеем матрицу, каждый элемент которой показывает прогнозируемое количество студентов перешедших из i-й группы в j-ю. 9 Эту матрицу прогнозируемых значений(!!!"#$ ) можно сравнить с реальной матрицей, составленной по рейтингу за третий курс (!!!"#$ ). И прогнозное состояние системы S2 = S0×P(2) сравнить с реальным. Далее можно спрогнозировать состояние системы для t=3, то есть для четвертого курса. S3 = S0×P(3) Применение модели на практике. Три вида распределения и три варианта прогноза. Ниже приведены расчеты для трех видов разбиения системы на группы: n=4, n=6 и n=11. распределение на группы 1 вариант (n=4) 2 вариант (n=6) 1. X≥70 1группа. X≥60 2. 60≤X<70 3. 50≤X<60 2. 40≤X<60 4. 40≤X<50 3. X<40, PASS 5. X<40, PASS 4. FAIL 6. FAIL 3 вариант (n=11) 1. Х≥75 2. 70≤Х<75 3.65≤Х<70 4. 60≤Х<65 5. 55≤Х<60 6. 50≤Х<55 7. 45≤Х<50 8.40≤Х<45 9. 35≤Х<40 10. Х<35, pass 11. fail 10 1 вариант По данным рейтинга и разбиения 1 имеем: 33 S0 = 53 20 12 19 А01 = 1 0 0 10 29 2 0 1 3 7 16 7 11 0 12 13 A02 = 0 0 0 12 2 6 18 12 23 0 4 16 0 0 12 20 S1 = 41 15 42 13 S2 = 30 18 57 0,5758 0,3030 0,0303 0,0909 0,0189 0,5472 0,1321 0,3019 Рассчитываем матрицу вероятностей перехода P01= 0 0,1000 0,3500 0,5500 0 0 0 1 Рассчитываем вероятность перехода из одной группы в другую после третьего года обучения: 0,34 0,34 0,07 0,25 0,02 0,32 0,12 0,54 , если перевести в натуру !!"!"#$ = 0 0,09 0,14 0,77 0 0 0 1 11 11 2 8 А02prog = 1 17 6 29 0 2 3 15 0 0 0 12 Ниже приведена матрица вероятностей рассчитанная непосредственно по данным рейтинга по итогам 3 курса с сайта МИЭФ, которую можно сравнить с расчетной: 0,39 0,0 !!"!"#$ = 0 0 13 12 A02real= 0 18 0 0 0 0 0,36 0,06 0,18 0,34 0,23 0,43 , в натуральных значениях 0,0 0,20 0,80 0 0 1 2 6 12 23 4 16 0 12 12 S2prog = 30 11 64 13 S2real = 30 18 57 2 вариант. 11 S0 = 9 5 3 0 0 0 1 24 2 9 7 3 1 2 0 0 12 9 0 7 26 0 1 1 7 8 9 19 0 0 0 2 6 11 12 0 0 0 0 0 12 0.5556 0.3333 0.0000 0.0000 0.0000 0.1111 0.0833 0.3750 0.2917 0.1250 0.0417 0.0833 0.0000 0.0000 0.4286 0.3214 0.0000 0.2500 0.0000 0.0385 0.0385 0.2692 0.3077 0.3462 0.0000 0.0000 0.0000 0.1053 0.3158 0.5789 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.10 0.24 0.20 0.04 0.00 0.00 0.04 0.18 0.22 0.12 0.06 0.00 0.01 0.07 0.10 0.18 0.13 0.00 0.20 0.26 0.47 0.63 0.80 1.00 28 A1 = Матрица вер. перехода !!" = !" !!"#$ = 0.34 0.08 0.00 0.00 0.00 0.00 0.31 0.17 0.01 0.02 0.00 0.00 переведенная в натуральные ед. A02prog = 3 2 0 0 0 0 3 4 0 1 0 0 1 6 6 1 0 0 0 4 6 3 1 0 0 2 3 5 3 0 2 6 13 16 15 12 S2prog =(5,8,14,14,13,64) ; S2real =(3,10,11,19,18,57) 12 3 вариант 6 3 12 12 17 11 9 17 9 10 12 S0 = A01 = 4 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 3 3 1 0 0 0 0 0 0 0 0 0 3 2 0 0 1 0 0 0 0 0 0 3 2 5 2 0 0 0 0 0 0 0 0 2 3 2 1 0 0 0 0 0 0 0 2 2 3 3 1 0 0 0 0 0 0 1 3 1 1 2 1 1 0 0 0 0 1 0 0 0 7 0 1 0 0 0 0 0 0 0 0 1 3 2 0 1 0 1 1 4 3 3 6 5 6 12 13 Матрица перехода вероятностей !!" = 0.6666 66667 0.1666 66667 0 0.0833 33333 0 0.0833 33333 0 0.1666 66667 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0.25 0.1666 66667 0 0 0 0 0 0 0 0 0 0 0.1111 11111 0 0 0 0 0 0 0 0 0.4117 64706 0 0 0 0 0 0 0 0 0.0833 33333 0.1764 70588 0.0909 09091 0.1111 11111 0.1176 47059 0.1111 11111 0 0 0 0.1666 66667 0.1176 47059 0.2727 27273 0.3333 33333 0.0588 23529 0 0 0 0.1666 66667 0.1764 70588 0.1818 18182 0.1111 11111 0 0.0833 33333 0 0.25 0.1666 66667 0.2941 17647 0.1818 18182 0 0 0.25 0.0833 33333 0 0 0.0588 23529 0.3333 33333 0 0.0833 33333 0.0833 33333 0.2352 94118 0.2727 27273 0.3333 33333 0.3529 41176 0.5555 55556 0 0 0 0 0 0 0 0.1 0.1 0.2 0.6 0 0 0 0 0 0 0 0 0 0 1 0 !" !!"#$ 0.4444 44444 0.0833 33333 0.0763 88889 0.0069 44444 0.1111 11111 0.0833 33333 0.0347 22222 0.0069 44444 0.1666 66667 0 0 0 0 0 0 0 0.25 0.1776 96078 0.1279 33749 0.1185 90752 0.0865 33787 0.0387 20539 0 0 0.0857 84314 0.1060 11091 0.0970 60571 0.0954 46443 0.0757 57576 0.0065 35948 0 0 0 0 0 0 0 0 0 0 0 0 0.0710 78431 0.1532 97683 0.1323 26727 0.1672 33836 0.1664 68608 0.0265 28258 0.0065 35948 0.0058 82353 0 0.0649 5098 0.0960 33868 0.1017 79036 0.0896 12705 0.0694 69202 0.0720 10765 0.0464 05229 0.0428 75817 0 0.0208 33333 0.0482 02614 0.0726 6436 0.0374 33155 0.0550 10893 0.0543 2526 0.0790 84967 0.0611 76471 0 0 0.25 0.1041 66667 0.0671 2963 0.0130 71895 0.0303 0303 0.0555 55556 0.0065 35948 0 0.0326 79739 0.0103 80623 0.0053 47594 0.0065 35948 0.1559 40023 0.0732 02614 0.0792 15686 0.2777 77778 0.0833 33333 0.1977 12418 0.3201 00515 0.4541 26035 0.4880 89451 0.5232 2242 0.6781 23799 0.7947 71242 0.8108 49673 0 0 0 0 0 0 0 0 0.0092 59259 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0.25 0.1666 66667 0.0347 22222 14 3 0 1 0 0 0 0 0 0 0 0 В натуральных единицах А02prog = 1 0 0 0 0 0 0 0 0 0 0 1 1 2 0 0 0 0 0 0 0 0 0 1 1 1 0 0 1 0 0 0 0 0 1 2 2 2 1 0 0 0 0 0 0 0 1 1 2 1 1 0 0 0 0 0 0 1 2 2 2 1 0 0 0 0 0 0 1 1 2 1 1 1 0 0 0 0 0 0 1 1 1 0 1 1 1 0 0 0 0 0 0 0 0 3 1 1 0 1 0 3 4 8 5 5 12 7 8 12 S2prog=(4,1,4,4,8,6,7,6,5,65) ; S2real=(2,1,7,3,6,7,11,6,9,9,57) Таким образом, у нас есть реальные данные для третьего курса(t=2) и прогнозированные. Для того, чтобы выявить какой из вариантов(n=4, n=6, n=11) наиболее эффективен, построим регрессии, где зависимой переменной будут реальные данные, а независимой – спрогнозированные. По значениям коэффициента ! и R2 постараемся выявить лучший прогноз и определить наиболее эффективный вариант, с помощью которого составим прогноз для четвертого курса(n=3) Ниже приведена таблица, количества человек в каждой группе по итогам 3 курса, действительные и вычисленные. 1 вариант real predicted 2 вариант real predicted 3 вариант real predcted 13 12.274411 3 4.972222222 2 3.916666667 30 29.658072 10 8.016025641 1 1.416666667 18 11.416977 11 13.17078755 7 4.25 57 64.650540 19 15.28636495 3 3.972222222 18 11.74004723 6 7.733957219 57 64.81455241 7 5.794414736 11 8.848484848 6 7.343612597 9 5.217647059 9 4.788235294 57 64.71809269 15 Линейная регрессия (real=a+b*predicted) 1 вариант real=Y predicted=X (X-X*) 17.21126358 1 13 12.28873642 2 30 29.99456832 3 4 18 57 118 29.5 11.27115495 64.44554031 sum mean b= a= r^2= (X-X*)^2 0.494568325 18.22884505 34.94554031 (Y-Y*) (Y-Y*)^2 (X-X*)(Y-Y*) 296.227594 -16.5 272.25 283.9858491 0.244597828 0.5 0.25 0.247284162 332.290792 1221.190787 1849.953771 -11.5 27.5 132.25 756.25 1161 209.6317181 961.0023585 1454.86721 0.78643436 6.300186385 0.985493163 Данные по рейтингу Y Регрессия имеет вид Real=6.3002+0.7864*(predicted) 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 предсказанные значения Х 2 вариант. real=Y predicted=X (X-X*) 1 3 4.972222222 2 10 8.016025641 3 11 13.17078755 4 19 15.28636495 5 18 11.74004723 14.69444444 11.65064103 6.495879121 4.380301716 7.926619433 6 57 64.81455241 45.14788574 sum 118 mean 19.66666667 (X-X*)^2 (Y-Y*) 62.83129564 16.66666667 9.666666667 8.666666667 0.666666667 1.666666667 2038.331587 37.33333333 215.9266975 135.7374363 42.19644555 19.18704312 2514.210505 (Y-Y*)^2 (X-X*)(Y-Y*) 277.7777778 244.9074074 93.44444444 112.6228632 75.11111111 56.29761905 0.444444444 2.920201144 2.777777778 13.21103239 1393.777778 1685.521068 1843.333333 2115.480191 16 b= 0.841409336 a= 3.118949731 lданные по рейтингу Y r^2= 0.965633697 Регрессия имеет вид Real=3.1189+0.8414*(predicted) 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 предсказанные значения Х 3 вариант. real=Y predicted=X (X-X*) (X-X*)^2 1 2 3.916666667 2 1 1.416666667 3 7 4.25 4 3 3.972222222 5 6 7.733957219 6 7 5.794414736 7 11 8.848484848 8 6 7.343612597 9 9 5.217647059 10 9 4.788235294 6.810606061 9.310606061 6.477272727 6.755050505 2.993315508 4.932857992 1.878787879 3.383660131 5.509625668 5.939037433 11 57 64.71809269 53.99081996 sum mean 118 10.727 27273 (Y-Y*)^2 (X-X*)(Y-Y*) 46.38435491 -8.727272727 76.16528926 59.43801653 86.68738522 -9.727272727 94.61983471 90.56680441 41.95506198 -3.727272727 13.89256198 24.14256198 45.63070733 -7.727272727 59.7107438 52.19811754 8.959937731 -4.727272727 22.34710744 14.15021877 24.33308797 -3.727272727 13.89256198 3.529843893 0.272727273 0.074380165 18.38610706 0.512396694 11.44915588 -4.727272727 22.34710744 15.99548425 30.35597501 -1.727272727 2.983471074 9.516626155 35.27216563 -1.727272727 2.983471074 10.25833738 2915.00864 46.27272727 2141.165289 2498.302487 3249.566316 b= a= r^2= (Y-Y*) 2450.181818 2792.442365 0.859327705 1.509030073 0.979365315 Регрессия имеет вид Real=1.5090+0.8593*(predicted) 17 данные по рейтингу Y 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 предсказанные значения X сведем результаты в одну таблицу вариант 1 вариант 2 вариант 3 вариант b 0.78643436 0.841409336 0.859327705 a 6.300186385 3.118949731 1.509030073 r^2 0.985493163 0.965633697 0.979365315 Из вышеприведенных вычислений видно, что наиболее точным по критерию R2 является вариант 1 с наименьшим количеством групп(n=4), по критерию коэффициента ! – вариант 3 с наибольшим (n=11). Мы рассмотрели состояние нашей системы и смогли сравнить прогнозные и реальные значения для третьего курса. Видна значительная разница, т.е. дальнейшие вычисления будут еще более искажать реальность. Продолжим для первого варианта: !!" = !!" ∙ !!" = !!" ! 0,2006 0,2968 0,0794 0,4231 0,0182 0,1925 0,0844 0,7049 !!" = 0,0028 0,0632 0,0594 0,8746 0 0 0 1 7 А = 1 0 0 03 10 10 1 0 2 5 1 0 14 37 18 12 8 21 S3 = - состояние системы после 4-го курса. 8 81 Корректировка результатов. Для улучшения результатов прогнозирования, можно пойти двумя путями: 1) исключить из списка тех студентов, которые покинули курс с высокими баллами рейтинга, т.е. прошли 18 аттестацию, но покинули курс; 2) за начальный момент принять второй курс (случайных людей на втором курсе значительно меньше, чем на первом), составить матрицу перехода по данным второго и третьего курса и спрогнозировать состояние системы по окончанию четвертого курса. Первый путь, как субъективный, отметаю. Выбираю второй путь и проведя необходимые расчеты, получаю: Матрица перехода вероятностей составленная для перехода из состояния S1 в S2: !′!" = 0,6500 0,3500 0 0 0 0,5122 0,2927 0,1951 0 0,1333 0,4000 0,4667 0 0 0 1 !′!" = (!′!" )! = 9 !′! = 0 0 0 8 2 1 12 11 18 2 3 10 0 0 42 0,42 0,41 0,1 0,07 0 0,3 0,27 0,43 0 0,12 0,2 0,68 0 0 0 1 9 !′! = 22 16 71 8 21 Сравним S3 = и !!!= 8 81 9 22 . 16 71 К сожалению, на данный момент рейтинг выпускников МИЭФ еще не известен, и мы не имеем возможности сравнить реальные данные с прогнозами на конец обучения. 19 Библиография 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. М. Я. Кельберт, Ю. М. Сухов. Вероятность и статистика в примерах и задачах. Т. 2: Марковские цепи как отправная точка теории случайных процессов и их приложения. М.: МЦНМО, 2010. Е.С. Венцель, Л.А. Овчаров. Теория случайных процессов и ее инженерные приложения. 5-е изд. М.: КНОРУС, 2010. Н. Ш. Кремер. Теория вероятностей и математическая статистика. 3-е изд. М.: ЮНИТИ-ДАНА, 2009. Б.В. Гнеденко. Очерк истории теории вероятностей. Курс теории вероятностей. 6-е изд. М.: НАУКА, 1988. В.Н. Сулицкий. Деловая статистика и вероятностные методы в управлении и бизнесе. М.: ДЕЛО, 2009 Б.В. Гнеденко, И.Н. Коваленко. Введение в теорию массового обслуживания. М.: ЛКИ, 2011. Т. Л. Саати. Элементы теории массового обслуживания и ее приложения. 3-е изд. М.: ЛИБРОКОМ, 2010. А.А. Марков. Избранные труды. Ленинград: Академия Наук СССР, 1951. А.Т. Баруча-Рид. Элементы теории Марковских процессов и их приложения. М.: НАУКА, 1969 А.Н. Колмогоров. Основные понятия теории вероятностей. М. 1974. Т.А. Сарымсаков. Основы теории процессов Маркова. М.: ГОСУДАРСТВЕННОЕ ИЗДАТЕЛЬСТВО ТЕХНИКО-ТЕОРЕТИЧЕСКОЙ ЛИТЕРАТУРЫ, 1954. Р.Л. Стратонович. Условные марковские процессы и их применение к теории массового обслуживания. М.: МГУ,1965. 20