Литература - Новосибирская Экономико

advertisement
В.С. Костин, А.Н.Нуртдинов, Ю.Г.Корнюхин
Бета-регрессия: восстановление условного распределения в
многомерном признаковом пространстве.
Данная публикация продолжает работу [1], в которой предложен
метод восстановления условного распределения f(x|z) как функции от
произвольного параметра z путем ее аппроксимации Бета-распределением с параметрами a, b в виде функций от z:
f  x | z  
x a ( z ) 1 1  x 
a ( z ), b( z ) 
b ( z ) 1
(1)
Здесь x – случайная величина, распределенная от 0 до 1, z – количественная переменная,  a, b – полная Бета-функция, нормирующая

функцию распределения
1
f


a, b   x a 1 1  x  dx
b 1
x | z  на единицу:
(2)
0
Для аппроксимации a(z) и b(z) были использованы одномерные
кубические сглаживающие сплайны. В качестве опорных точек для
аппроксимации были взяты параметры ai и bi эмпирических
распределений
f i   x  , построенных в окрестностях точек zi после
разбиения области изменения z на заданное число интервалов.
Оптимальное сглаживание достигалось максимизацией функционала, построенного на статистике Колмогорова-Смирнова. Идея оптимизации заключается в том, что искомое теоретическое распределение
f  x | z  не должно абсолютно точно совпадать со всеми частичными

эмпирическими распределениями f i  x  . Эти несовпадения распределений можно трактовать как регрессионные остатки. По существу, они являются шумом, порожденным случайными причинами, а
именно, случайным характером формирования выборки. Шум, как
явление случайное, подчиняется законам теории вероятностей. Его
ожидаемое рассеяние определяется размером выборки и может быть
точно рассчитано. Добиваясь максимального соответствия параметров
шума расчетным значениям, мы можем достаточно точно восстановить
искомое распределение.
Как и во всякой оптимизационной задаче, оптимальное решение
основано на некотором компромиссе. В данном случае это компромисс
между простотой модели и точностью аппроксимации. Чем проще
модель, тем ниже точность аппроксимации. Чересчур упрощенная
модель настолько грубо проходит между эмпирическими точками, что
вместе со случайным шумом отправляет в регрессионные остатки и
систематические изменения. Чем сложнее модель, тем она ближе к
эмпирическим данным. Но переусложненная модель, вычерпывая из
регрессионных остатков уже случайную составляющую, начинает
“гоняться за каждой точкой”, проявляя излишнюю гибкость там, где
порождающая теоретическая зависимость изменяется плавно.
Описанная выше идея оптимизации регрессионных остатков в
чистом виде работает только до тех пор, пока подвыборки, на которые
разбивается интервалами исходная выборка, остаются достаточно
крупными, чтобы удерживать масштаб «естественного» рассеяния в
генеральной совокупности.
Это условие удавалось соблюсти при исследовании одномерного
случая. Для многомерного признакового пространства метод потребует
разбиения на слишком большое количество интервалов, малая
наполненность которых не позволяет оптимизировать сложность
модели.
Но в многомерном случае удержать масштаб «естественного»
рассеяния мы можем по-другому, а именно, разделением исходной
выборки на две части: обучающую и контрольную. При этом
построение модели будет осуществляться на обучающей выборке, а
распределение регрессионных остатков будет проверяться по
контрольной. Таким образом, избыточная сложность модели будет
легко обнаруживаться по отклонению предсказаний модели от
контрольных точек.
В предыдущей работе было продемонстрировано, что
использование параметров Бета-распределения ai и bi в качестве
опорных значений порождает систематическую погрешность аппроксимации, поскольку их случайные отклонения в сторону больших
значений не могут быть скомпенсированы отклонениями в сторону
малых значений. Это связано с нелинейным характером зависимости ai
и bi от выборочных оценок дисперсии:
a x
1 2
b  1  x  
где
(3)
2
1 2
2
 2 - дисперсия, нормированная на интервал 0-1:
(4)
2 
s2
x 1  x 
N
s2 
 x
k 1
k
(5)
 x
2
(6)
N
0  2 1
(7)
Во избежание проблем, возникающих при аппроксимации ai и bi,
можно перейти к непосредственной аппроксимации
xi и  i2 .
Задачей настоящей работы является распространение предложенного ранее метода на случай многомерного признакового пространства
Z=Rn. Далее мы будем обозначать большой буквой Z многомерный
вектор, а маленькой буквой zi с индексом – одну из координат этого
вектора.
Далее мы будем рассматривать только признаки zi, измеренные в
количественных шкалах.
Влияние номинального признака легко учесть путем разбиения
исходных данных на подвыборки, каждая из которых соответствует
одному из значений этого признака. На каждой из подвыборок
независимо восстанавливается свое условное распределение f(x|Z).
После этого мы можем проверить гипотезу о совпадении полученных
распределений между собой и с распределением во всей выборке. Если
гипотеза подтверждается, то мы отбрасываем эту переменную. Если же
она отвергается, то можно констатировать наличие влияния данного
признака на распределение f(x|Z).
Выбор аппроксимирующих функций. Сформулируем основные
требования к классу функций, выбранных в качестве базисного набора
моделей аппроксимации:
1. функции должны обеспечивать непрерывную аппроксимацию значений
2.
3.
xi и  i2 во всей области изменения Z;
точность аппроксимации должна регулироваться параметром в
достаточно широком диапазоне;
от многомерных координат входных точек не должна требоваться
жесткая привязка к узлам регулярной решетки, поскольку в общем
случае данные являются непрерывными случайно распределенными по Z=Rn.
Учитывая эти требования, мы выбрали в качестве базисных
функций так называемые сплайн-поверхности, или сглаживающие Dmсплайны.
Выбор именно сглаживающих сплайнов был сделан не случайно.
Он обусловлен тем, что в зависимости от параметра сглаживания,
сплайны порождают непрерывный спектр функций: от линейных при
самом “жестком” сглаживании, до очень “мягких” - при полном
отключении
сглаживания.
Небольшие
изменения
параметра
сглаживания приводят к небольшим же изменениям жесткости
функции, что очень удобно для решения оптимизационных задач.
Сплайн-поверхности были предложены в 1970 г. отечественным
математиком С.А.Смоляком [2, 3] а затем, в 1972 г., американскими
инженерами Хардером и Демарэ [4] как обобщение модели упругой
пластинки бесконечной протяженности, которая деформируется лишь
изгибом, причем ее отклонения от исходного состояния задаются в
конечном числе независимых точек, где приложены точечные
нагрузки. Равновесие бесконечной идеально тонкой пластинки
определяется из условия минимума ее свободной энергии.
Мы не будем здесь подробно описывать теорию построения
сплайн-поверхностей, которую можно найти в прекрасном изложении
В.О.Ашкеназы [5], но приведем взятые из этой публикации
минимально необходимые ключевые формулы, чтобы можно было
ориентироваться в дальнейшем изложении. Заранее приносим свои
извинения автору за некоторые изменения, сделаные для стыковки с
обозначениями, принятыми нами в предыдущей статье [1]. Уравнение
сглаживающего сплайна является решением вариационной задачи:
(8)
 J ( )   2 ( )  min
m 
где J ( ) - функционал гладкости сплайн-поверхности  Z  , а

m 
1/ 2
N
 1

(9)
 ( )      (Zi )  yi  2 
 N i 1

– функция невязки, или среднеквадратической погрешности. Из
формулы (8) видно, что с ростом λ плавно возрастает влияние
гладкости и уменьшается влияние погрешностей аппроксимации.
Иными словами, λ определяет сглаживающие свойства сплайнповерхности.
В случае двумерного признакового пространства Z={z1,z2},
решение вариационной задачи (8) ищется в виде:
N
  ( z1 , z2 )   ci ri 2 ln ri 2  d1  d 2 z1  d3 z2
(10)
i 1
где ri – это евклидово расстояние от точки i до точки z1, z2:
ri 2  ( z1  z1i ) 2  ( z2  z2i ) 2 ,
(11)
а на коэффициенты ci накладываются ограничения:
N
 ci  0
 iN1

 ci z1i  0
 iN1
 cz 0
i 2i

 i 1
(12)
Рассмотрев уравнения (10, 11, 12), можно заметить, что на
больших расстояниях от всех исходных точек Zi уравнение Dm-сплайна
вырождается в полином:
 ( z1, z2 )  d1  d 2 z1  d3 z2
(13)
Такой же вид решения для всего пространства Z=Rn получается и
в случае максимально жесткого сглаживания (λ = ∞).
Для наших целей вместо параметра сглаживания λ удобнее будет
использовать параметр θ точности аппроксимации или сложности
модели, которая однозначно пересчитывается из λ:

1
1 
(14)
Приведем соотношения, задающие ограничения на выборку,
накладываемые теорией сплайн-аппроксимации:
Таблица 1. Ограничения на объем выборки, вытекающие из
размерности признакового пространства.
2
3
4
5
6
7
8
9
10
n
2
2
3
3
4
4
5
5
6
m
3
4
15
21
84
120
495
715
3003
N
Здесь n – размерность пространства признаков, m – порядок
сплайна, N – минимальное число точек в выборке, которые связаны
между собой:
m  n/2
(15)
N
(n  m  1)!
n!(m  1)!
(16)
Вычислительная сложность сплайн-аппроксимации пропорциональна N 3, а предел возможностей современных персональных компьютеров достигается при N порядка 2000. Исходя из этого,
максимальную
размерность
признакового
пространства
для
вычисления сплайн-поверхности оценим как равную 9. Для наших же
целей необходимо учесть, что вычислять сплайн-поверхности придется
неоднократно, добиваясь оптимального сглаживания. Тогда реальный
предел многомерности получается не более 7.
Подготовка данных для сплайн-аппроксимации включает нормировку признаков и расчет
xi и  i2 в опорных точках.
В случае, когда диапазон изменения одного из признаков z1, z2
намного больше другого, вклад первого в величину ri (11) оказывается
определяющим, а другого – исчезающе малым. Чтобы не допустить
неравноправия переменных, необходимо провести нормировку
признаков.
Можно предложить по крайней мере два простейших варианта
нормировки z:
1. приведение диапазона изменения к ноль-единичному: z={0÷1};
2. приведение к нулевому среднему и единичной дисперсии.
Рассмотрим проблемы, связанные с расчетом опорных значений
xi и  i2 путем группирования подвыборок.
Сложность порождается многомерностью признакового пространства, в котором точки “рассыпаются по измерениям”. Если многомерный гиперкуб с рассеянными внутри него точками делить на ячейки по
каждой из осей координат, мы получим множество ячеек уже при
минимальной кратности разбиения. Например, в 10-ти мерном
пространстве разбиение гиперкуба всего лишь на 2 части по каждой из
10-ти осей порождает 1024 ячейки. А разбиение на 4 части дает уже
более миллиона ячеек. Обеспечить достаточную наполненность ячеек
можно будет только для очень больших выборок.
Другая проблема опорных значений является общей для
одномерного и многомерного случаев. Она связана с тем, что желание
увеличить чувствительность восстановленного распределения требует
увеличения точности оценок
xi и  i2 за счет размера ячейки. Это, в
свою очередь, приводит к уменьшению числа ячеек и, как следствие, к
потере чувствительности восстановленного распределения к
локальным особенностям априорного распределения.
С учетом указанных проблем можно предложить следующее
решение. В качестве оптимизируемого параметра задаем эффективный
радиус Re. Затем для каждой точки Zi определяем усредненные
значения:
N
Zi 
 Z
ij
j 1
j
(17)
Ni
N
xi 
 x
ij
j 1
(18)
Ni
N
 i2 

j 1
N
ij
( x j  xˆ j ) 2
 xˆ 1  xˆ 
j 1
где
j
ij
j
(19)
j
x̂ j - сплайн-предсказание x для точки j, веса ωij определяются из
расстояний между точками i, j:
 ij  e

rij2
2 Re2
(20)
N
N i  ij
(21)
j 1
Общее число опорных значений равно числу исходных точек.
Разумеется, значения
xi и  i2 перестают быть независимыми, но, как
будет видно далее, это не влияет на применимость предлагаемого
метода аппроксимации.
Что касается поиска оптимальных значений параметров Re и θ, то
мы имеем право применить критерий максимального правдоподобия:
 ln  f  x
Nc
k 1
re
k

| Z k  r

min
e ,
где Nc – количество точек в контрольной выборке.
(22)
Проверка метода восстановления многомерного условного
распределения, описанного выше, была проведена на выборке
размером 200 точек, сгенерированной методом Монте-Карло по
априорному Бета-распределению, заданному параметрами:
 z 2  z22
x ( z1 , z2 )  0.1  0.8   1

2

 2 ( z1, z2 )  0.1




(23)
(24)
Таким образом, x (0, 0)=0.1, x (1, 1)=0.9, а  =0.1 при всех z. На
рисунке 1 показано это двумерное распределение в виде поверхностей
равных квантилей и 100 исходных точек обучающей выборки. Здесь и
далее все рисунки представляют результаты расчетов в форме
программно
сгенерированного
VRML-документа.
Трехмерная
визуализация данных и результатов счета существенно облегчила
исследование и помогла при разработке и отладке программного кода.
Алгоритм восстановления условного распределения состоит из
нескольких шагов:
1. разбиваем исходную выборку на обучающую и контрольную;
2. оптимизируем сплайн-аппроксимацию по параметрам θ и Re:
2.1 выбираем очередные значения θ и Re в соответствии с какойлибо из стратегий поиска абсолютного максимума, например,
симплекс-методом или методами планирования эксперимента;
2
2.2 используя параметр Re, вычисляем
xi в точках Z i (по
обучающей выборке). На рисунке 2 переменная прозрачность
показывает вклад точек в результирующую среднюю
величину. Горизонтальные радиусы эллипсоидов равны Re и
2·Re, а вертикальный радиус пропорционален стандартному
отклонению;
2.3 используя параметр θ, рассчитываем коэффициенты в
уравнении сплайн-поверхности (10) для предсказания x̂ j (по
обучающей выборке). На рисунке 3 можно видеть, что при
высокой точности аппроксимации сплайн-поверхность
заметно прогибается под скопления усредненных точек;
2.4 используя
x̂ j , вычисляем  i2 в точках Z i (по обучающей
выборке);
2.5 вычисляем значение функции правдоподобия (по контрольной
выборке), получая очередную точку поверхности (см. рис. 5);
2.6 если еще не достигнут максимум, переходим к п.2.1.
x
z2
z1
Рис.1. Априорное (теоретически заданное) распределение с поверхностями
равных квантилей (5, 25, 50, 75 и 95%) и 100 точек обучающей выборки.
x
z2
z1
Рис.2. Получение усредненных точек (Re=0.1) по обучающей выборке.
x
z2
z1
Рис.3. При θ=0.5 и Re=0.1 усредненные точки обучающей выборки почти
идеально ложатся на сплайн-поверхность.
x
z2
z1
Рис.4. Контрольная выборка показывает, что гибкость сплайн-поверхность
избыточна (θ=0.5 и Re=0.1).
Ln(Fp)
θ
Re
Рис.5. Поверхность функции правдоподобия в логарифмической шкале.
Максимум достигается при параметрах Re = 0.1, θ = 0
x
z2
z1
Рис.6. Восстановленное распределение (Re = 0.1, θ = 0) с поверхностями
квантилей (5, 25, 50, 75 и 95%) и обучающей выборкой.
Теперь рассмотрим некоторые шаги более подробно.
Разбивая исходную выборку на обучающую и контрольную, важно
не упустить из виду, что обучающая выборка должна быть больше
минимально необходимого объема для аппроксимации сплайнповерхности (см. табл. 1), а контрольная выборка должна быть
достаточно большой, чтобы оценивать качество аппроксимации во
всей области изменения Z. Кроме того, должна быть обеспечена
сравнимая представительность обеих выборок. Например, совершенно
недопустимо разделять исходную выборку на две части,
предварительно отсортировав ее по какой-либо из переменных x, z1, …
zn. Это приведет к тому, что в каждой из этих двух частей будет
содержаться систематически искаженная информация о генеральной
совокупности. Этой грубейшей ошибки можно избежать, если делать
разбиение после предварительной рандомизации выборки.
При поиске абсолютного максимума функции желательно
представлять себе хотя бы приблизительно возможную форму
оптимизируемой поверхности. Для этого мы провели модельные
расчеты, результаты которых представлены на рисунке 5.
Видно, что в нашем примере логарифм функции максимального
правдоподобия от параметров θ и re представляет достаточно гладкую
поверхность с одним хорошо выраженным максимумом. Для поиска
оптимума в таких случаях можно использовать любую стратегию
оптимизации. Поскольку расчет функции правдоподобия в каждой
точке (θ, re) требует ресурсоемких вычислений, желательно в качестве
нулевого приближения выбирать такие значения θ и re, которые
должны оказаться в окрестности максимума. Можно предложить,
например, такую пару: θ=0,
re 
n
1
.
N
Заключение.
Подводя итоги, можно сказать, что в результате проделанной
работы:
1. распространен метод восстановления условного распределения на
случай многомерного признакового пространства (ограничение до
7 измерений вызвано трудоемкостью расчета Dm-сплайна);
2. найдена возможность учитывать не только количественные, но и
номинальные переменные;
3. построен алгоритм определения оптимальной точности аппроксимации, равной случайной погрешности данных, вытекающей из их
объема и закона распределения;
4. сформулирован критерий сравнения двух моделей многомерных
условных распределений на выборке;
5.
6.
1.
2.
3.
4.
5.
задан критерий для проверки гипотезы о существовании условного
распределения и адекватности применяемой модели Бетараспределения;
описана процедура статистически обоснованного выбора наиболее
простой функции условного распределения;
Литература
Костин В.С., Нуртдинов А.Н., Жданов А.С., Корнюхин Ю.Г.
Бета-регрессия как метод восстановления условного распределения случайной величины// Информационные технологии в гуманитарных исследованиях. - Новосибирск: НГУ, 2003. - Вып. 5. - С.
16-27.
Смоляк С.А. Оптимальное восстановление функций и связанные с
ним геометрические характеристики множеств// Труды третьей
зимней школы по математическому программированию и смежным вопросам (24 января - 3 февраля 1970 г.,г.Дрогобыч), вып.III. М.: 1970. - С. 509-557.
Смоляк С.А. Сплайны и их применение// Экономика и математические методы. - 1971. - Т.7, Вып.3. - С. 419-431.
Harder R.L., Desmarais. Interpolation using surface splines// Journal
of Aircraft. - 1972. - Vol.9, № 2. - P. 189-191.
Ашкеназы В. О. Сплайн-поверхности (Основы теории и вычислительные алгоритмы): Учебное пособие – Тверь: Тверской гос. ун-т,
2003. - 82 с.
Download