Комбинаторный анализ эффектов взаимодействия

advertisement
Комбинаторный анализ эффектов
взаимодействия множественных факторов с
приложением в генетике
Скурат Евгения Петровна, гр. 522
Санкт-Петербургский государственный университет
Математико-механический факультет
Кафедра статистического моделирования
Научный руководитель: к.ф.-м.н., доц. Алексеева Н.П.
Рецензент: мл. научн. сотр. Ананьевская П.В.
Санкт-Петербург
2013г.
1/17
Скурат Евгения Петровна, гр. 522
Комбинаторый анализ взаимодействия факторов
Цель и методы решения
Цель
Решение некоторых актуальных задач, связанных с разработкой
конечно-линейного подхода анализа категориальных данных, и его
апробация на примере исследования эффектов взаимодействия
генетических факторов
Основные обозначения
Случайный вектор X = (X1 , . . . , Xm )T со значениями в
(Fq , 2Fq ), заданный на (Ω, F, P)
Матрица A = {aij } , 1 ≤ i ≤ k, 1 ≤ j ≤ m, задающая
X̃ = AX = (Xτ1 , . . . , Xτk )T : Xτi = ai1 X1 + · · · + aim Xm над Fq
Метод решения
Описание эффектов взаимодействия факторов через линейные
комбинации признаков над конечным полем Fq
2/17
Скурат Евгения Петровна, гр. 522
Комбинаторый анализ взаимодействия факторов
Дискретная оптимизация в задаче классификации
Вектор X = (X1 , . . . , Xm )T над (Fq , 2Fq ) и строка A = A(1, m),
AX = a1 X1 + · · · + am Xm над Fq
Поиск наилучшего предсказания конечной дискретной случайной
величины Y по AX
Мера отличия двух случайных величин
ρ1 (AX, Y ) =
min (1 − P(AX = f (Y )))
f :Fq →Fq
Оптимизационная задача
Поиск точки минимума функции σ(A) = ρ1 (AX, Y ) на множестве
строк A = A(1, m)
Одно из решений опирается на построение алгоритма дискретной
оптимизации, основанного на векторной параметризации Грассмана
[П. В. Ананьевская, 2013г]
3/17
Скурат Евгения Петровна, гр. 522
Комбинаторый анализ взаимодействия факторов
Флаг и согласованность с флагом
Определение
Пусть на Vm = (Fq )m задана последовательность линейных
подпространств (полный флаг F )
V0 = {0} ⊂ V1 = hX1 i ⊂ . . . ⊂ Vm = hX1 , . . . , Xm i
такая, что ∪Vi = V и если Vi ⊂ M ⊂ Vi+1 , то либо Vi = M , либо
Vi+1 = M . Тогда отношение линейного порядка ≺ называется
согласованным с флагом, если для всех i = 0, 1, . . . , m − 1 и
v ∈ Vi , w ∈ Vm \Vi v ≺ w.
Замечание
Выбор флага F однозначно задает клеточное разбиение
многообразия Грассмана, определяющего множество всех
k-мерных подпространств m-мерного линейного пространства
[Ф. Гриффитс, Дж. Харрис, 1982г.]
4/17
Скурат Евгения Петровна, гр. 522
Комбинаторый анализ взаимодействия факторов
Симметричный порядок векторов в пространстве (Fq )m
Пространство Vm = (Fq )m такое, что Vm = hX1 , . . . , Xm i
Векторы Xki = (x1 , . . . , xk−1 , xki , 0, . . . , 0)T ∈ Vk \Vk−1 , где
xki ∈ Fq , xki 6= 0, k = 1, . . . , m, i = 1, . . . q − 1
Определение
q m −1
Последовательность векторов {Yj }j=0 пространства Vm = (Fq )m
обладает свойством симметричного порядка, если Y0 = 0m ,
Yj = sXki + Yt для j = sq k−1 + t > 0, где k = 1, . . . , m,
i = 1, . . . , q − 1, s ∈ Fq , s 6= 0, t = 0, . . . , q k−1 − 1
Частные случаи
Лексикографический порядок Xki = (0, . . . , 0, 1, 0, . . . , 0)T
Обобщенный порядок Грея Xki = (0, . . . , 0, −1, 1, 0, . . . , 0)T
5/17
Скурат Евгения Петровна, гр. 522
Комбинаторый анализ взаимодействия факторов
Теорема о согласованности с флагом
Таблица: Лексикографический
порядок над F3
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
2
2
2
0
1
2
0
1
2
0
1
2
Таблица: Обобщенный порядок Грея
над F3
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
2
2
2
0
1
2
2
0
1
1
2
0
Теорема
Симметричный порядок согласован с полным флагом F на
пространстве Vm = (Fq )m .
6/17
Скурат Евгения Петровна, гр. 522
Комбинаторый анализ взаимодействия факторов
Вероятность случайной классификации
Случайные вектор Y = (Y1 , . . . , Yn )T и матрица
X = Xn,m = (X1 , . . . , Xm ) над Fq , заданные на (Ω, F, P);
Xi независимы и одинаково распределены
Линейное преобразование Xτ = a1 X1 + · · · + am Xm над Fq
Функция, равная количеству ошибок классификации
ρ1 (Xτ , Y ) =
ρ(X, Y ) =
min (1 − P(Xτ = f (Y )))
f :Fq →Fq
min
Xτ ∈L(X)
ρ1 (Xτ , Y ), где L(X) = hX1 , . . . , Xm i
F (t) = P(ρ(X, Y ) < t) — вероятность случайной классификации
Известны асимптотическая оценка F (t) [Н. П. Алексеева, 2009г.] и
верхняя оценка [П. В. Ананьевская, 2013 г.]
Проблема существования точной оценки F (t)
7/17
Скурат Евгения Петровна, гр. 522
Комбинаторый анализ взаимодействия факторов
Точная оценка вероятности случайной классификации
Задача поиска точной оценки:
Вычисление количества невырожденных матриц Xn,m с весом
L = 1, . . . , M линейной оболочки L(X) для нулевого вектора
n
P
классификации Y = 0n , где L = min l(Xi ) = min
xj
i=1,...,m
i=1,...,m j=1
Теорема
Число невырожденных матриц Xn,m , порождающих линейную оболочку с
весом L = 1, вычисляется по формуле:
Xn,m = Xn−1,m +
m−1
X
t
Cm
· ((Xn−1,m−t · (Vn−1,t + t · Vn−1,t−1 )) +
t=0
+(Vn−1,m−t − Xn−1,m−t ) · ((m − t) · t · Vn−1,t−1 + t · Vn−1,t−1 )) +
+(n − 1) · 2n−2 · 2 + (Vn−1,m−1 − (n − 1)) · m,
где Vn,m =
Qm−1
j=0
(2n − 2j ) — общее число невырожденных матриц.
Тогда точная оценка F (t) = P(ρ(X, Y ) = 1) имеет вид
8/17
Скурат Евгения Петровна, гр. 522
Xn,m
.
Vn,m
Комбинаторый анализ взаимодействия факторов
Апробация разработанных методов. Описание данных
Исследовательские центры: НИИ фармакологии им. А.В. Вальдмана
СПбГМУ им. акад. И.П. Павлова и Ленинградский областной
наркологический диспансер.
Профилактика рецидива опийной наркомании.
Индивиды — больные героиновой зависимостью (n = 245),
проходившие курс (26 недель) психотерапии в сочетании с
рандомизированным исследованием эффективности
налтрексона.
Переменные — гены опиатных рецепторов (m = 15),
отвечающие за когнитивную функцию, моторику и энергетику.
Ковариата — способы терапии (двойное плацебо, пероральный
налтрексон, продетоксон).
Итоговые характеристики
количество положительных тестов на опиаты;
длительность удержания в программе;
отсутствие рецидива.
9/17
Скурат Евгения Петровна, гр. 522
Комбинаторый анализ взаимодействия факторов
Проблема анализа эффектов взаимодействия
Проявление совокупного воздействия двух и более переменных не в
виде суммы отдельных факторов.
Таблица: Средние количество (+) тестов на героин в сочетаниях генов A
(мигрени, беспокойства) и B (никотиновая зависимость).
A
B
A + B (mod 2)
среднее
0
0
0
5.0
0
1
1
5.4
1
0
1
6.8
1
1
0
1.0
В явном виде эффекты взаимодействия могут быть выражены как
конечно-линейные комбинации над Fq , которые для удобства работы
с приложениями названы симптомами [Н. П. Алексеева, 2008г.]
10/17
Скурат Евгения Петровна, гр. 522
Комбинаторый анализ взаимодействия факторов
Задача и структура решения
Задача
Выявление совокупности генетических факторов, значимо влияющих
на тяжесть наркотической зависимости
Выбор признаков индикатора рецессивности генотипов
Построение линейных комбинаций признаков над F2
(симптомов)
с ограничением на ранг
без ограничения на ранг с применением алгоритма дискретной
оптимизации в случае обобщенного порядка Грея
Исследование влияния симптомов на результат лечения в
качестве фактора в статистических критериях
В задаче классификации проверка случайности относительно
итогового фактора безрецидивности
11/17
Скурат Евгения Петровна, гр. 522
Комбинаторый анализ взаимодействия факторов
Алгоритм отбора симптомов c ограничением на ранг
Начальные параметры
уровень значимости α
информативность симптома M
предельный ранг k
Последовательный перебор симптомов Xτ , |τ | = 1, . . . , k
Применение статистического критерия p = p(Xτ ), где симптом
выступает в качестве фактора
в дисперсионном анализе
в анализе данных типа времени жизни
в информационной статистике
Включение значимых симптомов Xτ
p(Xτ ) < α
H(Xτ ) > M , где H(Xτ ) = −
q
P
pi log2 pi
i=1
Исключение симптомов Xτ , не вносящих дополнительной
информации: для δ > 0, > 0 |τ | > |τ0 |,
H(Xτ \τ0 ) < δ и H(Xτ ) − H(Xτ0 ) < 12/17
Скурат Евгения Петровна, гр. 522
Комбинаторый анализ взаимодействия факторов
Двухфакторный дисперсионный анализ
Модель с фиксированными эффектами факторов A и B
yijk = µ + αi + βj + (αβ)ij + ξijk
yijk — количество положительных тестов на героин
αi — дифференциальный эффект фактора A симптома Xτ , |τ | < 4
βj — дифференциальный эффект фактора B терапии
(αβ)ij — эффект взаимодействия A и B
ξijk — ошибки независимые, N (0, σ 2 )
X1 , . . . Xm , m = 15 — факторы рецессивности генотипов
H0
τ
(15)
(8, 13)
(1, 5, 12)
: αi = 0
p
0.043
0.018
0.019
H(Xτ )
0.068
0.196
0.261
H0 : (αβ)ij = 0
τ
p
H(Xτ )
(9)
0.021
0.114
(7, 13)
0.029
0.135
(1, 5, 12) 0.049
0.261
Положительный эффект психотерапии без налтрексона при парном
сочетании генов: никот-вая зав-ть (1) , депрессия (5), алког-ая зав-ть (12)
13/17
Скурат Евгения Петровна, гр. 522
Комбинаторый анализ взаимодействия факторов
Анализ данных типа времени жизни
Критерий Гехана-Вилкоксона о равенстве медиан продолжительности
участия в программе при разной терапии
Ковариата — симптом Xτ , |τ | < 4
Правое цензурирование, индикатор — результат выполнения
программы
Интервальное цензурирование, [t1 , t2 ], t1 — точка последнего
наблюдения; t2 = t1 + 1
Рис.: Значимое влияние X1,5,12 на
дожитие (плацебо, p=0.0006)
Рис.: Положительный эффект X6,7,8
при продетоксоне, p=0.044
X6 – гиперактивность, X7 – болезнь Паркинсона, X8 – шизофрения
14/17
Скурат Евгения Петровна, гр. 522
Комбинаторый анализ взаимодействия факторов
Информационная статистика
Критерий Пирсона независимости категориальных признаков на
основе таблиц сопряженности
Значимое влияние факторов энергетики X1,5,12 (p=0.047) и
когнитивности X6,7,8 (p=0.047) на рецидив
Количество ошибок прогнозирования рецидива по значимым
симптомам Xτ , |τ | > k и верхние оценки вероятности случайной
классификации
Xτ
X(1,5,12),(7,8),(3,11)
X(1,5,12),(7),(3,11)
X(1,5,12),(6,7,8),(3,11)
ошибки
93
90
101
случайность
0.00502
0.00049
0.15899
p
0.031
0.028
0.043
H(Xτ )
0.275
0.263
0.289
X3 – импульсивность, X11 – дискинезия
15/17
Скурат Евгения Петровна, гр. 522
Комбинаторый анализ взаимодействия факторов
Взаимодействие генов и эффект лечения
Y = X1,5,12 ⊕ X6,7,8 ⊕ X3,11
X3,11
моторика
X6,7,8
когнитивность
X1,5,12
энергетика
число инд-дов
245
0
0
0
128
Y =0
0
1
1
0
1
1
8 11
1
1
0
2
0
0
1
50
Y =1
0
1
1
0
0
0
40 4
1
1
1
2
Рис.: Зависимость от продетоксона эффекта лечения при одной
генетической особенности, p=0.011.
16/17
Скурат Евгения Петровна, гр. 522
Комбинаторый анализ взаимодействия факторов
Основные результаты
Проведение комбинаторного анализа эффектов взаимодействия
множественных факторов на примере данных о программе
лечения героиновой наркомании
Реализация программы разработанного математического метода
исследования категориальных данных в статистическом пакете
R
Определение симметричного порядка и обобщение теоремы о
согласованности с флагом для введенного порядка
Доказательство формулы точной оценки вероятности случайной
классификации в частном случае
17/17
Скурат Евгения Петровна, гр. 522
Комбинаторый анализ взаимодействия факторов
Download