Гужва А., Доленко С., Персианцев И., Шугай Ю.

advertisement
34
СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ
ОПРЕДЕЛЕНИЯ СУЩЕСТВЕННОСТИ ВХОДНЫХ ПЕРЕМЕННЫХ
ПРИ НЕЙРОСЕТЕВОМ МОДЕЛИРОВАНИИ:
МЕТОДИКА СРАВНЕНИЯ И ЕЁ ПРИМЕНЕНИЕ
К МОДЕЛЬНЫМ ЗАДАЧАМ1
А.Г. Гужва2, С.А. Доленко2, И.Г. Персианцев2, Ю.С. Шугай2
НИИ ядерной физики им. Д.В.Скобельцына МГУ им. М.В.Ломоносова,
119991, Москва, Ленинские горы, д.1, стр.2, НИИЯФ МГУ, nop43@rambler.ru
2
Рассматривается методика сравнительного анализа методов определения существенности входных переменных при нейросетевом решении задачи регрессии.
Описаны вариации этой методики применительно к различным методам. Предложенная методика тестируется на ряде модельных задач. По результатам тестирования предложен порядок применения методов анализа существенности входных
переменных при рассмотрении новых задач.
Введение
Одной из существенных проблем при
нейросетевом (НС) моделировании является снижение размерности входных данных.
Имеющейся информации о смысле решаемой задачи часто оказывается недостаточно для принятия решения о существенности той или иной входной переменной.
Проблема большой размерности входных
данных особенно актуальна для задач, связанных с изучением временных рядов, когда погружение временного ряда порождает большое количество новых независимых
переменных.
Снижение входной размерности данных
повышает их статистическую обоснованность (при том же количестве примеров),
уменьшает вычислительные затраты и
упрощает трактовку результатов анализа.
При НС моделировании отбрасывание малосущественных переменных часто может
приводить приводит к улучшению качества НС модели.
Понижение размерности данных предполагает определение существенности каждой
из исследуемых переменных с последующим исключением части переменных из
рассмотрения. В данной работе рассматривается методика сравнения методов определения существенности.
Постановка задачи
Пусть имеется некая задача Z, заданная в
виде совокупности примеров (образцов
данных). Каждый пример представляет собой комбинацию значений независимых
(входных) переменных и соответствующих
им значений зависимых (выходных) переменных. Задача регрессии состоит в построении модели A (в нашем случае
нейросетевой), описывающей зависимость
каждой выходной переменной от входных.
Качество q построенной модели A определяется, как правило, статистической погрешностью моделирования на независимых данных. Конкретными критериями
качества могут быть, например, среднеквадратичное отклонение предсказаний
модели от желаемых значений или коэффициент линейной корреляции r. Увеличение количества входных переменных может не приводить к повышению качества
модели или даже приводить к его снижению, в особенности для НС моделей.
Каждой входной переменной xi можно сопоставить некоторое число S(xi), которое
назовем существенностью. Существенность переменной определяется тем,
насколько влияет использование или неиспользование данной переменной при построении модели A на качество получающейся модели. Существенность всегда
________________________________________________________
1
Работа выполнена при поддержке гранта РФФИ № 07-01-00651.
35
определяется применительно к рассматриваемой задаче Z (т.е. S(x) есть S(x, Z)).
Как и при построении модели, в случае достаточно представительного набора данных результаты определения существенности мало зависят от конкретной выборки.
Отметим, что в сложных задачах все переменные так или иначе могут быть взаимосвязаны. Существенность каждой переменной в этих случаях можно определить
лишь с точки зрения приведенного формального определения.
Разумеется, оптимальное подмножество
полного набора из n входных переменных
можно определить путём перебора всех
возможных их комбинаций, т.е. путём построения 2n-1 моделей с последующим выбором модели, наилучшей в смысле качества q. Однако построение такого количества НС моделей потребует неприемлемо
больших вычислительных затрат.
Альтернативой такому подходу является
использование для определения существенности входных переменных сторонней модели B, не имеющей отношения к
НС модели A и позволяющей оценить существенность входных переменных с гораздо меньшими затратами. Различные по
алгоритму построения модели B реализуют
различные методы определения существенности
входных
переменных
(МОСВП).
Возможность привлечения сторонней модели B следует из того, что при построении
НС модели A и сторонней модели B используются одни и те же данные для выявления одних и тех же взаимосвязей выходной и входных переменных. Поэтому есть
основания полагать, что выводы моделей B
и модели A о существенности должны
быть схожи. Более простая модель B, скорее всего, усвоит содержащиеся в данных
закономерности хуже исходной НС модели
A, однако даст существенный выигрыш во
времени.
Данная работа ставит своей целью разработку методики адекватного сравнения
различных МОСВП. Отметим, что можно
сравнить методы на основе конкретных
данных для конкретной задачи. Однако
нельзя строго сравнивать методы на основе
разных данных и на основе разных задач.
Можно лишь говорить о том, что статисти-
чески один метод имеет определенные
преимущества и недостатки по сравнению
с другими. Зная достоинства и недостатки
различных методов, на новой задаче будет
разумно применять методы в некоторой
очередности.
Методика сравнения МОСВП
Конечной целью НС моделирования является построение наилучшей с точки зрения
качества q НС модели, выбирая для нее
оптимальный набор входных переменных.
Для определения оптимального набора
входных переменных используются различные МОСВП.
Задавая для каждого метода одинаковые
"внешние" условия (исходный набор данных, критерии оценки качества модели и
т.д.), можно сравнивать методы, выполняя
для каждого МОСВП следующую последовательность операций:
1. Определить S(x) для всех переменных x
с точки зрения данного метода.
2. Отобрать часть наиболее существенных
переменных.
3. Выполнить построение НС модели А на
основе отобранного набора.
4. Определить качество построенной НС
модели q. Так как методы помещались в
одинаковые условия, то q будет зависеть
только от выбранных методами переменных, то есть от того, хуже сработал
соответствующий метод или лучше.
Далее в терминах q определяется сравнительная эффективность методов по отношению к рассматриваемой задаче регрессии. Сравнение эффективности одного и
того же набора методов на разных задачах
может позволить сделать выводы о том,
какие методы и в каком порядке следует
применять при анализе новой задачи. При
этом помимо эффективности каждого метода должна приниматься во внимание его
вычислительная стоимость.
Разновидности МОСВП
Было рассмотрено два типа МОСВП.
Методы I типа. Каждой входной переменной xi сопоставляется S(xi) как действительное положительное число. Использовались следующие сторонние модели B:
36
1. Линейная регрессия: строится модель
вида y=Σ(ai·xi). Тогда S(xi) = |ai|.
2. Корреляционный анализ: S(xi)=cor(y, xi).
3. Кросс-энтропийный анализ: S(xi)=I(y, xi),
где I(a, b) есть кросс-энтропия a и b [1].
4. Анализ Весов Нейронной Сети (АВНС):
На полном наборе входных переменных
обучается трехслойный персептрон. По
значениям весов обученного персептрона вычисляются S(xi) (см [4, 6]).
После получения всех S(xi), применялся
некоторый алгоритм Y для отбора существенных переменных. Согласно разным
использованным вариантам Y, существенными переменными являлись:
1. заданное число переменных с наибольшими соответствующими S(xi)
2. те xi, для которых S(xi) больше среднего
значения S
3. те xi, для которых S(xi) больше среднего
S плюс 1-2 стандартных отклонения S.
Методы II типа. Каждой входной переменной xi сопоставляется S(xi) как 0 или 1.
Для этого вместе со сторонней моделью B
используется некоторый алгоритм W, который строит модели B на основе различных наборов входных переменных xi. Переменные из наилучшего (с точки зрения
качества модели B) набора считаются существенными, остальные – нет. В качестве
W использовались следующие алгоритмы:
1. Add: добавление по одной переменной в
текущий набор [2].
2. Del: удаление по одной переменной из
текущего набора [2].
Применялись сторонние модели B:
1. Линейная регрессия
2. НСОР (Нейронная сеть с общей регрессией, [7]).
3. МНС: Трехслойный персептрон с малым
числом нейронов в скрытом слое и
большой скоростью обучения.
Кроме того, использовались методы, реализующие специфические "сплавы" W+B –
это Метод Группового Учета Аргументов
(МГУА, [3]) и Генетическое Программирование (ГП, [5]).
Таким образом, 4 метода I типа и 2*3+2=8
методов II типа применялись на разных
данных с целью сравнения моделей B, алгоритмов Y и W.
Модельные задачи
В процессе построения методики были
рассмотрены 4 модельные задачи. Имелось
20 входных переменных в виде массивов
случайных чисел в диапазоне [-1..1]. Для
каждой задачи выбирались некоторые из
переменных, и на их основе строилась некоторая функция. Неиспользованные переменные играли роль "лишних" (несущественных). Каждому методу предлагалось
определить использованные переменные
для каждой модельной задачи. Для простоты был рассмотрен случай с одной прогнозируемой переменной y.
y  0.1 exp 4 x1   4 1  exp  20x 2  0.5 

3x3  x 4  sin 5 x5   exp  3x
2
6

(1)
(1). Выходная переменная y есть сумма
функций одной переменной, переменные
вносят независимый и примерно одинаковый вклад.
y  x1  100 x 2 0.01x3
(2)
(2). Входные переменные вносят независимый, но существенно различающийся
вклад в модель.




y  x1 exp  x2  x3   x4 1  x52  x62 
2
sin 10 x7   sin 3x8 sin 8x9 
(3)
(3). Сложная нелинейная зависимость от
взаимосвязанных переменных.
y  x1  4 x 2 x3 x 4  x5 x6 
(4)
x  x x9  x10 x11 x12 x13
2
7
2
8
(4). Полиномиальная зависимость с большим числом связанных переменных и
сильной "связью" между переменными.
Для всех модельных задач были рассмотрены выборки из 200, 600, 2000, 6000 и
20000 примеров.
В каждой задаче рассматривалось несколько наборов данных, различающихся уровнями наложенного мультипликативного
шума (0, 1%, 3%, 10%, 30%, 100% максимальной амплитуды шума к амплитуде
сигнала).
Основные результаты
37
Ниже приводятся основные выводы, сделанные по результатам применения перечисленных методов к описанным модельным задачам; некоторые из этих выводов
оказались вполне ожидаемыми.
Методы II типа показали лучшие результаты по сравнению с методами I типа.
Алгоритм Add оказался лучше, чем алгоритм Del. Время, необходимое на достижение аналогичного результата для Delалгоритма выше, чем для Add-алгоритма.
С помощью алгоритмов отбора по порогу
"среднее + стандартное отклонение" и
"среднее + 2 стандартных отклонения"
практически всегда выделялись реально
использовавшиеся переменные.
Для большинства запусков различных методов заметные отличия наблюдались при
уровнях шума в выходной переменной
30% и 100%. Наименьшее влияние шума на
результаты наблюдалось у нейросетевых
методов.
При увеличении числа примеров наблюдалось снижение числа неправильно выбранных переменных. Для нейросетевых методов необходимо использовать как можно
большую выборку.
Корреляционный
анализ
и
кроссэнтропийный анализ плохо выделяют переменные, которые используются только в
мультипликативных группах с другими
входными переменными.
Использование генетического программирования нерационально для решения поставленной задачи ввиду заметных временных затрат и существенного влияния
инициализации начальной популяции.
Использование НСОР как метода второго
типа нерационально при большом числе
точек ввиду больших временных затрат.
Результаты по временным затратам (в порядке возрастания затрат): корреляционный анализ, АВНС (без учета времени на
тренировку НС), линейная регрессия,
кросс-энтропийный анализ, МГУА, ГП,
МНС, НСОР.
Выводы
Методы сильно различаются по своей "эффективности" и по временным затратам.
Поэтому при изучении новой задачи можно применять методы в некоторой после-
довательности. Изначально определяются
существенные переменные с помощью
первого метода из последовательности.
Если модель A1, построенная на выделенном наборе существенных переменных,
дает "существенно худшие" (по мнению
исследователя) результаты, чем модель А,
построенная на полном наборе имеющихся
переменных, то необходимо использовать
следующий метод и т.д.
Последовательность применения методов:
1. Применение корреляционного анализа.
2. Применение кросс-энтропийного анализа
с отсечением по порогу "среднее".
3. Применение метода АВНС для выбора
тех переменных, существенность которых выше порогов "среднее + 2 стандартных отклонения", "среднее + стандартное отклонение" и "среднее" для
определения наиболее существенных,
очень существенных и существенных
переменных.
4. Применение линейной регрессии в совокупности с Add-алгоритмом.
5. Применение метода МГУА.
6. Применение метода МНС в совокупности с Add-алгоритмом. В качестве
начального набора переменных для данного метода можно взять результаты
предыдущих пунктов.
Литература
1. А.А. Ежов, С.А. Шумский. Нейрокомпьютинг и
его применения в экономике и бизнесе. // М.,
МИФИ, 1998.
2. Н.Г. Загоруйко. Прикладные методы анализа
данных и знаний. // Новосибирск: Изд-во Ин-та
математики. - 1999.
3. А.Г. Ивахненко. Индуктивный метод самоорганизации моделей сложных систем. // Киев, Наукова думка. 1982. См. также http://www.gmdh.net
4. M. Gevrey, I. Dimopoulos, S. Lek. Review and
comparison of methods to study the contribution of
variables in artificial neural network models. // Ecological Modelling. – 2003. - V.160 - pp.249-264.
5. J.R. Koza. Genetic programming on the programming of computers by means of natural selection. //
The MIT Press. - 1992.
6. Warren S. Sarle. How to measure importance of
inputs? // SAS Institute Inc., Cary, NC, USA.
ftp://ftp.sas.com/pub/neural/importance.html
7. D.F. Specht. A Generalized Regression Neural
Network. // IEEE Transactions on Neural Networks,
2, Nov. 1991, 568-576.
Download