ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3 А.Г. ГУЖВА, С.А. ДОЛЕНКО, И.Г. ПЕРСИАНЦЕВ НИИ ядерной физики им. Д.В. Скобельцына МГУ им. М.В. Ломоносова, Москва [email protected], [email protected] МЕТОДИКА ПОСТРОЕНИЯ НЕЙРОСЕТЕВОЙ МОДЕЛИ НА ОСНОВЕ СИНТЕЗА АЛГОРИТМОВ ОТБОРА СУЩЕСТВЕННЫХ ВХОДНЫХ ПРИЗНАКОВ Рассмотрена методика построения нейросетевой модели (на основе многослойных персептронов) для решения задач нелинейной регрессии, построенная путём синтеза алгоритмов отбора наиболее существенных входных признаков. Приведено схематическое представление методики в виде алгоритма. Приведены оценки временных затрат, необходимых для применения методики. Ключевые слова: отбор существенных признаков, нелинейная регрессия Введение Рассматривается задача построения нейросетевой модели на основе многослойных персептронов на базе некоторого набора данных, имеющего N входных признаков (ВП) и 1 выходной признак, для решения задачи нелинейной регрессии. Для получения наилучшей модели, решающей задачу нелинейной регрессии (вне зависимости от критерия качества модели) необходимо перебрать все 2N-1 возможных комбинаций (наборов) ВП (полный перебор), что может быть трудоемко для больших значений N. Модель, построенная с использованием лишь наиболее существенных ВП, за счет уменьшения избыточности входных данных может оказаться лучше исходной (с точки зрения качества модели на независимом наборе данных), в частности, вследствие улучшения обобщающих свойств. Задача отбора существенных ВП (feature selection) решалась многими исследователями, и было разработано значительное количество алгоритмов, позволяющих решать эту задачу (см., например, [1]). Будем называть такие алгоритмы методами анализа существенности входных признаков (методы АСВП). УДК 004.032.26(06) Нейронные сети 213 ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3 Отдельно отметим, что в данной работе не рассматриваются методы сокращения размерности исходных данных с преобразованием пространства входных признаков, такие, как анализ главных компонент [2]. Описание предлагаемой методики В данной работе предложена методика построения нейросетевой модели на основе синтеза алгоритмов отбора существенных входных признаков, с помощью которой предлагается решать задачи нелинейной регрессии с использованием многослойных персептронов. Основной задачей при построении методики являлся синтез известных методов АСВП, т.е. такое их объединение, при котором усиливаются достоинства отдельных методов и компенсируются их недостатки. Получаемая нейросетевая модель решает задачу регрессии с использованием наиболее существенных входных признаков, выявляемых с помощью комбинации методов АСВП. Применение методики преследует следующие цели: • Повышение точности получающейся нейросетевой модели. • Значительное сокращение набора входных признаков (ВП) для улучшения смысловой интерпретации полученной модели. • Существенное уменьшение временных затрат по сравнению с полным перебором всех 2N-1 возможных комбинаций (наборов) ВП при поиске оптимального набора. Предлагаемая методика построена на основе решения большого числа задач, реальных и модельных, и представлена далее в виде алгоритма. Методика состоит из ряда этапов, выстроенных в порядке возрастания подробности исследования (рис. 1). Изначально (на 0-м этапе) задача регрессии решается на полном наборе имеющихся входных признаков. Получается исходное решение (и соответствующая ему исходная нейросетевая модель), с которым будут сравниваться все последующие полученные решения. Под исходными параметрами нейросетевой модели будет пониматься множество параметров исходной нейросетевой модели, за исключением числа входных нейронов, но включая архитектуру нейронной сети (НС) и ее параметры. УДК 004.032.26(06) Нейронные сети 214 ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3 Рис. 1. Схематическое представление методики На каждом этапе производится прореживание набора ВП. Чем «глубже» этап, тем более подробно исследование и тем больше необходимые вычислительные затраты. После каждого этапа на основе отобранных ВП строится решение задачи регрессии с помощью сети. УДК 004.032.26(06) Нейронные сети 215 ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3 В качестве окончательного решения будет взято лучшее из получившихся решений. Соответствующая построенная методикой сеть – это сеть, с помощью которой получено окончательное решение. Если на каком-то этапе полученного решения достаточно, то следующие этапы можно и не выполнять. «Достаточность» полученного решения определяется целями исследования или заказчиком исследования. Цель первого и второго этапов методики – исключение малосущественных ВП, цель третьего этапа методики – выявление наиболее существенных ВП, а также исключение взаимозависимых ВП. На схеме (рис. 1) использованы следующие обозначения: 1) «Повторить шаг» – булева постоянная, отвечающая за возможность повторного использования метода АВНС (см. далее). По умолчанию, значение равно «ЛОЖЬ». 2) FA, FD, FE, FL, FM, – решения задачи с помощью нейросетевых моделей с исходными параметрами нейросетевой модели на основе соответствующих наборов ВП. По умолчанию, для оценки решения используется коэффициент множественной детерминации R2. 3) «Остановить итерации?» – условное обозначение булевой функции, отвечающей за останов итераций метода АСВП NNAdd (см. далее). По умолчанию, функция равна «FM на i-1 итерации лучше FM на i-ой итерации». 4) «Достаточно ли хорошо?» – условное обозначение булевой функции, представляющей собой условие допустимости решения, полученного в процессе различных шагов методики. Под типичными параметрами нейросетевой модели будет пониматься следующее множество параметров нейронной сети: 1) Архитектура нейронной сети – многослойный персептрон с одним скрытым слоем; 2) Число нейронов скрытого слоя Nh может принимать значения 2n (2, 4, 8, 16…), по умолчанию n=3; 3) Число нейронов выходного слоя равно 1 (рассматриваемый круг задач ограничен задачами с единственным выходным признаком); 4) Обучение производится с помощью стандартного алгоритма обратного распространения ошибки (с моментом), значение скорости обучения равно 0,01, значение момента обучения равно 0,5. 5) Критерий остановки – 100 эпох после минимума ошибки на тестовом наборе данных. Использованные в алгоритме методы АСВП: УДК 004.032.26(06) Нейронные сети 216 ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3 1) Метод АСВП, использующий корреляционный анализ [3] для оценки значений существенности и алгоритм добавления «случайных признаков» (random probes, [4]) в качестве алгоритма отбора. По умолчанию, к набору ВП добавляется 10 признаков, содержащих случайно сгенерированные значения. Отбираются ВП, существенность которых превысит существенность всех «случайных признаков». Это метод 1-ого этапа методики. Его основная задача – выделение легко интерпретируемых исследователем линейных взаимосвязей между различными ВП и выходным признаком. 2) Метод АСВП, использующий кросс-энтропийный анализ [5] для оценки значений существенности и алгоритм добавления «случайных признаков» (по умолчанию, 10) в качестве алгоритма отбора. Это также метод 1-ого этапа методики. Его основная задача – исключение заведомо несущественных ВП. 3) Метод анализа весов НС (АВНС) использует алгоритм АВНС [6] для оценки значений существенности и алгоритм добавления «случайных признаков» (по умолчанию, 5) в качестве алгоритма отбора. Однако наборы значений существенности, полученные в результате работы алгоритма АВНС, сильно зависят от выбора начальной точки в пространстве весов используемых в алгоритме НС. Поэтому вычисления проводятся некоторое количество M раз (каждый раз – с новым выбором начальной точки в пространстве весов сетей), для каждого полученного набора значений существенности отбираются существенные признаки. В набор отобранных методом признаков попадают те признаки, которые не менее K M раз были отобраны. По умолчанию, K = M = 5. Этот метод может использоваться повторно (см. рис. 1). В практических исследованиях методики, он повторно использовался не более 1 раза. В случае повторного использования: a. Нет необходимости добавления «случайных признаков». b. В качестве алгоритма отбора выступает алгоритм отсечения по порогу (по умолчанию используется порог, равный «среднее значение существенности плюс одно стандартного отклонение»). Метод используется для контролируемого по степени подробности исключения малосущественных ВП. 4) Метод АСВП NNAdd использует алгоритм последовательного добавления ВП (метод обозначен как SFS в работе [7]). В связи с существенной вычислительной стоимостью этого алгоритма отбора используются НС с типичными параметрами. УДК 004.032.26(06) Нейронные сети 217 ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3 Этот метод используется для наиболее тщательного поиска существенных ВП. Неоспоримым преимуществом является возможность останова данного этапа при достижении необходимой точности результатов, что в какой-то степени позволяет компенсировать требуемые вычислительные затраты. Кроме того, особенности используемого алгоритма позволяют исключить из рассмотрения взаимозависимые ВП (отметим, что вопрос об исключении взаимозависимых ВП представляет собой отдельную очень серьезную проблему). При необходимости могут быть использованы другие булевы функции, типичные параметры нейросетевой модели, параметры методов и алгоритмов. Для наиболее подробного анализа с помощью разработанной методики предлагается использовать следующие параметры: 1) «Достаточно ли хорошо?» имеет значение «ЛОЖЬ» (принудительное прохождение всех шагов алгоритма). 2) «Повторить шаг» имеет значение ИСТИНА (включается возможность повторного использования метода АВНС). 3) Исходная нейросетевая модель использует многослойный персептрон с тремя скрытыми слоями. 4) В методе NNAdd используются нейросетевые модели с исходными параметрами. 5) В методе АВНС используется алгоритм отсечения по порогу, равному «среднее значение существенности». Необходимо подчеркнуть следующее: 1) Применение методики предполагает достаточную представительность всех используемых наборов данных. 2) При разработке методики ставилась задача проверить, в первую очередь, принципиальную возможность синтеза ряда методов АСВП и убедиться в том, что методика в целом работает не хуже методов по отдельности. Критерии для включения новых методов в методику Методика содержит в себе ряд методов, каждый из которых применяется на определенном этапе. Этапы выстроены в виде последовательности, где наиболее мощные методы находятся в конце последовательности, а наиболее быстрые – в начале. Для добавления нового метода в методику используются следующие критерии для определения того, на какой из этапов должна быть помещен новый метод: УДК 004.032.26(06) Нейронные сети 218 ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3 1) Проверить, не является ли новый метод X частным случаем некоторого присутствующего в методике метода Y (находящегося на этапе с индексом N). Если является, то новый метод X может быть помещен в этап с индексом M < N. 2) Проверить, не является ли новый метод X обобщением некоторого присутствующего в методике метода Y (находящегося на этапе с индексом N). Если является, то новый метод X может быть помещен в этап с индексом M > N. 3) На одном этапе должны находиться методы примерно одинаковой вычислительной стоимости. 4) На одном этапе не должны находиться методы, основанные на одном и том же принципе \ алгоритме. Вопрос о том, насколько оправдано включение некоторого нового метода АСВП в методику, в общем случае требует специального отдельного исследования для рассматриваемого нового метода. Совместное использования алгоритмов корреляционного анализа и кросс-энтропийного анализа В работе [8] отмечается, что алгоритм кросс-энтропийного анализа (КЭА), используемый для определения взаимосвязей, имеет ряд преимуществ и недостатков по сравнению с алгоритмом корреляционного анализа (КА). Например, КЭА требуется больший объем данных. Рассмотрены следующие модельные примеры функциональных зависимостей между двумя величинами x и y (Рис. 2; приведены значения коэффициентов линейной корреляции rPC и значение взаимной информации rlKras; рисунок взят из работы [8]). Рис. 2. Модельные примеры функциональных зависимостей [8] УДК 004.032.26(06) Нейронные сети 219 ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3 На основании подробного рассмотрения в работе [8] был сделан вывод о главном преимуществе КЭА перед КА, заключающемся в способности выделения нелинейных взаимосвязей. Однако, с точки зрения авторов настоящей работы, вышеприведенные примеры могут указать и на недостатки алгоритма КЭА, рассматриваемого в качестве метода АСВП в методике по построению НС. Так, по распределениям на примерах A1-A3, A5-A7, B1, B4 возможно построение нейросетевой модели вида y=f(x), в которой f(x) действительно будет зависеть от x. Для примеров A4, B2, B3, B5, B6 и B7 этого сделать невозможно. Следовательно, большое значение существенности, полученной из алгоритма КЭА, не всегда говорит о том, что рассматриваемая величина x существенна и пригодна для построения нейросетевой модели величины y. В противоположность этому, большое значение коэффициента линейной корреляции r(x,y) всегда говорит о том, что в указанном смысле величина x будет существенна для построения нейросетевой модели величины y. Более того, большое значение коэффициента линейной корреляции r(x,y) имеет наглядную интерпретацию, чрезвычайно важную для любых исследований, а именно: между величинами x и y имеется линейная зависимость. Напротив, большое значение существенности, полученное из алгоритма КЭА, не позволяет сделать выводы о характере имеющейся зависимости, которая может быть, исходя из приведенных примеров, весьма причудливой. Исходя из приведённых соображений, не умаляя как достоинств алгоритма КА, так и достоинств КЭА, было решено применить оба соответствующих метода на первом этапе методики. Метод на основе алгоритма КА используется в первую очередь для наглядной трактовки возможных зависимостей между ВП и выходным признаком. Метод на основе алгоритма КЭА используется для выделения возможных нелинейных закономерностей в данных. Следует также подчеркнуть, что основной задачей первого этапа методики является исключение из рассмотрения малосущественных переменных, а не выделение наиболее существенных. Поэтому выбирается консервативная стратегия, в соответствии с которой из рассмотрения исключаются только те ВП, которые признаны несущественными по результатам применения как КА, так и КЭА. УДК 004.032.26(06) Нейронные сети 220 ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3 Временные оценки для различных этапов методики Пусть P – число примеров в тренировочном наборе данных, Qi – число ВП, используемых на рассматриваемом i-м этапе методики, Nh – число нейронов первого скрытого слоя в используемых многослойных персептронах. Тогда в предположении, что Qi значительно больше числа нейронов в скрытых слоях: Вычисления 0-го этапа требуют O(PQ0Nh) операций, где – число эпох обучения, ~ 102 - 103. Вычисления 1-го этапа требуют O(PQ1) операций, в случае распараллеливания вычислений по ВП – O(P) операций. Вычисления 2-ого этапа требуют O(PQ2Nh) операций, где – число эпох обучения, ~ 102 - 103. Вычисления 3-его этапа требуют O(PQ33Nh) операций, в случае распараллеливания вычислений по входным признакам – O(PQ32Nh) операций, где – число эпох обучения, ~ 102 - 103. Для многослойного персептрона с 1 скрытым слоем верхним пределом значения Nh является значение P [9]. Чем «глубже» этап (начиная с 1-ого), тем большие вычислительные затраты необходимы. Последовательное сокращение числа входных признаков от этапа к этапу, когда Q0 Q1 Q2 Q3, позволяет существенно сократить число операций, требуемых для более поздних этапов. Апробация методики Предложенная методика была проверена на ряде наборов данных из общедоступной базы WEKA [10]. Были продемонстрированы эффективность методики и преимущество её использования по сравнению с одиночными методами ОСП [11]. Разработанная методика была также успешно применена при решении обратной задачи электроразведки [12]. Заключение В данной работе описана методика построения нейросетевой модели (на основе многослойных персептронов) для решения задач нелинейной регрессии, построенная путём синтеза алгоритмов отбора наиболее существенных входных признаков. Применение методики позволяет повысить точность НС модели и значительно сократить количество входных приУДК 004.032.26(06) Нейронные сети 221 ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3 знаков, интерпретируя полученные результаты в терминах предметной области решаемой задачи. Список литературы 1. Guyon I., Elisseeff A. An Introduction to Variable and Feature Selection // Journal of Machine Learning Research. 2003. Vol. 3. P. 1157-1182. 2. Gorban A., Kegl B., Wunsch D., Zinovyev A. (Eds.). Principal Manifolds for Data Visualisation and Dimension Reduction. LNCSE 58, Berlin – Heidelberg – New York: Springer. 2007. 3. Cohen I., Huang Y., Chen J., Benesty J. Pearson Correlation Coefficient. Noise Reduction in Speech Processing. ISBN 978-3-642-00295-3, Berlin – Heidelberg: Springer. P. 1–4. 4. Oukhellou L., Aknin P., Stoppiglia H., Dreyfus G. A new decision criterion for feature selection: Application to the classification of non destructive testing signatures // European Signal Processing Conference (EUSIPCO’98), Rhodes. 1998. 5. Press W.H., Teukolsky S.A., Vetterling W.T., Flannery B.P. Numerical Recipes in C: The Art of Scientific Computing. Cambridge University Press. 1992. 6. Gevrey M., Dimopoulos I., Lek S. Review and comparison of methods to study the contribution of variables in artificial neural network models // Ecological Modelling. 2003. Vol. 160. P. 249-264. 7. Pudil P., Somol P. Current Feature Selection Techniques in Statistical Pattern Recognition. Computer Recognition Systems. Berlin – Heidelberg: Springer. 2005. P. 53-68. 8. Numata J., Ebenhoh O., Knapp E. Measuring Correlations in Metabolomic networks with mutual information. http://www.jsbi.org/pdfs/journal1/IBSB08/IBSB08010.pdf 9. Huang G., Babri H.A. Upper Bounds of the Number of Hidden Neurons in Feedforward Networks with Arbitrary Bounded Nonlinear Activation Functions // IEEE Transactions on Neural Networks. 1998. Vol. 9. No. 1. 10. База данных WEKA. http://www.cs.waikato.ac.nz/ml/weka/ 11. Гужва А.Г., Доленко С.А., Персианцев И.Г. Методика отбора существенных входных признаков при нейросетевом решении задач регрессии // Нейрокомпьютеры: разработка, применение. 2010. №3. С. 20–32. 12. Гужва А.Г., Доленко С.А., Оборнев Е.А., Персианцев И.Г., Шимелевич М.И., Шугай Ю.С. Использование адаптивных алгоритмов отбора существенных признаков при нейросетевом решении обратной задачи УДК 004.032.26(06) Нейронные сети 222 ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3 электроразведки // Нейрокомпьютеры: разработка, применение. 2010. №3. С. 46–54. УДК 004.032.26(06) Нейронные сети 223