УДК 519.87 КЛАССИФИКАЦИЯ ТИПОВ ВЫСОКОЧАСТОТНЫХ РАДАРНЫХ СИГНАЛОВ МЕТОДАМИ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ Полонская Я.С Научный руководитель д-р техн. наук Семенкин Е.С. Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнева С развитием ракетной техники и с наступлением космической эры – эры искусственных спутников Земли (ИСЗ) и других космических аппаратов, появилась возможность непосредственного измерения параметров околоземной космической плазмы, нижней частью которой является ионосфера. Целью теоретических исследований ионосферы является детальное описание ее основных свойств и процессов, в ней протекающих. Решение этой проблемы позволит повысить надёжность работы навигационных систем дальней радиосвязи, обеспечения полётов космических аппаратов и т. д. От этих исследований есть и большая научная польза (кроме непосредственной практической пользы) – лучшее понимание поведения собственной планеты. Ионосфера – это намагниченная плазма, находящаяся в нестационарных условиях (обдувается солнечным ветром). А нестационарная намагниченная плазма – это вообще один из самых сложных объектов в физике из-за многообразия волн, колебаний и нестабильностей. Поэтому ионосфера – это природная лаборатория для изучения поведения плазмы в таких больших масштабах.Так называемые слои в атмосфере – это области, в которых имеются максимумы концентрации свободных электронов в единице объема. Именно свободные электроны, возникающие в процессе ионизации атомов газов атмосферы, играют решающую роль в процессах взаимодействия с радиоволнами, а роль положительных ионов в этих процессах вследствие их большой массы ничтожно мала. В результате многолетних исследований мы сейчас знаем очень многое об ионосфере Земли, о ее нормальном состоянии и о многих процессах, которые в ней происходят. Для исследования ионосферы используются специальные радары. Мощная антенна излучает радиоволны, которые входят в резонанс с ионосферой, усиливают в ней колебания, которые переизлучают радиоволны, и в результате получается отраженное излучение. При этом многие ретрансляционные станции для радиовещания имеют мощность, сравнимую с исследовательскими станциями для изучения ионосферы. Задача, решаемая в данной работе, состоит в классификации высокочастотных радарных сигналов, возвращаемых из ионосферы. Радарные данные, используемые в этом исследовании, были собраны радаром, управляемым университетом Джонса Хопкинса (прикладная лаборатория физики) [1]. Данный радар работает в частотах от 8 до 20 МГц и состоит из 16 управляемых антенн. Для исследования были выбраны данные, зарегистрированные в 1986–1987, когда у радара была более низкая выходная мощность, приводящая к несколько более зашумленным сигналам, что особенно подходит для демонстрации возможностей классификаторов [2]. База данных, используемая в данной работе, была предоставлена университетом Джона Хопкинса и содержит 351 экземпляр и 34 атрибута [3]. В данной работе были использованы следующие методы классификации: искусственные нейронные сети, метод опорных векторов, метод k ближайших соседей, метод деревьев решений, индукция правил. 1. Искусственные нейронные сети (Neural networks - ANN) представляют собой нелинейную систему, позволяющую классифицировать данные гораздо лучше, чем обычно используемые линейные методы. ANN – это структура для обработки когнитивной информации, основанная на моделировании функций мозга. Основу каждой ANN составляют относительно простые, в большинстве случаев однотипные элементы (ячейки), имитирующие работу нейронов мозга. Каждый нейрон характеризуется своим текущим состоянием по аналогии с нервными клетками головного мозга, которые могут быть возбуждены или заторможены. Искусственный нейрон обладает группой синапсов — однонаправленных входных связей, соединенных с выходами других нейронов, а также имеет аксон — выходную связь данного нейрона, с которой сигнал (возбуждения или торможения) поступает на синапсы следующих нейронов [4]. 2. Метод опорных векторов (Support Vector Machine - SVM) относится к группе граничных методов. Он определяет классы при помощи границ областей. В основе метода лежит понятие плоскостей решений. Решение задачи бинарной классификации при помощи метода опорных векторов заключается в поиске некоторой линейной функции, которая правильно разделяет набор данных на два класса. Наилучшей функцией классификации является функция, для которой ожидаемый риск минимален. Понятие ожидаемого риска в данном случае означает ожидаемый уровень ошибки классификации. Напрямую оценить ожидаемый уровень ошибки построенной модели невозможно, это можно сделать при помощи понятия эмпирического риска. Однако следует учитывать, что минимизация последнего не всегда приводит к минимизации ожидаемого риска. Это обстоятельство следует помнить при работе с относительно небольшими наборами тренировочных данных. Метод опорных векторов позволяет: получить функцию классификации с минимальной верхней оценкой ожидаемого риска (уровня ошибки классификации); использовать линейный классификатор для работы с нелинейно разделяемыми данными, сочетая простоту с эффективностью [4]. 3. Метод k ближайших соседей (k-NN) - метод автоматической классификации объектов. Основным принципом метода ближайших соседей является то, что объект присваивается тому классу, который является наиболее распространённым среди соседей данного элемента. Соседи берутся исходя из множества объектов, классы которых уже известны, и, исходя из ключевого для данного метода значения k, высчитывается, какой класс наиболее многочислен среди них. Помимо классической задачи отыскания ближайшей к заданной точке, могут быть поставлены задачи: найти приблизительных ближайших соседей (не обязательно наиболее близкого); найти ближайшего соседа для группы элементов; найти несколько ближайших соседей; найти все пары элементов, расстояние между которыми меньше некоторого заданного; найти ближайших соседей в динамически меняющейся среде. Данный метод по своей сути относится к категории "обучение без учителя", т.е. является "самообучающейся" технологией, благодаря чему рабочие характеристики каждой базы прецедентов с течением времени и накоплением примеров улучшаются [4]. 4. Метод деревьев решений (Decision tree – DT) – один из методов автоматического анализа данных. Деревья решений – это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде "если ... то ..." [4]. 5. Индукция правил (Rule induction – RI). Запускаясь с менее распространенных классов, алгоритм многократно добавляет и сокращает правила, пока нет никаких положительных оставленных примеров, или коэффициент ошибок больше, чем 50%. В растущей фазе для каждого правила добавляются условия, пока правило не совершенно (т.е. на 100% точно). Правила построены на основе обучающего множества, которое предсказывает, что атрибут будет иметь определенное значение или диапазон значений [4]. Для обучения системы был использован метод SplitValidation. Он состоит из двух подпроцессов: подпроцесс обучения и подпроцесс тестирования. Первый подпроцесс используется для обучения модели, затем модель проверяется в ходе второго подпроцесса. Эффективность модели также измеряется во время фазы тестирования. Вход разбивается на два подмножества. Одно подмножество используется в качестве обучающей выборки, а другое используется в качестве тестового набора. Размер двух подмножеств можно регулировать с помощью различных параметров [5]. Полученные результаты были сравнены по критерию Стюдента с помощью оператора T-test, был выявлен лучший из используемых методов классификации. Наилучшие результаты показал метод деревьев решений – 92.88% +/- 4.64%. Результаты сравнения представлены в таблице 1. Таблица 1. Эффективность различных методов в классификации сигналов радара ANN DT SVM k-NN RI 0.909 +/- 0.043 0.929 +/- 0.046 0.864 +/- 0.055 0.869 +/- 0.044 0.889 +/- 0.059 ANN DT SVM k-NN 0.345 0.065 0.011 0.065 0.009 0.809 0.401 0.133 0.349 0.420 Полученные результаты показывают, что метод деревьев решений демонстрируют лучшую эффективность и может помочь реализовать классификацию радарных сигналов, что может облегчить работу исследователям. Список литературы. 1. Ionosphere Data Set http://archive.ics.uci.edu/ml/datasets/Ionosphere 2. Neural networks for automated classification of ionospheric irregularities in HF radar backscattered signals / S. Wing, R.A. Greenwald, C.-I. Meng, V.G. Sigillito and L.V. Hutton / John Hopkins University, Applied Physics Laboratory, Laurel, Maryland, USA 3. Ionosphere Data Set Description. http://archive.ics.uci.edu/ml/machine-learningdatabases /ionosphere/ionosphere.names 4. RapidMiner Documentation. http://docs.rapidminer.com 5. RapidMiner Documentation / Split Validation. http://docs.rapidminer.com/studio/ operators/evaluation/validation/split_validation.html