Международная научно-техническая конференция «Информационные системы и технологии» ИСТ-2014 СЕКЦИЯ 5.1 ТЕХНИЧЕСКАЯ КИБЕРНЕТИКА (СИСТЕМЫ ОБРАБОТКИ ИНФОРМАЦИИ) Э.С. СОКОЛОВА (д.т.н., профессор), Е.С. ГЕНЕРАЛОВА (магистр) (Нижегородский государственный технический университет им. Р.Е.Алексеева) РЕШЕНИЕ ЗАДАЧИ КЛАССИФИКАЦИИ ПОТОКОВЫХ ДАННЫХ Многие современные приложения, такие, как программы управления телекоммуникационными данными, финансовые приложения, клиенты сообщений социальных сетей имеют дело с потоками данных, представляющих бесконечную последовательность записей данных с высокой частотой поступления. В таких условиях стандартные алгоритмы интеллектуального анализа данных становятся не эффективными. Встает необходимость разработки совершенно новых, достаточно трудоемких в реализации алгоритмов обработки потоковых данных, отвечающих возрастающим запросам современного общества. Стандартные алгоритмы интеллектуального анализа данных (Data Mining) предполагают, что записи могут быть рассмотрены несколько раз. Сложность разработки алгоритмов интеллектуального анализа потоковых данных обусловлена необходимостью извлечения нужной информации из записи или одновременно из нескольких записей за один раз. Рассмотрим один из методов интеллектуального анализа потоковых данных, основанный на классификации потоковых данных. Классификация означает выделение групп данных путем выявления характерных для каждой из них признаков перед анализом данных. Для решения этой задачи предлагается использовать последовательное комбинирование алгоритмов, основанных на обработке потоковых данных с помощью деревьев решений, и статических данных методом случайных лесов, с внесением соответствующих дополнений и корректив. Классификация осуществляется с помощью голосования классификаторов, определяемых отдельными деревьями, составляющими случайный лес. Фактор “случайности” лесов формируется в алгоритме на этапе выборки записей из потока и на стадии отбора признаков групп, используемых при расщеплении вершин деревьев. Так как алгоритм классификации обрабатывает бесконечную последовательность данных, он должен иметь возможность адаптировать модель классификации к изменениям в потоке данных, в частности к изменениям в границах групп данных (“concept drift”), а также динамически осуществлять адаптацию классификатора под текущие характеристики поступающих потоковых данных. Процесс корректировки алгоритмов классификации должен быть оптимальным по критерию надежности построенной в результате обучения модели. Таким образом, алгоритм классификации должен непрерывно адаптироваться к входным потокам. Отметим, что алгоритмы классификации потоковых данных, в отличие от стандартных, имеют дело только с одним потоком данных, в котором смешиваются отмеченные записи, принадлежащие определенной группе, и неотмеченные записи. Так как фазы обучения, тестирования и развертывания алгоритма чередуются, алгоритм является достаточно сложным и его можно разделить на три этапа. Первый этап включает в себя строительство потокового дерева решений в рамках работы алгоритма случайных лесов для формирования модели классификации. На втором этапе происходит расширение алгоритма для обработки дрейфа тренда потоковых данных, так называемого “concept drift”, для чего используется техника обнаружения энтропии по Шеннону. Для использования энтропии в контексте обнаружения изменений в потоке данных, будем использовать парадигму двух окон. Два регулируемых окна над потоком данных непрерывно отслеживаются. Первое окно данных является текущим, второе - справочным, запоминающим распределение потока. Алгоритм обнаружения изменений в концепции данных сравнивает энтропии текущего и справочного окон, и, если энтропии отличаются более чем на определенное количество градусов (которое назначается опытным путем), то “concept drift” выявлен. На третьем этапе принимается решение о надежности полученной модели для развертывания алгоритма, если количество помеченных записей достаточно для построения или обновления модели. На этом шаге особое место занимает определение порогового значения, на котором основывается решение о развертывании текущей модели. Понимание важности совершенствования и развития новых методов анализа потоковых данных позволит создавать новые продукты и делать актуальные вероятностные прогнозы. E-mail: [email protected] 244