ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное автономное образовательное учреждение высшего профессионального образования

advertisement
ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное
учреждение высшего профессионального образования
"Национальный исследовательский университет
"Высшая школа экономики"
Пермский филиал
Факультет бизнес-информатики
Кафедра информационных технологий в бизнесе
УДК 004.896+004.942
РЕАЛИЗАЦИЯ СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ
РЕШЕНИЙ В УПРАВЛЕНИИ ПЕРСОНАЛОМ
Выпускная квалификационная работа бакалавра
Работу выполнил студент
группы БИ-10-2
4 курса факультета бизнес-информатики
Е.А. Матвеев
Научный руководитель:
Старший преподаватель кафедры
информационных технологий в бизнесе
П.А. Мальцев
“_____” _________________ 20__ г.
Пермь 2014
Оглавление
Оглавление
................................................................................................................. 2
Список терминов и сокращений ...................................................................................... 4
Введение
................................................................................................................. 5
Глава 1. Обзор существующих методов и систем анализа данных ........................... 8
1.1. Понятийный аппарат ....................................................................................... 8
1.2. Анализ данных ................................................................................................. 9
1.2.1. Многомерная структура данных ....................................................... 10
1.2.2. Общий подход к анализу данных ...................................................... 13
1.2.3. On-Line Analytical Processing ............................................................. 15
1.2.4. Knowledge Discovery in Databases ..................................................... 16
1.2.5. Data Mining .......................................................................................... 19
1.2.5.1. Задачи Data Mining................................................................. 20
1.2.5.2. Методы решения задач Data Mining .................................... 20
1.2.5.3. Модели Data Mining ............................................................... 21
1.2.6. Визуальный анализ данных................................................................ 22
1.3. Системы анализа данных .............................................................................. 23
1.3.1. On-Line Analytical Processing-системы ............................................. 24
1.3.1.1. Архитектура On-Line Analytical Processing-систем ............ 24
1.3.2. Информационно-аналитические системы ........................................ 27
1.3.3. Системы поддержки принятия решений .......................................... 29
1.2.5.4. Классификация систем поддержки принятия решений ..... 31
1.2.5.5. Подсистема
анализа
системы
поддержки
принятия
решений ................................................................................... 33
Глава 2. Подходы к управлению персоналом ............................................................ 35
2.1. Развитие персонала на предприятии ............................................................ 35
2.1.1. Цикл развития сотрудников на предприятии ................................... 36
2.1.2. Методы управления мотивацией персонала .................................... 37
2.1.3. Оценка текучести кадров ................................................................... 38
2.1.4. Определение экономического ущерба, вызванного текучестью
персонала ............................................................................................. 40
2
2.2. Ведение кадрового учёта на предприятии ................................................... 41
Глава 3. Описание процесса разработки системы поддержки принятия решений в
управлении персоналом................................................................................. 44
3.1. Метод решения задачи классификации ....................................................... 44
3.1.1. Байесовские алгоритмы классификации........................................... 45
3.1.2. Наивный байесовский классификатор .............................................. 47
3.2. Проектирование базы данных....................................................................... 48
3.3. Модель получения знаний ............................................................................ 50
3.4. Процесс разработки системы поддержки принятия решений ................... 50
3.4.1. Определение обучающей и тестирующей выборки ........................ 51
3.4.2. Обучение классификатора.................................................................. 51
3.4.3. Тестирование классификатора ........................................................... 53
3.4.4. Результат работы системы ................................................................. 54
Заключение
............................................................................................................... 57
Библиографический список ............................................................................................ 59
Приложение А ............................................................................................................... 63
3
Список терминов и сокращений
Расшифровка
Сокращение
БД
База данных
ИАС
Информационно аналитическая система
ЛПР
Лицо, принимающее решение
СППР
Система поддержки принятия решений
СУБД
Система управления базами данных
ХД
Хранилище данных
DM
Data Mining
KDD
Knowledge discovery in databases
OLAP
On-Line analytical processing
4
Введение
Современное общество характеризуется рыночными отношениями и высокой
степенью глобализации, что предполагает огромное количество организаций
различных размеров. Независимо от размеров организаций, у них есть схожие
проблемы, например, управление ресурсами. Одним из главных ресурсов
организации является человеческий капитал. Так как сегодня работник является не
просто исполнителем, а стратегическим ресурсом компании, инвестирование в
который, даст конкурентное преимущество.
Основные изменения в организации труда на современном предприятии
продиктованы необходимостью учитывать как внешние, так и внутренние аспекты
деятельности, не только приоритеты потребителей, но и потребности и достоинства
работников. Само предприятие уже не может с легкостью заменять одного
работника другим, т.к. именно индивидуальные способности составляющих его
личностей служат залогом выживания предприятия и успеха на рынке. Результат
этого – возрастающая зависимость компании от ее персонала. Неслучайно в
последние годы возникла новая сфера деловых услуг – «охота за головами»
связанная с переманиванием топ-менеджеров и высококлассных специалистов в
компанию заказчика. Но после того как сотрудник уже работает в компании, как
сделать так, чтобы его таким же образом не переманили обратно или он просто не
ушел?
Задача поиска высококвалифицированных сотрудников обычно выносятся на
аутсорсинг, а задачей эффективного управления сотрудниками обычно занимается
сама организация и управляется лишь изменениями заработной платы и лишь
тогда, когда сотрудник явно выказывает своё недовольство. Не каждый сотрудник
будет просить повышения заработной платы, улучшения рабочих условий,
повышения квалификации или смену прямого начальника, некоторые, так и не
дождавшись этого, просто уйдут.
Встаёт очевидный вопрос, как предотвратить такие ситуации или хотя-бы
предвидеть их? Естественно, необходимо собирать данные для анализа о
сотрудниках, их положении, уровнях заработной платы, неудовлетворённостях,
начальниках, показателях эффективности труда и т.д. Но после сбора таких данных,
5
как их необходимо анализировать? Существует множество методов анализа данных
позволяющих найти различные зависимости в сырых данных из якобы не
зависящих друг от друга показателей. Однако не существует универсальных
методов, позволяющих определить зависимости между множеством разнородных
показателей одновременно, именно поэтому, необходимо провести комплексный
анализ полученных данных и выявить зависимости между ними.
Но одних лишь методов анализа данных мало для крупных организаций, к
ним необходимо средство, которое будет поддерживать реализацию этих методов и
нахождение новых зависимостей. Такой программный продукт нуждается в
большом количестве входных данных и может быть построен на основе уже
существующей на предприятии, либо на отдельной, «собственной» базе данных.
После проведения анализа, необходимо каким-то образом интерпретировать
результаты. Обычно, это делается в виде таблиц, графиков или отчётов, которые
затем просматриваются аналитиками. Опираясь на свой опыт, интуицию и
результаты анализа аналитики принимают какие-либо решения, и полностью
автоматизировать этот процесс, передать функцию принятия решения какой-либо
системе, невозможно.
Противоречие между большим спросом на методы и системы анализа
причин текучести персонала с одной стороны, и недостаточной разработанностью
таковых с другой.
Проблема состоит в недостаточной разработанности методов анализа причин
текучки кадров и систем, эти методы реализующих.
Объект исследования: процесс управления персоналом.
Предмет исследования: повышение эффективности управления персоналом
за счёт разработки системы поддержки принятия решений.
Цель исследования: разработать систему поддержки принятия решений,
позволяющую установить взаимосвязи между внутрикорпоративными факторами
организации и желанием человеческих ресурсов покинуть организацию, для
определения негативных факторов, влияющих на уход персонала, а так же для
определения сотрудников, вероятность ухода которых высока.
6
Задачи исследования:
1. выполнить обзор существующих методов анализа данных;
2. исследовать существующие методы анализа, применяемые для
управления персоналом;
3. спроектировать и заполнить базу данных для хранения информации о
внутрикорпоративных изменениях компании и личных данных
сотрудников;
4. на основе изученных методов и имеющихся данных разработать
подход к анализу, позволяющий находить взаимосвязи между
внутрикорпоративными факторами и желанием сотрудников уйти из
компании;
5. формализовать полученные методы в виде алгоритмов;
6. спроектировать и реализовать систему поддержки принятия решений,
позволяющую использовать предложенные методы анализа данных
для управления персоналом.
7
Глава 1. Обзор существующих методов и систем анализа данных
В данной главе представлен понятийный аппарат, определяющий смысл
основных, используемых в работе определений, а так же анализ методов и систем
управления персоналом.
1.1.
Понятийный аппарат
Перед тем как приступить к непосредственному анализу существующих
методов анализа данных и систем управления персоналом, необходимо определить
основные понятия, используемые в работе, для исключения непонимания между
читателем и текстом работы.
Аббревиатура OLAP (On-Line Analytical Processing) дословно переводится
как оперативный анализ данных. В последнее время эту аббревиатуру используют
довольно часто в различных контекстах, поэтому существует огромное количество
определений данного понятия, в той или иной степени подходящего для конкретной
предметной области. Поэтому, необходимо выбрать одно из определений.
1) OLAP – категория ПО, позволяющая аналитикам, менеджерам и
руководителям
вникать
в
данные
посредством
быстрого,
постоянного,
интерактивного доступа к широкому разнообразию способов представления
информации, полученной из сырых данных, в разрезе измерений предприятия, в
понятном для пользователя виде [3].
2) OLAP – системы, организующие и представляющие данные в
различных формах для удовлетворения нужд различных пользователей [4].
3) OLAP – процесс использования баз данных с целью извлечения
информации в основном с помощью механизма агрегации [5].
В работе под аббревиатурой OLAP мы будем понимать первое определение,
т.к. оно более полно отражает суть процессов реализующихся в OLAP-системах.
Существует множество понятий Data Mining, которые отличаются не только
смыслом, но и методами, в него входящие. Но для начала необходимо выбрать
наиболее подходящее к данному контексту определение, а используемые в Data
Mining методы рассмотреть в основной части работы.
8
1) Data Mining – это процесс обнаружения в "сырых" данных ранее
неизвестных нетривиальных практически полезных и доступных
интерпретации знаний, необходимых для принятия решений в
различных сферах человеческой деятельности [1].
2) Data Mining – автоматический или удобный для пользователя процесс
извлечения шаблонов, имеющих информационную значимость, из баз
данных, хранилищ данных, веб ресурсов или в информационных
потоков [4].
3) Data Mining – анализ наборов данных с целью нахождения ранее
неизвестных взаимосвязей и изложения данных в новом виде, который
будет понятен и практически полезен для субъекта анализа [5].
4) Data Mining– исследование и обнаружение "машиной" (алгоритмами,
средствами искусственного интеллекта) в сырых данных скрытых
знаний, которые ранее небыли известны, нетривиальны, практически
полезны, доступны для интерпретации человеком [7].
В работе под Data Mining будем понимать последнее определение, данное
Григорием Пятецким-Шапиро в 1989 году, так как оно более точно объясняет
смысл процесса Data Mining.
Под понятием управление персонала, будет подразумеваться – область
знаний и практической деятельности, направленная на обеспечение организации
качественным персоналом, способным выполнять возложенные на него трудовые
функции и оптимальное его использование. Оптимальное использование персонала
с
точки
зрения
управления
персоналом
достигается
за
счёт
выявления
положительных и отрицательных мотивов индивидуумов и групп в организации и
соответствующего
стимулирования
положительных
мотивов
и
погашения
отрицательных мотивов, а также анализа таких воздействий [5].
1.2.
Анализ данных
В настоящее время разработано большое количество методов анализа
данных, применяемых в самых разрозненных контекстах. Для определения
необходимого метода анализа данных необходимо определиться с целью анализа,
т.к. одни и те же методы могут использоваться совсем в разных контекстах и давать
9
совершенно разные результаты. Также, некоторые методы позволяют извлекать
данные в виде визуализаций, отчётов, многомерного анализа, способствующие
дальнейшему анализу экспертом. Иной вариант – использование методов для
проведения предобработки данных и последующего применения математических
методов анализа данных. В таком варианте, пользователь (лицо принимающее
решение) получает не сырые, а подготовленные данные (модели), ценность
которых намного выше [1].
Первый случай, подразумевает, что ЛПР сам будет принимать все решения,
такие как выбор подходящей модели и подбор методов анализа данных т.е. он будет
полагаться либо на интуицию, либо на принятые в организации стандартные
методы. Такой метод анализа можно применять для решения оперативных задач, но
ни в коем случае для стратегических.
Часто при описании аналитических систем применяют термины типа
прогнозирование, риск-менеджмент, сегментация рынка и т.д. На самом деле,
решение этих задач реализовывается одними и теми же методами анализа.
Например, прогнозирование – это задача регрессии, сегментация рынка – это
кластеризация,
управление
рисками
–
это
комбинация
классификации
и
кластеризации. Данный набор методов позволяет решать практически все реальные
задачи. Иными словами, они являются атомарными элементами, из которых
строятся решения других задач [1].
1.2.1.
Многомерная структура данных
Процедура принятия решений включает в себя генерацию некоторых гипотез
и для преобразования их в законченные решения они должны быть подтверждены.
Исследование гипотез производится основываясь на данных об анализируемой
предметной области. Довольно часто, информация такого рода изображается в виде
зависимостей между параметрами, число которых может сильно колебаться.
Стандартные
инструменты
анализа,
опирающиеся
на
данные,
представленные в виде реляционных таблиц, не могут удовлетворить таким
требованиям. В 1993 г. Е. Кодд рассмотрел недостатки реляционной модели БД,
указав в первую очередь на невозможность “объединять, просматривать и
анализировать данные с точки зрения множественности измерений, т. е. самым
10
лучшим для аналитиков способом”.
Под понятием измерение понимают
последовательность значений одной из анализируемых характеристик [7].
Под множественностью измерений подразумевается представление данных в
виде многомерной модели. Различные совокупности данных могут быть
проанализированы вдоль наборов измерений, описывающих предметные области.
Измерение может представляться в виде иерархической структуры [7].
На пересечениях осей измерений располагаются данные, количественно
характеризующие анализируемые факты, – меры. Это могут быть затраченные
усилия персонала, выраженные в единицах времени или в денежном выражении,
заработная плата и т.д.
Таким образом, многомерную модель данных можно представить как
гиперкуб (см. рисунок 1.1). Ребрами такого гиперкуба являются измерения, а
ячейками – меры.
Рисунок 1.1. Представление многомерной модели данных
Над таким гиперкубом могут выполняться следующие операции:
1. Срез – создание подмножества многомерного массива данных, которое
будет соответствовать одному значению нескольких элементов
измерений, не состоящих в этом подмножестве (см. рисунок 1.2) [7].
11
Рисунок 1.2. Операция среза
2. Вращение
–
изменение
порядка
представления
измерений,
расположенных на странице либо в отчёте. Операция вращения может
заключаться, например, в перемещении измерений в строки либо в
столбцы. Также с помощью вращения можно придать таблице
желаемый вид, путём перестановки местами столбцов и строк
таблицы (см. рисунок 1.3) [7].
Рисунок 1.3. Операция вращения
3. Консолидация и детализация – две противоположные операции, первая
приводит
данные
к
агрегированному
виду,
вторая,
наоборот.
Направление детализации можно задать вдоль иерархии отдельных
измерений, отношений, установленных между и в рамках измерений
(см. рисунок 1.4) [7].
12
Рисунок 1.4. Операция консолидации и детализации
1.2.2.
Общий подход к анализу данных
Стандартная схема анализа и обработки данных изображена на рисунке 1.5, в
качестве первичного источника данных выступает ХД, на основе которой будет
создаваться аналитическая система. В ХД могут поступать самые разнородные
данные, её задача – объединить все данные в одном месте. Источниками данных
могут выступать как базы данных систем управления предприятия, офисные
документы, а также такие внешние источники как демографические данные,
макроэкономические показатели, конкурентная среда и т.п. В процессе добавления
новых данных в ХД их необходимо систематизировать [1].
13
Рисунок 1.5. Схема обработки и анализа данных
Вторым элементом в схеме обработки и анализа данных является
семантический слой. Вне зависимости от способа дальнейшего анализа,
необходимо чтобы поступающая на вход информация была понятна ЛПР. Довольно
часто данных находятся в разрозненных БД, а пользователь не должен разбираться
с устройством работы с СУБД. Таким образом, семантический слой должен быть
единым для
всех инструментов анализа и
должен
содержать
механизм
трансформирующий термины предметной области в вызовы механизмов доступа к
БД [1].
После того, как данные стали понятны для пользователя, с ними можно
начинать работать и получать ценную информацию с помощью систем отчётности.
Системы отчетности позволяют дать ответ на вопрос: что происходит в
организации.
Первый
вариант
их
использования:
регулярные
отчеты,
использующиеся для мониторинга оперативной ситуации и анализа отклонений.
14
Так,
например,
система
может
ежемесячно
подготавливать
отчёты
об
использованных ресурсах и остатках на складе, и когда значение остатков на складе
меньше средней месячной нормы использования ресурсов, необходимо подготовить
заказ на поставку, т.е. во многих случаях это стандартизированные бизнес
операции. Обычно, некоторые элементы такого подхода в каком-либо виде
используются в компаниях.
Иной
вариант
использования
систем
отчётности
–
обработка
нерегламентированных запросов. Когда аналитик пытается проверить какую-либо
гипотезу, он хочет получить пищу для размышлений, опровергающую либо
подтверждающую идею. Из-за того, что эти идеи носят спонтанный характер, и у
человека не успевает складываться точная картина того, какого рода информация
ему потребуется для дальнейшего анализа, необходим инструмент, позволяющий
быстро и в интуитивном виде получить эту информацию. Извлеченные данные
обычно отображаются в виде таблиц, либо в виде графиков и диаграмм [1].
1.2.3.
On-Line Analytical Processing
Для построения систем отчетности можно применять различные подходы, но
самый распространенный на сегодня – это механизм OLAP. Основной идеей
является представление информации в виде гиперкубов (многомерных кубов), где
оси представляют собой измерения, а в ячейках помещаются меры (показатели).
Пользователь манипулирует измерениями и получает, необходимую для решения
конкретных задач, информацию [2].
Благодаря лёгкости понимания OLAP получил обширное распространение в
качестве механизма анализа данных, но следует понимать, что его возможности в
разделе более глубокого анализа, например, классификации, очень ограничены.
Главной проблемой при решении, задач глубокого анализа является вовсе не
возможность извлечения необходимых данных в виде таблиц, графиков и диаграмм,
а построение адекватной модели. На вход существующей модели подается новая
информация, проходит через нее, а результат и есть классифицированные объекты.
Однако построение модели является крайне сложной задачей. Конечно, можно
задать в системе несколько готовых и не сложных моделей, например,
логистическую регрессию или аналогичную, зачастую именно так и происходит, но
15
это не решает поставленный вопрос, и реальные задачи практически всегда
выходят за рамки таких тривиальных моделей. Таким образом, подобная модель
будет обнаруживать лишь видимые зависимости, ценность обнаружения которых
второстепенна, т.е. то, что и так хорошо известно, или будет строить излишне
грубые сценарии, что тоже совершенно неинтересно [7].
Аналитику часто приходится рассматривать процессы, которые оказываются
слишком запутанными и не поддающимися точному анализу с помощью строгих
аналитических методов. Но можно все же получить представление о его поведении
в различных обстоятельствах, подходя к задаче с различных точек зрения,
руководствуясь знанием предметной области, опытом, интуицией и используя
различные эвристические подходы [20].
Верным
подходом
к
генерации
моделей
является
их
пошаговое
усовершенствование. Начав с пробной, полученной на основе исследований и
опыта эксперта, сравнительно грубой модели, необходимо по мере накапливания
новых данных и использования модели на практике улучшать ее. В конечном счёте
задача классификации выходит за границы механизмов систем отчетности, поэтому
не стоит ждать положительных результатов в этом направлении при применении
OLAP-технологии. Для решения задач более сложного анализа применяется совсем
иной набор технологий – KDD.
1.2.4.
Knowledge Discovery in Databases
KDD – это процесс преобразования данных в знания. KDD занимается
вопросами
подготовки
данных,
очистки
данных,
выбора
информативных
признаков, применения методов Data Mining (DM), постобработки данных,
интерпретирование извлечённых результатов (см. рисунок 1.6).
16
Источники данных
Подготовка данных
Исходные данные
Очистка
Очищенные данные
Трансформация
Трансформированные данные
Data Mining
Шаблоны
Интерпретация
Знания
Рисунок 1.6. Основные этапы KDD
Прелесть этого подхода состоит в том, что вне зависимости от предметной
области выполняются одни и те же операции:
1. Подготовка данных:
1.1. Вникание в предметную область. Инициирующий процесс, в рамках
которого необходимо выстроить чёткое понимание предметной области,
целей проведения этой работы, то, для каких нужд и кем будут
использоваться результаты. На основании этого, можно сделать множество
решений, по поводу трансформации данных, используемых алгоритмах и
способах выдачи результатов [21].
1.2. Подготовка исходных данных. Цель данного этапа – создать набор данных,
состоящий из различных источников, а также разделение этого набора на
обучающую и тестирующую выборки. Для использования бизнес понятий, а
не технических терминов, необходимо наличие семантического слоя и
поддержка работы с хранилищем данных.
17
2. Отчистка данных или предобработка данных. Необходимо проверить исходные
данные на наличие аномальных значений, пустых значений, шумов и при
необходимости исправить эти данные. Также на этом этапе могут применяться
различные алгоритмы понижения размерности данных.
3. Трансформация данных. Трансформация данных позволяет привести исходные
данные к корректному, для используемого метода DM виду. Это может быть
сделано путём квантования, приведения типов, приведения к "скользящему
окну" и т.д.
4. Data Mining:
4.1. Выбор типа используемых методов DM. На этом этапе выбирается тип
методов DM, которые в дальнейшем будут использоваться, например,
классификация, регрессия или кластеризация. В большей степени это
зависит от целей KDD, а так же от предыдущих этапов. DM используется
для двух основных целей: прогнозирование и описание. Большая часть
методов DM основывается на индуктивном обучении, т.е. модель строится
косвенно либо на прямую, путём обобщения множеств обучающих выборок.
Возможность применения полученной модели в будущих анализах является
основополагающим допущением индуктивной модели обучения.
4.2. Выбор алгоритма DM. На этом этапе происходит выбор конкретных методов
анализа для анализируемой модели. Например, в сравнении точности и
простоты интерпретации, первое легче достичь, используя нейронные сети,
в то время как последнее, используя деревья решений. Каждый алгоритм
имеет различные параметры и способы обучения. На основе этого
необходимо понять, какой алгоритм наиболее подходящий для решения
поставленной задачи [21].
4.3. Применение DM алгоритма. На этом этапе необходимо применить
выбранный алгоритм несколько раз, до получения удовлетворяющих
результатов,
например,
изменяя
параметры
алгоритмов,
таких
как
минимальное количество сущностей в одной ветке дерева решений.
4.4. Оценивание. На этом этапе необходимо оценить и интерпретировать
основные
параметры
полученной
18
модели
(правила,
надёжность),
относительно поставленных целей, определённых на первом шаге. Также
необходимо оценить предшествующие этапы на предмет их воздействия на
результаты DM алгоритма. На этом этапе основное внимание уделяется
доступности для понимания и полезности построенной модели, а так же
проводится её документация.
5. Постобработка данных.
На
данном этапе
производится
интерпретация
результатов и применение полученных знаний. Успешность применения
полученных результатов является определяющим фактором эффективности
всего процесса KDD [21].
Интерпретация результатов обработки данных возлагается на человека
(ЛПР). Результаты, полученные после такого анализа, в самом обычном варианте –
это таблицы, графики и диаграммы, а в усложнённом – правила и модели. Целиком
избежать участия человека невозможно. Любой результат не будет иметь никакой
стоимости, пока он не будет использован к определённой предметной области.
Решение любой из перечисленных задач, может состоять из разнообразных
методик, от статистических методов и до самообучающихся алгоритмов.
Практические задачи почти всегда разрешимы перечисленным списком методов
или
их
комбинацией,
т.е.
практически
любая
задача
решается
путём
приспосабливания этих методов. Таким образом, система, решающая приведённый
список задач, позволяет ЛПР решить большинство задач бизнес анализа.
1.2.5.
Data Mining
Основной задачей аналитика является генерация гипотез. Он решает ее,
основываясь на своих знаниях и опыте. Однако знания можно также извлекать из,
накопленных данных, подвергающихся анализу. Такие знания часто называют
“скрытыми”, т. к. они содержатся в гигабайтах и терабайтах информации, которые
человек не в состоянии исследовать самостоятельно. В связи с этим существует
высокая вероятность пропустить гипотезы, которые могут принести значительную
выгоду. Для обнаружения скрытых знаний необходимо применять специальные
методы автоматического анализа, объединённые термином Data Mining (добыча
данных) [25].
19
Data Mining – это процесс обнаружения в “сырых” данных ранее
неизвестных,
нетривиальных,
практически
полезных
и
доступных
для
интерпретации знаний, необходимых для принятия решений в различных сферах
человеческой деятельности [1].
1.2.5.1.
Задачи Data Mining
Методы DM помогают решить многие задачи, с которыми сталкивается
аналитик. Из них основными являются: классификация, регрессия, поиск
ассоциативных правил и кластеризация.
Задача классификации сводится к определению класса объекта по его
характеристикам. Требуется заметить, что в данной задаче множество классов, к
которым может быть отнесен объект, известно заранее.
Задача регрессии аналогично задаче классификации позволяет определить по
имеющимся характеристикам объекта значение его неизвестного параметра. В
отличие от задачи классификации значением характеристики есть не дискретное
множество классов, а множество действительных чисел.
Задача кластеризации заключается в нахождении независимых групп
(кластеров) и их параметров во всем множестве рассматриваемых данных. Решение
этой задачи помогает лучше понять данные. Кроме того, группировка однотипных
объектов позволяет уменьшить их число, таким образом, и облегчить анализ.
При поиске ассоциативных правил главной целью является нахождение
зависимостей (или ассоциаций) между объектами или событиями. Найденные
зависимости изображаются в виде правил и могут быть применены как для
лучшего понимания анализируемых данных, так и для предсказания появления
будущих событий [7].
1.2.5.2.
Методы решения задач Data Mining
По способам решения задачи делятся на Supervised Learning (обучение c
учителем) и Unsupervised Learning (обучение без учителя).
Supervised Learning подразумевает построение модели с участием человека.
Построение модели происходит в несколько этапов. На первом, строится модель
анализируемых данных, на основе какого-либо алгоритма DM. Затем, эта модель
20
проходит этап обучения, на котором проверяется качество её работы и в случае
необходимости проводится дополнительное обучение [7].
В случае Unsupervised Learning генерируются описательные модели,
например, взаимосвязи покупок клиентов в магазине. Несомненно, что если такая
зависимость существует, то обучаемая модель должна их обнаружить. Главной
идеей данного подхода является возможность решения различных задач без
предварительных знаний об анализируемых данных. К такому типу задач относятся
задачи кластеризации и поиска ассоциативных правил [7].
Модели Data Mining
1.2.5.3.
В Data Mining для отображения извлечённых знаний служат модели, виды
которых, находятся в прямой зависимости от методов их разработки. Наиболее
популярными являются: математические функции, правила, кластеры и деревья
решений. Выделяют два вида моделей: предсказательные и описательные [7].
Описательные модели рассматривают суть зависимостей в наборе данных,
всеобъемлющее влияние разнообразных факторов, т. е. генерация эмпирических
моделей всяческих систем. Существенный момент в описательных моделях –
доступность
для
понимания
пользователем.
Вероятно,
что
найденные
закономерности будут отличительной чертой именно конкретных рассматриваемых
данных и более нигде не встретятся. Однако даже такая информация может быть
полезна, и поэтому должна быть известна [7].
К описательным моделям относятся следующие виды:
1. регрессионные модели, изображающие функциональные взаимосвязи
между зависимыми и независимыми характеристиками и параметрами
в понятной ЛПР форме;
2. модели кластеров, описывающие кластеры, на которые можно
разделить объекты, на основе данных, которые используются в
анализе. Группируются объекты на основании данных, описывающих
содержание объектов;
3. ассоциативные
модели,
разъясняющие
зависимыми событиями;
21
закономерности
между
4. итоговые модели, описывающие ограничения на анализируемые
данные массива. Генерация итоговых моделей состоит в нахождении
каких-либо фактов, которые верны для всех или почти всех записей в
анализируемой выборке [7].
Построение предсказательных моделей происходит на основании набора
данных с известными результатами. Они могут использоваться для предсказания
результатов, основываясь на иных наборах данных. При этом, очевидно
необходимо,
чтобы
модель
функционировала
максимально
точно,
была
статистически значима и оправданна [7].
К
предсказательным
моделям
относятся
модели
классификации,
описывающие наборы правил, в соответствии с которыми можно произвести
описание иного объекта к одному из классов и модели последовательностей,
описывающие функции, позволяющие прогнозировать изменение непрерывных
числовых параметров [7].
1.2.6.
Визуальный анализ данных
Модели, получаемые при анализе данных с помощью методов DM, обычно
не удобны для восприятия пользователем. Во множестве классификационных или
ассоциативных правил, в математических формулах достаточно проблематично
легко и быстро найти ранее не известные и полезные знания. Вследствие
многообразности информации это не всегда возможно и в таких простейших
графических видах представления знаний как двумерные графики, деревья
решений, дейтограммы и т. п. В связи с этим возникает потребность в более
сложных инструментах интерпретации результатов анализа. К ним относятся
средства визуального анализа данных (Visual Mining) [7].
Главной идеей визуального анализа данных является описание данных в
некоторой визуальной форме, позволяющей ЛПР погрузиться в данные, работать с
их визуальным представлением, выявить их суть, сделать выводы и напрямую
взаимодействовать с данными.
До недавних пор визуальный анализ ограничивался лишь двумерными и
простыми трёхмерными графиками. Впрочем, при помощи новых технологий
пользователи способны оценивать на графических изображениях: большие объекты
22
или маленькие, далеко они располагаются или близко. ЛПР в реальном времени
может передвигаться вокруг объектов или кластеров объектов и оценивать их со
всех сторон. Такой подход позволяет использовать в анализе естественные
человеческие навыки обнаружения неопределенных образцов в визуальном
трехмерном представлении данных [7].
Визуальный анализ данных преимущественно полезен, когда информации о
самих данных достаточно мало и цели анализа до конца непонятны. Поэтому, под
визуальным анализом данных можно понимать процесс генерации гипотез. При
этом полученные гипотезы можно проверять методами DM, или, опять же,
средствами визуального анализа. Вместе с тем, прямое вовлечение ЛПР в процесс
визуального анализа имеет два основных преимущества перед автоматическими
методами:
1. визуальный анализ данных позволяет с легкостью работать с
гетерогенными и зашумленными данными, в то время как многие
автоматические методы требуют предобработки данных;
2. визуальный анализ данных интуитивно понятен и не требует
нетривиальных математических или статистических алгоритмов.
Результатом этих достоинств является более высокая скорость выполнения
анализа, нежели автоматическими средствами [7].
1.3.
Системы анализа данных
Решения бизнес-аналитики для предприятий уже давно перестали быть
простым управленческим инструментом, обеспечивающим доступ к данным. В
современных условиях они должны обладать гораздо большей функциональностью
– от мониторинга производительности и процессов до принятия решений на основе
полученных данных [17]. Создать инструмент, позволяющий удовлетворять всем
возможным требованиям предприятия невозможно, поэтому все системы разделены
на некоторые подклассы, различающиеся архитектурой, реализуемыми методами и
соответственно, решающими ими задачами.
23
On-Line Analytical Processing-системы
1.3.1.
С идеей многомерного анализа данных тесно пересекается оперативный
анализ, выполняемый инструментами OLAP-систем. Основная цель OLAP-систем –
возможность проведения произвольных запросов аналитиков для поддержания их
деятельности. Цель OLAP-анализа – проверка возникающих гипотез [7].
В 1993 году Э. Кодд опубликовал работу под названием “OLAP для
пользователей-аналитиков: каким он должен быть”, в которой изложены основные
концепции OLAP-систем. Также в этой работе расписаны 12 требований, которым
должны удовлетворять OLAP-системы [26]. Затем, в 1995 году, он дополнил,
прибавил к изначальным двенадцати требованиям ещё шесть, и определил все
требования
по
четырём
группам:
основные
особенности,
специальные
особенности, особенности представления отчётов, управление измерениями [4].
Существует и иная трактовка OLAP-систем, предложенная в 1995 г. Н.
Пендсом и Р. Критом на основе анализа правил Кодда – FASMI (Fast of Analysis
Shared Multidimensional Information). Данная концепция опирается на скорость
вычисления, многопользовательский доступ, релевантность информации, наличие
средств статистического анализа и многомерность, т. е. на представление
анализируемых фактов как функций от большого числа их характеризующих
параметров [7].
1.3.1.1.
Архитектура On-Line Analytical Processing-систем
OLAP-система состоит из двух основных компонент:
1. OLAP-сервер – система, предоставляющая возможность выполнять
над хранимыми данными необходимые операции и создавать
многомерные модели на концептуальном уровне. Обычно OLAPсерверы объединяют с ХД или ВД;
2. OLAP-клиент – система, позволяющая аналитику совершать все
возможные действия над многомерной моделью данных через
специальный интерфейс.
Реализация многомерной модели в ХД скрывается OLAP-серверами от
пользователя. Они формируют гиперкуб, над которым аналитики совершают
различные действия, с целью выполнения задач анализа. Несмотря на то, что
24
способ реализации многомерной модели скрывается, это является очень важной
информацией, от которой зависит как производительность, так и занимаемые
ресурсы [7].
Выделяют три основных способа реализации таких систем: MOLAP,
ROLAP, HOLAP, и четыре дополнительных WOLAP, DOLAP, MOLAP, SOLAP
[27].
MOLAP – многомерный (multivariate) OLAP. Для реализации многомерной
модели используют многомерные БД (см. рисунок 1.7). Данные хранятся в виде
многомерных упорядоченных массивов. Таким образом, куб можно представить в
виде плоской таблицы, строчками которой, будут являться все комбинации
значений всех характеристик с соответствующими им значениями мер [7].
Рисунок 1.7. Многомерная структура БД
К основным преимуществам использования MOLAP можно отнести
следующее:
1. поиск и выборка данных производится значительно быстрее, чем при
многомерном концептуальном взгляде на реляционную БД;
2. многомерные БД легко справляются операциями включения в
информационную модель разнообразных встроенных функций.
Однако,
также
имеются
и
значительные
недостатки
использования
многомерной схемы БД:
1. за счет денормализации и заранее выполненной агрегации объем
данных в многомерной БД, обычно, соответствует (по оценке Кодда) в
0,025 раз меньшему объему исходных детализированных данных [7];
25
2. в
большинстве
случаев
многомерный
куб
является
сильно
разреженным, а из-за того, что данные хранятся в упорядоченном
виде, неопределенные значения можно удалить только за счет выбора
оптимального порядка сортировки.
Многомерные БД чувствительны к изменениям в многомерной модели. Так,
при добавлении нового измерения, всю структуру БД необходимо изменить, а это
влечет за собой большие временные затраты [7].
ROLAP – реляционный (relational) OLAP. Для реализации многомерной
модели
используют
реляционные
БД
(см.
рисунок
1.8).
Наибольшее
распространение получили две схемы реализации многомерного представления
данных с помощью реляционных таблиц: звезда и снежинка.
Рисунок 1.8. Реляционная структура БД
Использование реляционных БД в OLAP-системах имеет следующие
достоинства:
1. во многих случаях корпоративные ХД реализованы с помощью
реляционных СУБД, и инструменты ROLAP позволяют проводить
анализ непосредственно над ними;
2. ROLAP-системы
являются
оптимальным
решением,
в
случае,
переменной размерности задачи, т.к. в таких задачах необходимо часто
вносить изменения в структуру, а такие модификации не потребуют
физического перестроения БД;
26
3. реляционные СУБД обеспечивают гораздо более высокий уровень
защиты данных и широкие возможности разграничения прав доступа.
Главный
недостаток
производительность.
ROLAP
по
ROLAP-системам
сравнению
необходимо
с
MOLAP – меньшая
провести
тщательную
проработку схемы БД и настройку индексов, для того, чтобы обеспечить
сравнимую производительность с MOLAP [7].
HOLAP – гибридный (hybrid) OLAP. Для реализации многомерной модели
используют и многомерные, и реляционные БД. В случаях, когда данные более
плотные, может использоваться MOLAP, а для более разреженных данных –
ROLAP. Серверы HOLAP применяют подход ROLAP для разреженных областей
многомерного пространства и подход MOLAP для плотных областей. Серверы
HOLAP разделяют
соответствующим
запрос
на
фрагментам
несколько
данных,
подзапросов,
комбинируют
направляют
результаты,
а
их
к
затем
предоставляют результат пользователю [7].
1.3.2.
Период
времени
Информационно-аналитические системы
быстрых,
в
значительной
мере
интуитивных,
импровизационных, а зачастую и силовых решений меняется на зону продуманных,
просчитанных выводов и решений – оперативных, стратегических.
Для выработки и принятия соответствующих необходимы информация и
знания, которые должны удовлетворять требованиям полноты, достоверности,
своевременности (актуальности) и полезности.
Основополагающую роль в подготовке принятия решений играет его
обоснование по имеющейся у ЛПР информации. Ее, как правило, получают из
различных внутренних и внешних источников.
Для
выработки
адекватного
решения
используются
внутренние
информационные ресурсы, которые складываются из отражения деятельности
объекта в документах, других видах и способах сбора, обработки, хранения
информации. Вдобавок внешние по отношению к объекту информационные
ресурсы, например, если это предприятие – корпорации, отрасли, региона, а также
глобальные – из средств массовой информации, специальной литературы,
всемирной информационной сети и т.д. [22].
27
Одной из первостепенных задач при подготовке и принятии решений
является анализ имеющейся в распоряжении ЛПР информации, который является
фундаментом
обоснования
решения.
Информация
характеризуется
многоплановостью, сложностью отображаемых объектов и систем, а также связей
между объектами, явлениями и процессами, скрытостью закономерностей. Эти
обстоятельства вынуждают использовать имеющиеся в настоящее время весьма
развитые программно-технические средства. Широкое и эффективное применение
этих средств стало одним из факторов выживаемости и успеха предприятия в
условиях острой конкурентной борьбы [22].
Проблема анализа исходной информации для принятия решений оказалась
настолько
серьезной,
что
появилось
отдельное
направление
или
вид
информационных систем – информационно-аналитические системы (ИАС), под
которыми
понимают
комплекс
аппаратных,
программных
средств,
информационных ресурсов, методик, которые используются для обеспечения
автоматизации аналитических работ в целях обоснования принятия управленческих
решений и других возможных применений [22].
Вся
проблема
аналитической
подготовки
принятия
решений
имеет
следующие аспекты:
1. извлечение
из
многих
источников
разнородных
данных,
представленных в различных форматах и приведение их к единому
формату и единой структуре;
2. организация хранения и предоставления пользователям необходимой
для принятия решений информации;
3. собственно
анализ,
в
том
числе
оперативный
(OLAP)
и
интеллектуальный (DM), и подготовка плановой или регулярной
оценки состояния управляемого объекта;
4. подготовка результатов оперативного и интеллектуального анализа для
эффективного их восприятия пользователями и принятия на основе
адекватных решений [22].
Аспекты, касающиеся сбора и хранения информации с сопутствующей
доработкой,
оформились
в
концепцию
28
информационных
хранилищ
–
Data Warehouse. Эта концепция состоит в том, что сведения о деятельности
предприятия
или
иного
объекта
хозяйственной
или
иной
деятельности
накапливаются в течение длительного периода времени в информационном
хранилище по определенным правилам [23].
Аспекты проблемы анализа и необходимые для их разрешения функции
нашли выражение в соответствующих программных продуктах. Соответственно
средства автоматизации анализа представлены в различных видах. Имеются
комплексные информационно-аналитические системы, выполняющие в той или
иной степени функции в соответствии с рассмотренными аспектами. Представлены
на рынке программных продуктов и целевые программные системы, выполняющие
в увеличенном объеме, расширенном составе и повышенной сложности какие-либо
функции, интеллектуального анализа. Такие инструменты выделяют в отдельный
класс информационно аналитических систем – системы поддержки принятия
решений (СППР). В то время как под ИАС в большей степени понимаются средства
подготовки результатов оперативного анализа для эффективного восприятия
пользователями,
однако
чёткого
разделения
между
двумя
классами
не
существует [23].
1.3.3.
Системы поддержки принятия решений
В настоящее время, само направление СППР разделилось на несколько
классов, которые обросли функционалом и теперь ведут самостоятельную жизнь. К
таким направлениям можно отнести ERP (Enterprise Resource Planning) – системы,
BI (Business Intelligence) – системы [10].
Для выполнения анализа СППР должна накапливать информацию, обладая
средствами ввода и хранения. Таким образом, этот класс программных средств
решает три основные задачи анализа данных с целью поиска решений в
определённой предметной области:
1. ввод данных;
2. хранение данных;
3. анализ данных.
Основная задача СППР – предоставить ЛПР инструмент для выполнения
анализа данных. Необходимо отметить, что для эффективного использования СППР
29
ее пользователь-аналитик должен обладать соответствующей квалификацией.
Система не генерирует правильные решения, а только предоставляет аналитику
данные в соответствующем виде (таблицы, отчеты, графики и т. п.) для изучения и
анализа [7]. СППР должна помогать лицу, принимающему решения, отвечать на
вопросы типа «Что будет, если...?». Слово «поддержка» говорит о том, что системы
только помогают руководству принимать решения, разобраться в ситуации, но не
заменяют их [9].
Подходы
к
построению
СППР,
будь
то
методологические
или
технологические, основаны на реализации итеративного, многоэтапного процесса
принятия решения, включающего этапы: анализа тенденций и визуализации,
обнаруженных в данных зависимостей, с помощью средств интеллектуального
анализа данных и OLAP технологий, выявления структурных особенностей в
получаемых в ходе мониторинга данных. Центральным элементом, интегрирующей
основой всей процедуры принятия решений в таких системах может выступать
обобщенная имитационная модель объекта исследования, реализуемая в СППР на
основе
комплекса
взаимосвязанных
имитационных
и
оптимизационных
моделей [10]. На основе сценарного подхода реализуется процедура выбора и
характеризуется непосредственным участием эксперта в модельном исследовании и
применении
экспериментального
подхода
компьютерного
моделирования
в
сочетании с различными аналитическими методами. К их числу можно отнести:
статистические методы, итерационные, логистические, балансовые, имитационнооптимизационные вычислительные процедуры [11].
Экспоненциальный
рост
объёмов
данных,
подвергаемых
анализу
в
настоящее время, повышение требований к скорости выполнения анализа, а также
сложность описания машинной формы представления данных подстёгивает
исследования и разработку интеллектуальных СППР. Такие СППР отличаются
наличием функций, реализующих отдельные умственные задачи ЛПР.
30
1.2.5.4.
Классификация систем поддержки принятия решений
По способу взаимодействия с пользователем выделяют следующие типы
СППР:
1. пассивные системы не позволяют выдвинуть конкретное предложение,
хотя реализуют средства, в различной степени поддерживающие
пользователя при поиске наиболее эффективного решения;
2. активные системы непосредственно участвуют в поиске и подготовке
наиболее оптимального решения;
3. кооперативные системы предоставляют пользователю возможность
доработать найденные ими решение, а затем проверить внесённые
пользователем коррективы [24].
По способу поддержки различают:
1. модельно-ориентированные СППР, выполняют поиск оптимальных
решений
основываясь
на
специально
разработанные
модели
(статистические, финансовые и т.п.);
2. СППР,
ориентированные
на
данные,
организуют
поддержку
пользователя при поиске эффективных решений, агрегируя большие
объёмы данных из гетерогенных источников;
3. СППР, ориентированные на знания, выполняют поиск оптимальных
решений основываясь на специально разработанной базе знаний [24].
Чаще всего встречаются СППР смешанного типа.
По сфере использования выделяют:
1. настольные СППР – небольшие системы, ориентированные на
использование одним пользователем, работающим на персональном
компьютере;
2. общесистемные СППР, используют в своей работе большие
хранилища данных и ориентированы на использование многими
пользователями [24].
31
По степени «интеллектуальности» обработки данных при анализе выделяют
три класса задач анализа:
1. информационно-поисковый – выполняет предопределённые в системе
запросы. Аналитик не имеет возможности создавать пользовательские
запросы;
2. оперативно-аналитический – позволяет проводить обобщение данных,
а
так
же
группирование
Отличительной
является
чертой
невозможность
от
в
необходимом
аналитику
информационно-поискового
предсказания
необходимых
виде.
анализа
аналитику
запросов, т.е. необходим механизм выполнения пользовательских
запросов;
3. интеллектуальный – с определённой вероятностью прогнозирует
развитие некоторых процессов, на основе найденных логических и
функциональных закономерностей [7].
Таким образом, обобщённая архитектура СППР может быть представлена
следующим образом (см. рисунок 1.9).
Рисунок 1.9. Обобщённая архитектура СППР
Подсистемы ввода и хранения информации в различных системах не имеют
больших различий, а вот подсистема анализа является главной частью СППР,
определяющей её эффективность и уникальность, поэтому эту подсистему
необходимо изучить более подробно.
32
Подсистема анализа системы поддержки принятия решений
1.2.5.5.
Различные методы Data Mining могут использоваться на различных фазах
процесса принятия решений, включая распознавание моделируемых систем на
этапе построения модели, создание альтернатив и других, вплоть до выбора
приоритетной стратегии.
Итерационная процедура принятия решения в СППР основывается на
взаимодействии эксперта и компьютерных аналитических систем различного
назначения. Процедура принятия решения состоит из повторяющихся фаз анализа,
постановки задачи и выбора на множестве альтернатив.
После того, как желаемые цели определены, менеджеры и системные
аналитики, стоящие на следующем уровне ИС предприятия – СППР, используя
широкий арсенал компьютерных методов и основываясь на своём личном опыте. В
их задачу входит отработка основных этапов процедуры принятия решений,
связанных с:
1. генерацией возможных решений (альтернатив, сценариев);
2. осуществлением динамического компьютерного анализа возможных
последствий принимаемых решений;
3. оценкой и выбором лучшего варианта развития [11].
На этапе формирования базовой имитационной модели в зависимости от
задач, находят широкое применение технологии Data Mining: статистические
методы, включая регрессионный и кластерный анализ, методы оценки рисков,
интеллектуальные
технологии:
нейронные
сети,
генетические
алгоритмы,
экспертные системы, а также методы экспертного оценивания [10].
Полученные знания являются входной информацией для формируемой
имитационной модели и позволяют провести корректную параметризацию
динамической имитационной модели, основанную на реальных данных и знаниях.
Эти данные могут храниться в базе данных и базе знаний СППР, что упрощает
последующие процедуры идентификации имитационной модели [11].
Полученная обобщенная имитационная модель предприятия является
инструментом
экспериментального
оценивания
множества
стратегических альтернатив, сформированных экспертами.
33
сценариев,
Выбор альтернатив по результатам экспериментального имитационного
исследования может быть осуществлен с помощью итерационных имитационнооптимизационных процедур, генетических алгоритмов, экспертных и нечетких
систем, традиционных методов оптимизации, проводя оценку возможных решений
в соответствии с предпочтениями ЛПР и осуществляя согласование групповых
решений в СППР [12].
34
Глава 2. Подходы к управлению персоналом
В условиях развития рыночной экономики, особую значимость для
организаций приобретают человеческие ресурсы. В связи с этим появляются новые
требования к управлению использованием человеческими ресурсами. Современные
компании ставят перед собой цель не просто выживать в условиях жесткой
конкуренции, но и поддерживать устойчивость и развитие бизнеса.
Ключевой элемент устойчивости, как и развития любого предприятия – это
устойчивость его трудовых ресурсов. Только творческие и инициативные
сотрудники, имеющие высокую квалификацию, профессионализм, способность к
инновациям, компетентность, могут решить современные задачи конкурентного
развития экономики стран. В настоящее время практически всеми специалистами
по человеческим ресурсам признается важность поиска эффективных форм и
методов использования человеческих ресурсов для обеспечения устойчивого
экономического
роста.
Производственная
информация,
которой
владеют
человеческие ресурсы, является в настоящее время ценнейшим фактором развития.
Найти и успешно применить эту производственную информацию способны только
работники, имеющие высокую трудовую мотивацию. А для этого их необходимо
мотивировать в нужном направлении [13].
2.1.
Развитие персонала на предприятии
Как уже описывалось ранее, под управлением человеческими ресурсами на
предприятии, будут пониматься способы поддержания и сохранения мотивации
персонала на предприятии. Одна из главных проблем заключается в том, что
управленцам сложно определить психологическое и эмоциональное состояние
каждого сотрудника, находящегося под их руководством. Вследствие этого,
появляются работники с недостающей или с избыточной мотиваций. Но не стоит
забывать, что это также зависит персонально от каждого сотрудника, а так же от
стадии его развития на предприятии [14].
35
2.1.1.
Цикл развития сотрудников на предприятии
Процесс профессионального развития сотрудников во многом зависит от
целей и технологий, принятых на предприятии и может проходить по разным
схемам:
1. организация может быть заинтересована в специализации своих
сотрудников, требуя от них углубления своих знаний и навыков в
конкретных направлениях деятельности;
2. организация
может
быть
заинтересована
в
развитии
профессионализма персонала, повышении его способности работать в
разных областях, умении менять сферу деятельности, работать на
стыке нескольких новых направлений, т.е. развитии универсализма
сотрудников [15].
В теории также существует модель, в которой организации стараются
снизить профессионализм сотрудников [15], но исходя из здравого смысла, такой
вариант развития рассматриваться не будет.
Опираясь на модель ситуационного лидерства [16], развитие персонала
можно описать шкалой, состоящей из двух измерений, образующие четыре этапа
развития персонала:
1. Низкий навык и высокая мотивация. На данном этапе обычно
находятся молодые или переведённые в другую профессиональную
сферу специалисты. На данном этапе сотрудник только начинает
работать на новом месте, ему всё интересно и он пытается
зарекомендовать себя, но для этого недостаточно профессиональных
навыков [19].
2. Низкий навык и низкая мотивация. Этот этап характеризуется потерей
мотивации вследствие неудавшихся в краткосрочной перспективе
амбиций, это затрагивает большую часть работников [19].
3. Навык растёт, а мотивация колеблется между низкой и высокой.
Прошедшая через второй этап часть сотрудников, переходит на стадию
стабильного профессионального роста. Этот этап характеризуется
36
большой длительностью и поэтому в разные периоды времени
мотивация сотрудников может варьироваться [19].
4. Высокий навык и высокая мотивация. На этом этапе сотрудник по
праву может называться компетентным специалистом, он уже
способен выполнять порученные задачи автономно, постепенно
расширяя сферы своей ответственности и помогая начинающим
сотрудникам [19].
Так как это цикл развития сотрудника, то после завершения четвёртого этапа,
большинство сотрудников идёт на повышение и начинают цикл заново с первого
этапа, но на новой должности.
2.1.2.
Методы управления мотивацией персонала
В рамках данной работы, не будет делаться упор на различные методы
управления персонала, в зависимости от организационных культур: органическая
организационная
культура,
предпринимательская
организационная
культура,
партиципативная организационная культура [16], а акцент будет сделан лишь на
общие методы, применяемые в организациях в не зависимости от установленной
организационной культуры.
Так или иначе, все методы делятся по двум зонам стимулирования:
моральное и материальное стимулирование. В случае, когда речь идет о
материальном вознаграждении сотрудника (агента), таким эквивалентом выступают
деньги. Казалось бы, рассчитать размер материального поощрения за работу не так
уж и сложно, однако не всегда можно адекватно выразить в денежных единицах,
особенно если речь идёт о редкой специальности, рыночная стоимость которой ещё
не
определена.
С
экономической
точки
зрения
затраты
агента
можно
интерпретировать как денежный эквивалент тех усилий, которые агент должен
произвести для достижения того или иного действия. В рамках такой
интерпретации вполне естественной выглядит идея компенсации затрат –
вознаграждение со стороны организации должно как минимум компенсировать
затраты агента [19]. Естественно, что таким образом невозможно удержать лучших
сотрудников, либо их мотивация сильно упадёт, либо такого сотрудника переманят
в другую организацию с лучшим материальным обеспечением.
37
Моральное
стимулирование
возможно
проводить
социально-
психологическими методами. Социологические методы позволяют установить
назначение и место сотрудников в коллективе, выявить лидеров и обеспечить их
поддержку, связать мотивацию людей с конечными результатами производства,
обеспечить
эффективные
коммуникации
и
разрешение
конфликтов
в
коллективе [19].
Психологические методы играют важную роль в работе с персоналом, так
как направлены на конкретную личность рабочего или служащего и, как правило,
строго персонифицированы и индивидуальны. Главной их особенностью является
обращение к внутреннему миру человека, его личности, интеллекту, образам и
поведению, с тем, чтобы направить внутренний потенциал человека на решение
конкретных задач организации. К наиболее важным результатам психологического
планирования следует отнести:
1. формирование
подразделений
(рабочих
групп)
на
основе
психологического соответствия сотрудников;
2. комфортный психологический климат в коллективе;
3. формирование личной мотивации людей исходя из философии
организации;
4. минимизацию психологических конфликтов;
5. разработку
служебной
карьеры
на
основе
психологической
ориентации работников;
6. рост интеллектуальных способностей членов коллектива и уровня их
образования;
7. формирование корпоративной культуры на основе норм поведения и
образов идеальных сотрудников [19].
2.1.3.
Оценка текучести кадров
Анализ данных о работниках, покидающих предприятие, даёт информацию,
исходя из которой, можно предположить, направление дальнейших исследований
для установления причин и определения средств преодоления текучести кадров.
При сборе и анализе показателей текучести кадров важно получать информацию по
различным категориям сотрудников, особенно по тем, которых трудно найти и
38
удержать, например высококвалифицированные рабочие и работники умственного
труда [13]. Анализ потерь человеческих ресурсов требует подробной информации о
стаже работы увольняющихся сотрудников для того, чтобы выявить проблемные
зоны и выработать варианты их преодоления.
Существует ряд способов измерения текучести кадров: индекс текучести
кадров, коэффициент выживаемости, индекс стабильности,
Индекс текучести кадров. Индекс текучести кадров определяет величину
потерь компании и рассчитывается по формуле (1). Из-за своей простоты, данный
показатель имеет ряд недостатков, основным из которых является то, что он
охватывает всё предприятие в целом, не рассматривая отдельные группы
работников, в которых этот показатель может сильно варьироваться [13].
𝐸𝑇𝐼 (𝑝) =
𝐷𝐸 (𝑝)
,
𝐴𝐸 (𝑝)
(1)
где p – рассматриваемый период времени, DE(p) (Dismissed Employees) –
количество уволившихся за определённый период, AE(p) – среднее количество
работающих сотрудников за определённый период.
Коэффициент выживаемости показывает долю работников, оставшихся на
предприятии
после
определенного
периода
времени.
Рассчитывается
по
формуле (2). Такой показатель может сказать, сколько сотрудников нужно нанять
сегодня, чтобы через определённое время получилось определённое количество
квалифицированных сотрудников [13].
𝑆𝑅 = 𝐸 (𝑝2 ) − 𝐸(𝑝1 ),
(2)
где p1 – дата начала периода, p2 – дата конца периода, E(p) – количество
работающих сотрудников на дату p.
Индекс стабильности показывает, сколько работников с большим стажем
работы стремится остаться в компании, и, следовательно, показывает степень
непрерывности трудового найма компании. Рассчитывается по формуле (3) [13].
𝑆𝐼 =
𝑊𝐸
𝐸𝑐
,
(3)
где WE (Working Employees) – количество сотрудников со стажем более года,
EP(Employed count) – количество работников, устроившихся год назад.
39
2.1.4.
Определение экономического ущерба, вызванного текучестью
персонала
Оценивать величину экономического ущерба от текучести кадров, можно по
множеству показателей, а, в общем, довольно простом виде, её можно вычислить
как площадь фигуры ABCD, указанной на рисунке 2.1. На графике изображен
процесс смены персонала, где линия синего цвета, отображает производительность
труда сотрудника, который увольняется в точке А, а красным, новый сотрудник,
начавший работу в точке С, и достигший производительности предыдущего
сотрудника в точке D. Таким образом, в период времени между B и C, рабочее
место будет простаивать, и предприятие будет нести как производственные расходы
(амортизация рабочего места) так и расходы в виде недополученной прибыли. В
период времени между C и D, предприятие несёт потери связанные с поиском и
наймом нового сотрудника, а затем и на его обучение.
Рисунок 2.1. Схематичное изображение потерь, вызванных уходом сотрудника
Данную модель, можно легко дополнить, добавив некоторые параметры,
позволяющие произвести более точный расчёт. Для определения величины
экономического
ущерба
от
текучести
кадров
рекомендуется
использовать
следующие показатели:
1. Потери,
вызванные
произведение
перерывом
среднедневной
в
работе.
выработки
на
Определяются
как
продолжительность
перерыва в работе (4) [8].
𝐼𝑇𝐸(𝑤) = 𝐴𝐷𝑃(𝑤) ∗ 𝐼𝑇,
40
(4)
где w – увольняющийся рабочий, ADP(w) (Average Daily Production) –
среднедневная
выработка
рабочего,
IT (Idle
Time)
–
продолжительность простоя рабочего места.
2. Потери,
вызванные
снижением
производительности
труда
у
сотрудников перед увольнением. Определяется как произведение
среднего уровня потери производительности рабочего на количество
дней перед увольнением (5) [8].
(5)
𝐿𝑃𝐸(𝑤) = 𝐴𝐿𝑃(𝑤) ∗ 𝐷𝑏𝐷,
где w – увольняющийся рабочий, ALP(w) (Average Lost Productivity) –
средний уровень потери производительности сотрудника w, DbD (Days
before Dismissing) – количество дней перед увольнением.
3. Потери, связанные с недостаточным уровнем производительности у
нового сотрудника. Определяется как сумма разностей среднедневной
выработки ушедшего сотрудника перед уходом и среднедневной
выработки принятого сотрудника (6) [8].
(6)
𝐼𝑃𝐸 = 𝐴𝐷𝑃 (𝑤1 ) − 𝐴𝐷𝑃(𝑤2 ),
где w1 – увольняющийся рабочий, w2 – принятый сотрудник, ADP(w)
(Average
Lost
Productivity)
–
средний
уровень
потери
производительности сотрудника w.
4. Затраты, необходимые для поиска и отбора сотрудника.
5. Затраты, необходимые для обучения нового сотрудника.
2.2.
Ведение кадрового учёта на предприятии
Кадровым учётом на предприятии обычно занимается отдельный сотрудник,
либо целый отдел. Он ведётся согласно установленным стандартам, ГОСТам и
потребностям предприятия. Правильное ведение учёта персонала позволяет быстро
формировать необходимую для госучреждений отчётность, а так же нестандартную
отчётность для управляющих.
41
Самое распространённое программное средство ведения кадрового учёта на
предприятиях России – «1С: Зарплата и Управление Персоналом», которое
обеспечивает:
1. ведение структуры предприятия в виде иерархического списка
подразделений, создание, перемещение, переименование, удаление
структурного подразделения [28];
2. ведение штатного расписания и штатной расстановки работников,
определение для каждой позиции размера оплаты, плановой и
нормативной численности персонала, вида и размера надбавок,
индексацию оплаты [28];
3. ведение оперативного и полного учета кадровой информации в объеме
унифицированной
формы
Т-2
[29]
с
возможностью
ввода
дополнительной информации по работнику в необходимом формате
данных [28];
4. мониторинг за адаптацией, обучением и развитием персонала, расчёт
кадрового резерва и KPI сотрудников и т.д. [28].
Таким образом, довольно большой объём информации для анализа
причинно-следственных взаимосвязей текучести персонала можно получить из
стандартных средств ведения учёта на предприятии. Однако для более глубокого
анализа, необходимы дополнительные статистические данные, которые можно
получить в ходе собеседований при приёме на должность, при увольнении с
должности и в ходе рабочего процесса на предприятии.
В ходе собеседования при приёме на должность, следует сконцентрировать
внимание на ожиданиях нового сотрудника относительно данной должности, его
жизненную позицию, цели, которые он пытается достичь на этой должности. На
основе этих данных, специалист по работе с кадрами может определить ему более
подходящий
отдел,
начальника
и
специфику
работы,
для
повышения
эффективности и лояльности сотрудника [13].
Во время рабочего процесса, собирать данные о работниках необходимо
регулярно,
в
виде
удовлетворённость
интервью
заработной
либо
опроса,
платой,
42
по
основным
удовлетворённость
категориям:
возможными
перспективами в компании, удовлетворённость условиями работы, отношения с
руководителем и коллегами. Естественно, что анализ таких данных даст результат
только в случае полной достоверности информации, которую очень сложно достичь
на такие неформальные вопросы. Многие сотрудники будут скрывать свои
проблемы, поэтому необходимо подходить к этому делу очень деликатно [19].
Причины
ухода
персонала
можно
собирать
на
собеседованиях
с
увольняющимися сотрудникам. Анализ этих причин даст полезную информацию,
которая
может
поспособствовать
составлению
программ
по
удержанию
сотрудников. Анкетирование (интервьюирование) сотрудника при увольнении
обычно более информативно, нежели с работающим сотрудником, т.к. теперь он
может рассказать всё, что его действительно беспокоило. Необходимо тщательно
проанализировать причины и принять во внимание тенденции [13].
43
Глава 3. Описание процесса разработки системы поддержки принятия
решений в управлении персоналом
Перед началом работы над самой системой, необходимо определиться с
используемым методом и алгоритмом, разработать схему базы данных, которая
накапливать данные для последующего анализа. Затем определить модель
получения знаний из накопленных данных с известной структурой.
Результатом работы системы поддержки принятия решений, будет расчёт
вероятности ухода каждого из работающих сотрудников, то, какие факторы в
большей степени влияют на это желание, а так же возможные потери, которые при
этом
понесёт
организация.
Первый
результат
можно
легко
получить
с
использованием методов классификации, второй – в процессе классификации, а
третий является составной частью, расчёт которой, не зависит от выбранного
метода. Вследствие этого, поставленная задача будет решаться одним из методов
классификации.
3.1.
Метод решения задачи классификации
Для определения метода решения задачи классификации необходимо
определиться с входными данными и типами классов, на которые будут разделяться
входные данные.
Для анализа будут использованы числовые и строковые типы входных
данных, с помощью которых, будут описаны характеристики объектов. Необходимо
заметить, что возможны случаи противоречащих примеров, т.е. один сотрудник, с
определёнными характеристиками ушел из компании, в то время как другой, с
точно такими же, продолжает работать.
В качестве выходных данных будут использованы нечёткие классы, т.е. будет
определяться степень принадлежности объекта к каждому классу. В рамках работы,
это вероятность, с которой конкретный сотрудник может покинуть организацию.
Методы, решающие задачу классификации:
1. байесовский классификатор;
2. нейронные сети;
3. деревья решений.
44
Построение Байесовского классификатора, как и деревьев решений, требует
независимости всех переменных, т.е. чтобы по одной переменной было невозможно
вычислить другую. Теорема Байеса позволяет переставить местами причину и
следствие. Зная с какой вероятностью причина приводит к некоему событию, эта
теорема позволяет рассчитать вероятность того что именно эта причина привела к
наблюдаемому событию [30]. Цель классификации состоит в том, чтобы понять к
какому классу принадлежит объект, поэтому здесь нужна не сама вероятность, а
наиболее вероятный класс. Байесовский классификатор использует оценку
апостериорного максимума для определения наиболее вероятного класса. Это
именно то, что и требуется найти в данной работе.
Использование нейронных сетей, затрудняется тем, что, одно из правил
входных данных для нейронных сетей не выполняется – в обучающей выборке не
должно быть противоречащих примеров [7]. Кроме того, в качестве выхода,
потребуются
вероятностно
разделимые
классы,
которые
строятся
только
многослойными сетями, вычислительная сложность которых очень высока.
Большинство алгоритмов построения деревьев решений являются «жадными
алгоритмами». Это значит, что если один раз переменная была выбрана, и по ней
было произведено разбиение на подмножества, то алгоритм не может вернуться
назад и выбрать другую переменную, которая дала бы лучшее разбиение. Очень
часто алгоритмы построения деревьев дают сложные деревья, в которых очень
много ветвей. В таких деревьях трудно разобраться, к тому же, такие деревья
разбивают обучающее множество на огромное количество подклассов, с маленьким
количеством объектов входящих в них [7].
Таким образом, для решения поставленной задачи, больше всего подходит
метод Байесовского классификатора.
3.1.1.
Байесовские алгоритмы классификации
Байесовский подход основан на теореме, утверждающей, что если плотности
распределения каждого из классов известны, то искомый алгоритм можно выписать
в явном аналитическом виде. Более того, этот алгоритм оптимален, то есть обладает
минимальной вероятностью ошибок [31].
45
В реальных задачах, обычно, плотности распределения классов не известны,
поэтому байесовский алгоритм теряет свою оптимальность, т.к. невозможно
получить плотность по выборке, без каких-либо значимых погрешностей.
Постановка задачи классификации звучит следующим образом: Имеется
множество объектов X и конечное множество имён классов Y. Множество
прецедентов X × Y является вероятностным пространством с известной плотностью
распределения p(x,y) = P(y)p(x|y). Вероятности появления объектов каждого из
классов Py = P(y) известны и называются априорными вероятностями классов.
Плотности распределения классов py(x) = p(x|y) также известны и называются
функциями
правдоподобия
классов.
Требуется
построить
алгоритм
a(x),
минимизирующий вероятность ошибочной классификации [31].
Согласно определению условной вероятности p(x,y) = py(x)Py = P(y|x)p(x).
Условная вероятность P(y|x) называется апостериорной вероятностью класса y для
объекта x. Она может быть вычислена по формуле Байеса, если известны py(x) и Py:
𝑃(𝑦|𝑥 ) =
𝑝𝑦 (𝑥)𝑃𝑦
𝑝(𝑥, 𝑦)
=
∑𝑠∈𝑌 𝑃𝑠 (𝑥)𝑃𝑠
𝑝(𝑥)
(7)
В данной работе, важно не просто отнести объект к определённому классу,
но и определить вероятность P(y|x) принадлежности к каждому из классов y ∈ Y.
К числу байесовских алгоритмов классификации относят:
1. квадратичный дискриминант;
2. линейный дискриминант Фишера;
3. EM-алгоритм;
4. наивный байесовский классификатор.
Квадратичный дискриминант, как и линейный дискриминант Фишера
относятся к отдельному классу байесовских алгоритмов классификации –
нормальный дискриминантный анализ. Это специальный случай байесовской
классификации, когда предполагается, что плотности всех классов py(x), y ∈ Y
являются многомерными нормальными [32]. Эти методы позволяют относить
объекты к тому либо иному классу, путём разделения пространства объектов
многомерными плоскостями, но такой способ не даст оценку апостериорной
вероятности.
46
EM (expectation-maximization)
–
алгоритм
подразумевает
уменьшение
размерности анализируемых показателей, путём отсечения тех, что в наименьшей
мере влияют на результаты классификации. Этот алгоритм обычно используется на
больших
объёмах
данных,
для
упрощения
классификации
и
упрощения
интерпретации результатов. Поэтому применение этого алгоритма не подходит для
данной работы, где производится анализ 11 показателей [33].
Наивный байесовский классификатор – основывается на предположении, что
все параметры объектов независимы. Данное упрощение существенно облегчают
задачу, так как оценить n одномерных плотностей гораздо проще, чем одну nмерную плотность. Довольно простой алгоритм классификации, не зависящий от
плотности распределения, хорошо подходит под требования в данной работе.
3.1.2.
Наивный байесовский классификатор
Признаки f1(x),…, fn(x) являются независимыми случайными величинами.
Следовательно, функция правдоподобия классов представима в виде:
𝑝𝑦 (𝑥) = 𝑝𝑦1 (𝜉1 ) … 𝑝𝑦𝑛 (𝜉𝑛 ),
y∈Y
(8)
где pyj(ξj) – плотность распределения значений j-го признака для класса y.
Оценка вероятности принадлежности объекта x к классу y по j-ому признаку
может определяться несколькими путями, в данной работе будет использован
multinominal bayes model (7).
Может оказаться так, что на этапе классификации встретился объект со
значением какого-либо параметра, которое не встречалось на этапе обучения, тогда
числитель (7) будет равен нулю. Если классификация проводится по одному
признаку, то такой объект невозможно будет классифицировать, т.к. P(y|x) будет
равна нулю.
При анализе большого анализа данных, возможна проблема арифметического
переполнения, которая решается свойством логарифма произведения. Так как
логарифм функция монотонная, ее применение к обоим частям выражения изменит
только его численное значение, но не параметры при которых достигается
максимум. При этом, логарифм от числа близкого к нулю будет числом
отрицательным, но в абсолютном значении существенно большим чем исходное
число, что делает логарифмические значения вероятностей более удобными для
47
анализа [30]. Используя формулу (7) с логарифмами, результатом будет не
вероятность, а её оценка, и для перехода к вероятности, необходимо избавиться от
логарифмов путём обратного перехода по формуле 𝑎log𝑎 𝑥 = 𝑥.
3.2.
Проектирование базы данных
При построении схемы учитывались возможности стандартных средств
ведения кадрового учёта на предприятии (1С: ЗУП), а так же данные, которые
можно получить в ходе текущего и последнего анкетирования сотрудников в
компании, а также требование к независимости переменных (см. рисунок 3.1).
Рисунок 3.1. Схема базы данных разрабатываемой системы
Схема базы данных является гибридной, т.к. совмещает в себе многомерные
таблицы (таблицы фактов) «Questionaries» и «Hirings», а так же словари,
характерные реляционной схеме БД.
Таблица «Employees», хранит персональные данные сотрудников, которые
могут быть использованы для анализа, к ним относятся:
1. ФИО;
2. дата рождения;
48
3. пол;
4. семейное положение;
5. уровень образования;
6. оконченное учебное заведение;
7. полученная специальность;
8. дата выпуска из учебного заведения.
Таблица «Hirings», хранит данные о занимаемых сотрудниками должностях и
отделах в различных компании, дате приёма и увольнения на должность,
получаемой заработной плате. Анализ занимаемых должностей в предыдущих
компаниях позволит проследить весь процесс развития сотрудника на предприятии,
что в свою очередь позволит использовать более полные данные о сотрудниках при
анализе. Также, это является единственным параметром, выходящим за рамки
организации, поскольку вся другая информация является внутрикорпоративной.
Таблица «Questionaries», хранит данные о проведённых опросах уровня
удовлетворённости сотрудников компании, и содержит такие сведения как:
1) дата проведения опроса;
2) опрашиваемый сотрудник;
3) уровень удовлетворённости рабочими условиями труда;
4) уровень удовлетворённости прямым начальником;
5) уровень удовлетворённости организацией работы в компании;
6) удовлетворённость уровнем заработной платы;
7) уровень уверенности в завтрашнем дне;
8) уровень улучшений, произошедших в компании, за последние три
месяца;
9) уровень необходимости в повышении квалификации, для выполнения
рабочих обязанностей.
Все оценки, хранящиеся в таблице «Questionaries» могут варьироваться от 0
до 2, и соответственно означают:
 0 – плохо;
 1 – удовлетворительно;
 2 – хорошо.
49
Модель получения знаний
3.3.
После определения используемых данных и разработки схемы БД,
необходимо определить каким образом будет проводиться анализ имеющихся
данных, для того была разработана обобщенная модель процесса получения знаний
(см. рисунок 3.2).
Сбор данных
Добавление
новых
измерений/
факторов
Предобработка
данных
Построение
модели с
помощью
Байесовского
классификатора
Да
Нет
Проверка
полученной
модели на
тестовых данных
Достаточная
размерность
анализируемых
данных?
Нет
Качество модели
удовлетворительное
?
Да
Построение
оценок
удовлетворённос
ти персонала
Рисунок 3.2. Обобщённая модель получения знаний
Процесс получения знаний будет включать в себя несколько этапов KDD в
объединении с DM методами, для построения описательной модели. Модель будет
строиться на основе ассоциативных правил и байесовским классификатором.
3.4.
Процесс разработки системы поддержки принятия решений
Система создавалась в среде разработки программного обеспечения Visual
Studio 2012 от Microsoft с использованием Windows Form Application проекта и
стандартных объектов DataGridView для отображения информации в табличном
виде.
50
3.4.1.
Определение обучающей и тестирующей выборки
Работа программы начинается с извлечения данных обо всех работниках,
уволившихся и работающих на данный момент, истории их продвижения в
компании и результатах анкетирования. Затем все эти данные объединяются в
одном списке и разделяются на обучающую и тестовую выборку. Данные в БД
хранятся в случайном порядке, поэтому в отбор в обучающую выборку проходил по
следующему
алгоритму:
три
сотрудника
в
обучающую
выборку,
одного
пропускаем.
Объекты обучающей и тестовой выборки обычно не должны пересекаться,
т.к. это приводит к переобучению и смещённым оценкам, но для обучения
классификатора необходимы объекты обоих классов (уволенные и не уволенные).
Результатом применения классификатора на тестовой выборке и будет искомая
величина – вероятность ухода сотрудника, поэтому тестовая выборка должна
состоять из всех работающих на данный момент сотрудниках компании, включая
тех, что были в обучающей выборке.
3.4.2.
Обучение классификатора
Обучение классификатора проходит в несколько этапов, различающихся по
анализируемым признакам. Входные данные имеют разные типы, разные
диапазоны значений, и поэтому нельзя одним и тем же способом провести
обучение классификатора по всем характеристикам.
Обучение разделено на четыре этапа:
1. Обучение,
учитывающее
развитие
сотрудника
в
компании
(продвижение по должностям и смена подразделений);
2. Обучение, учитывающее длительность работы сотрудника по не
поднимающейся
заработной
плате
(сотрудник
может
менять
должности, подразделения, но заработная плата остаётся неизменной);
3. Обучение, учитывающее заработные платы других сотрудников в
определённый момент времени на определённой должности;
4. Обучение, учитывающие, выставляемые сотрудниками, оценки при
ежеквартальном анкетировании.
51
Общий алгоритм обучения классификатора представлен на рисунке 3.3.
Программная реализация алгоритма, а также описание используемого класса для
обучения представлена в приложении А.
Вход
По всем сотрудникам,
I = 0,
i < Количества
сотрудников в
обучающей выборке
По всем
анализируемым
признакам,
j = 0,
j < Количества
анализируемых
признаков
По всем записям,
k = 0,
k < Количества записей
i-го сотрудника о j-ой
характеристике
Разбиение множества
значений j-ой
характеристики на
подмножества
Расчёт количества
вхождений для каждого
значения, принимаемого
j-ым признаком в
определённые
подмножества для
каждого класса
По всем сотрудникам
По всем
анализируемым
признакам
По всем записям
Выход
Рисунок 3.3. Алгоритм обучение классификатора
При
обучении,
учитывающем
развитие
сотрудника
в
компании
и
учитывающем длительность работы сотрудника по не поднимающейся заработной
плате, рассчитывается то, в течение скольких лет сотрудник работает на
определённой должности, или в определённом подразделении, или по одной и той
же заработной плате.
При обучении, учитывающем заработные платы других сотрудников в
определённый
момент
времени
на
определённой
должности,
временной
промежуток разделяется на шесть отрезков различной длины. Это делается для
того, чтобы уменьшить количество нулевых значений параметров. По той же
причине значения характеристики заработная плата были разделены на отрезки по
10000 тыс. руб.
Обучение по оценкам, полученным при анкетировании, начинается с самой
последней анкеты сотрудника, и каждому типу оценки, соответствует временной
52
список, отображающий, за сколько времени до увольнения либо последнего
анкетирования была поставлена оценка. Таким образом, можно проследить за тем,
какие оценки выставляли сотрудники перед увольнением.
3.4.3.
Тестирование классификатора
Тестирование классификатора на тестовых данных также разделено на такие
же четыре этапа, как и при обучении. На каждом из этапов для каждого сотрудника
определяется, к какому временному отрезку относится значение текущего
показателя. Затем рассчитываются оценки принадлежности сотрудника к обоим
классам по данному значению показателя по формуле Байеса.
После того как все значения характеристик сотрудника были учтены, оценки
принадлежности сотрудника к классам переводятся в априорную вероятность
принадлежности сотрудника к классу «уволенные».
Алгоритм тестирования классификатора представлен на рисунке 3.4.
Программная реализация алгоритма тестирования представлена в приложении А.
Вход
По всем сотрудникам,
i = 0,
I < Количества
работающих
сотрудников
По всем показателям,
j = 0,
j < Количества
анализируемых
показателей
По всем записям,
k = 0,
k < Количества записей iго сотрудника о j-ой
характеристике
Определение
подмножества значения
j-ой характеристики i-го
сотрудника в
классификаторе
Расчёт оценок
принадлежности i-го
сотрудника для каждого
класса
По всем показателям
По всем сотрудникам
По всем записям
Формирование
вероятностного
пространства
Выход
Рисунок 3.4. Алгоритм тестирования классификатора
53
Также в процессе классификации работающих сотрудников, производится
расчёт возможных потерь, при увольнении сотрудника. При этом учитываются
потери, вызванные перерывом в работе и потери, связанные с недостаточным
уровнем производительности у нового сотрудника. Первые рассчитываются как
произведение отношения константы к количеству сотрудников на данной
должности на заработную плату данного сотрудника. Константа – это то, с какой
скоростью предприятие может найти нового сотрудника. Отношение константы на
количество сотрудников на данной должности, означает, что чем больше
сотрудников этой должности работает в компании, тем быстрее найти ему замену.
Вторые рассчитываются как произведение заработной платы сотрудника на
длительность его работы на последней должности и делённой на константу. Это
делается из соображений о том, что новый сотрудник, замещающий этого, будет
какое-то время (длительность его работы на последней должности и делённой на
константу) недопроизводить благ в размере заработной платы сотрудника.
3.4.4.
Результат работы системы
При запуске системы, она показывает список всех сотрудников с их личными
данными, и рассчитанной вероятностью ухода из компании и возможными
убытками. Те сотрудники, вероятность ухода которых больше 66%, подсвечиваются
красным цветом (см. рисунок 3.5).
Рисунок 3.5. Главная форма системы с результатами классификации
На рисунке видно, что шесть сотрудников возможно в ближайшее время
покинут компанию, и пользователь системы, будь то менеджер по персоналу либо
54
начальник подразделения или компании может решить, нужны ли компании эти
сотрудники, или выгоднее дать им уйти. Это решение менеджер может принять
исходя из внешних данных, или опираясь на потенциальные потери от ухода
сотрудника, рассчитанные системой. Если же принято решение об удержании
какого-либо сотрудника, то при нажатии на него, появится информация о его
развитии в компании (см. рисунок 3.6) и о результатах его анкетирования
(см. рисунок 3.7).
Рисунок 3.6. Информация о развитии сотрудника в компании
Рисунок 3.7. Информация о анкетировании сотрудника
Красным цветом отмечены «проблемные зоны», воздействовав на которые,
можно сильно поднять лояльность сотрудника.
Для формы с данными о развитии сотрудника (см. рисунок 3.6) возможны
следующие варианты:
1. Если красным закрашивается поле в столбце «Подразделение», значит,
скорее
всего,
данному
сотруднику
необходимо
изменить
подразделение, в котором он работает.
2. Если красным закрашивается поле в столбце «Должность», значит,
скорее всего, данному сотруднику необходимо изменить занимаемую
должность.
3. Если красным закрашено поле в столбце «Дата приёма на должность»,
значит, скорее всего, данному сотруднику в течение длительного
времени не поднимали заработную плату.
55
4. Если красным закрашено поле в столбце «Заработная плата», значит,
скорее
всего,
зарплата
данного
сотрудника
не
соответствует
заработным платам данного периода времени для занимаемой им
должности.
Для формы с данными о проведении анкетирования (см. рисунок 3.7), логика
остаётся та же, т.е. если в поле столбца «Необходимость обучения» окрашено
красным, значит с большой долей вероятности, предоставив ему обучение, его
лояльность повысится.
56
Заключение
В данной работе рассматривается проблема эффективности управления
персоналом на предприятиях. Данная работа является достаточно актуальной для
больших
и
средних
предприятий
любой
отрасли.
В
особенности
для
высокотехнологичных предприятий, в которых обучение персонала занимает
длительное время.
Для управления персоналом обычно используют лишь изменения заработной
платы. В некоторых компаниях для этого могут, например, улучшить условия труда
или отправить сотрудника на тренинг. Но управленцы не знают, на какого
сотрудника воздействовать и на что воздействовать с большей эффективностью.
Такого рода информацией может обладать только непосредственный начальник, но
может сложиться ситуация, что начальник не заинтересован в продвижение какоголибо сотрудника, хотя это прибыльно компании. Таким образом, такая информация
должна быть доступна для всех звеньев управления, что и позволяет сделать
разработанная система поддержки принятия решений.
Целью данной работы является разработать систему поддержки принятия
решений, позволяющую установить взаимосвязи между внутрикорпоративными
факторами организации и желанием человеческих ресурсов покинуть организацию,
для определения негативных факторов, влияющих на уход персонала, а так же для
определения сотрудников, вероятность ухода которых высока.
В работе рассмотрена On-Line Analytical Processing-технология анализа
данных, подход к анализу Knowledge Discovery in Databases, совокупности методов
анализа – Data и Visual Mining. Затем, были рассмотрены OLAP-системы и два вида
систем анализа данных: Информационно-аналитические системы и системы
поддержки принятия решений и приведены их различия. Также были исследованы
методы анализа, применяемые для управления персоналом, методы управления
мотивацией персонала и оценки текучести кадров, с возможным экономическим
ущербом, вызванным текучестью персонала. В целях получения информации, о
данных, доступных для анализа предприятиям, были изучены стандартные
средства ведения кадрового учёта на предприятии.
57
Результатом работы является система поддержки принятия решений, которая
будет рассчитывать вероятность ухода каждого из работающих сотрудников, а так
же возможные потери, которые при этом понесёт организация. Реализованная
система позволит менеджерам по персоналу сократить текучесть кадров, за счёт
информации о потенциальных желаниях сотрудников покинуть организацию, и
своевременной реакции на них. Также менеджеру будут осведомлены о возможных
потерях, связанных с уходом сотрудников, и может быть тогда, начнут осознавать
их ценность.
Стоит отметить, что данная система является лишь прототипом, на основе
которого, можно протестировать подход к анализу, и убедиться, можно ли его
использовать в промышленных системах. В дальнейшем, планируется расширить
спектр охватываемых в анализе факторов, добавив к уже анализируемым факторам
внешние факторы, такие как, действия конкурентов, общеэкономические и
политические факторы и т.д.
58
Библиографический список
1. Анализ бизнес информации - основные принципы // Технологии
анализа
данных.
[Электронный
ресурс]
[Режим
доступа:
http://www.basegroup.ru/library/methodology/analysisbusinessdata]
[Проверено: 20.03.2014].
2. Business intelligence technology and platforms // Search Business
Analytics.
[Электронный
ресурс]
[Режим
доступа:
свободный,http://searchbusinessanalytics.techtarget.com/resources/Busines
s-intelligence-technology-and-platforms] [Проверено: 20.03.2014].
3. OLAP Research and Technology // OLAP Council. [Электронный ресурс]
[Режим доступа: http://www.olapcouncil.org] [Проверено: 20.03.2014].
4. Han J. Data Mining: Concepts and Techniques Second edition /Jiawei Han,
Micheline Kamber // University of Illinois at Urbana-Champaign, 2006. –
772 p.
5. Hand D. Principles of Data Mining / David Hand, Heikki Mannila,
Padhraic Smyth// Massachusetts Institute of Technology-Cambridge, 2001.
– 546 p.
6. Иванова-Швец Л.Н. Управление персоналом /Л.Н .Иванова-Швец,
А.А. Корсакова. // Учебно-методический комплекс. – М.: Изд. Центр
ЕАОИ, 2009. – 311 с.
7. Барсегян А.А. Анализ данных и процессов: учеб. пособие / А. А.
Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. –
3-е изд., перераб. и доп. – СПб.: БХВ-Петербург, 2009. –512 с.
8. Текучесть кадров // Группа компания «Баланс». [Электронный ресурс]
[Режим доступа: http://www.balans.ru/ru/library/print/8/article_39.html]
[Проверенно: 23.03.2014].
9. Зайцева Н.В. Построение системы поддержки принятия решений по
управлению человеческим капиталом предприятия // Modern problems
and ways of their solution in science, transport, production and education
2013, Июнь, 2013г.
59
10. Ключко В.И., Шумков Е.А., Власенко А.В., Карнизьян Р.О. Архитектуры
систем поддержки принятия решений// Научный журнал КубГАУ,
№86(02), 2013г.
11. Лычкина
Н.Н.
Современные
технологии
имитационного
моделирования и их применение в информационных бизнес-системах
и системах поддержки принятия решений // ИММОД-2005, – М., 2005.
– С. 25-31.
12. Цвиркун А.Д. Имитационное моделирование в задачах синтеза
структуры
сложных
систем.
Оптимизационно-имитационный
подход/А.Д. Цвиркун, В.К. Акинфиев и др. М.: Наука,1985. – 176 с.
13. Каймакова М.В. Анализ использования человеческих ресурсов: текст
лекций / М. В. Каймакова. – Ульяновск: УлГТУ, 2008. – 80 с.
14. Банько Н. А. Управление персоналом / Н. А.Банько, Б. А. Карташов, Н.
С. Яшин // Часть I: Учеб.пособие, Волгоград: ВолгГТУ, 2006. – 96 с.
15. Садовникова Н.О.Развитие кадрового потенциала организации / Н.О.
Садовникова // Учеб.пособие, Екатеринбург, УрГПУ, 2011 – 70 с.
16. Hersey P. Management of Organizational Behavior / Paul Hersey, Kenneth
H. Blanchard // Prentice-Hall, 1988. – 474p.
17. Oracle business intelligence foundation suite // Oracle. [Электронный
ресурс] [Режим доступа: http://www.oracle.com/us/obiee-11g-technicaloverview-078853.pdf] [Проверено: 24.04.2014].
18. Базаров Т.Ю. Управление персоналом // Т.Ю. Базаров, Б.Л. Еремин.
Е.Л. Аксенова, Н.М. Малиновская – 2-е изд., перераб. и доп. –
М: ЮНИТИ, 2002. – 560 с.
19. Кибанов А.Я. Управление персоналом организации / А.Я. Кибанов,
И.А. Баткаева, Д.К. Захаров, Л.В. Ивановская, Е.В. Каштанова, В.Г.
Коновалова, Е.А. Митрофанова, К.Э. Оксинойд, В.М. Свистунов, Г.В.
Слуцкий – 3-е изд. – М.: ИНФРА-М, 2005. – 638 с.
20. Методика анализа данных – подход к решению // Технологии анализа
данных.
[Электронный
ресурс]
60
[Режим
доступа:
http://www.basegroup.ru/library/methodology/base/]
[Проверено: 14.04.2014].
21. Maimom O. Introduction to Knowledge Discovery in Databases / Oden
Maimom, LiorRokach // Tell-Aviv University, 2006 – 17 p.
22. Белов
В.С.
Информационно-аналитические
проектирования
и
применения:
системы.
Основы
учебное пособие, руководство,
практикум / Московский государственный университет экономики,
статистики и информатики. – М., 2005. – 111 с.
23. Ballard C. Data Modeling Techniques for Data Warehousing / Chuck
Ballard, Dirk Herreman, Don Schau, Rhonda Bell, Eunsaeng Kim, Ann
Valencic // International Technical Support Organization, 1998 – 216 p.
24. Мальцев П.А., Воронина Т.В. Онтология Business Intelligence //
Научный фонд НИУ ВШЭ, 2012г. – с. 150-160.
25. Бериков В.Б., Лбов Г.С. Современные тенденции в кластерном анализе
// Институт математики им. С.Л. Соболева СО РАН, 2009г. – С. 1-26.
26. Codd’s 12 Rules for Relational Database Management // OLAP.com.
[Электронный
ресурс]
[Режим
доступа:
http://olap.com/learn-bi-
olap/codds-paper/] [Проверено: 18.04.2014].
27. Types of OLAP Systems // OLAP.com. [Электронный ресурс] [Режим
доступа:
http://olap.com/types-of-olap-systems/]
[Проверено: 18.04.2014].
28. 1С:Зарплата и управление персоналом 8 // 1С: Предприятие 8
[Электронный
ресурс]
[Режим
доступа:
http://v8.1c.ru/hrm/]
[Проверено: 21.04.2014].
29. Постановление Госкомстата РФ от 05.01.2004 N 1 «Об утверждении
унифицированных форм первичной учетной документации по учету
труда и его оплаты» // Консультант Плюс [Электронный ресурс]
доступа:
[Режим
http://www.consultant.ru/document/cons_doc_LAW_47274/]
[Проверено: 21.04.2014].
61
30. Наивный Байесовский классификатор // Денис Баженов [Электронный
ресурс]
[Режим
доступа:
http://bazhenov.me/blog/2012/06/11/naive-
bayes.html] [Проверено: 21.05.2014].
31. Воронцов К. В. Лекции по статистическим (байесовским) алгоритмам
классификации // Учебно-методический комплекс. – М.: ИПР-ЖР,
2008. – С. 32.
32. Воронцов К. В. Математические методы обучения по прецедентам
(теория обучения машин) // Учебно-методический комплекс. – М.:
ИПР-ЖР, 2008. – С. 133.
33. EМ - масштабируемый алгоритм кластеризации // Технологии анализа
данных.
[Электронный
ресурс]
[Режим
http://www.basegroup.ru/library/analysis/clusterization/em/]
[Проверено: 21.05.2014].
62
доступа:
Приложение А
Листинг 1.
Описание класса, используемого для обучения и тестирования
классификатора
public class EmployeeSet
{
public int EmployeeId { get; set; }
public string FIO { get; set; }
public bool Dismissed { get; set; }//флаг, указывающий на то, работает ли в
данный момент сотрудник в компании
public double DismissProbability { get; set; }//оценка принадлежности к
классу "Уволенные" данного сотрудника
public double EmployProbability { get; set; }//оценка принадлежности к классу
"Работающие" данного сотрудника
public int DismissExpenditory { get; set; }//оценка потенциальных потерь
организации при уходе сотрудника
public List<string> EmpInfo = new List<string>();//персональная информация
сотрудника
public List<List<string>> Hirings = new List<List<string>>();//информация о
развитии сотрудника
public List<List<string>> Quest = new List<List<string>>();//информация о
результатах анкетирования сотрудника
}
Листинг 2.
Процедура обучения классификатора
public void Training(List<EmployeeSet> trainingSet)//обучение классификатора
{
for (int i = 0; i < trainingSet.Count(); i++)// для каждого сотрудника в
обучающей выборке
{
//обучение по истории развития
HiringsHistoryTraining(i);
//без повышения заработной платы
WithoutSalaryIncreaseTraining(i);
//сравнение заработной платы по должности, временному отрезку
PositionTimeSalaryTraining(i);
//обучение по результатам анкетирования
QuestionariesTraining(i);
}
}
Листинг 3.
Процедура тестирования классификатора
public void Verification(List<EmployeeSet> verificationSet)//тестирование классификатора
{
//расчёт отношения количества уволенных/работающих сотрудников к количеству
сотрудников в обучающей выборке
63
double DismissProportion = Math.Log10(trainingList[7].CountDismissed /
(trainingList[7].CountDismissed + trainingList[7].CountEmployed));
double EmployProportion = Math.Log10(trainingList[7].CountEmployed /
(trainingList[7].CountDismissed + trainingList[7].CountEmployed));
for (int i = 0; i < verificationSet.Count(); i++)// для каждого сотрудника в
обучающей выборке
{
verificationSet[i].DismissProbability = DismissProportion;
verificationSet[i].EmployProbability = EmployProportion;
//тестирование по истории развития
HiringHistoryVerification(verificationSet, i);
//тестирование по стабильной заработной плате
WithoutSalaryIncreaseVerification(verificationSet, i);
//тестирование по заработной плате на определённой должности в
определённое время
PositionTimeSalaryVerification(verificationSet, i);
//тестирование по результатм анкетирования
QuestVerification(verificationSet, i);
//расчёт потенциальных потерь при увольнения сотрудника
DismissExpenditory(verificationSet, i);
//перевод оценок принадлежности к двум классам в вероятность
принадлежности к классу "Уволенные"
verificationSet[i].DismissProbability = Math.Pow(10,
verificationSet[i].DismissProbability) / (Math.Pow(10,
verificationSet[i].DismissProbability) + Math.Pow(10,
verificationSet[i].EmployProbability));
}
}
64
Download