Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Чувашский государственный университет имени И.Н.Ульянова» Применение методов интеллектуального анализа данных при моделировании социально-экономических систем Абруков В.С., Карлович Е.В., Кожин А.Ю., Кощеев И.Г., Алимов К.К., Ануфриева Д.А., Петрова М.В. Учебное пособие Чебоксары 2012 Оглавление Предисловие …………………………………………………………………… 2 Введение …………………………………………………………………………. 3 Глава 1. Современное состояние системы высшего профессионального образования и методы ее исследования ……………………………………….. 5 Глава 2. Методы анализа социально-экономических систем ……………...…12 Глава 3. Методология, методы и технологии экспериментальных и теоретических исследований закономерностей развития системы высшего профессионального образования с помощью средств интеллектуального анализа данных ………………………………………………………………… 17 Глава 4. Методика и примеры применения методов интеллектуального анализа данных при моделировании социально-экономических систем …...27 Глава 5. Результаты исследований и моделирования системы образования в вузе …………………………………………………..…………………………. 68 Заключение ……………………………………………………………………. 124 Литература ……………………………………………………………………..130 ПРЕДИСЛОВИЕ Данное учебное пособие подготовлено в рамках выполнения проекта: «Применение методов интеллектуального анализа данных для повышения эффективности управления системой высшего профессионального образования» - Use of Data Mining for Improved Management of Education System (научный руководитель – доктор физ.-мат. наук, профессор Абруков В.С., факультет прикладной математики, физики и информационных технологий, кафедра прикладной физики и нанотехнологий, [email protected]) и будет дополняться по мере его выполнения. Краткое описание проекта Вы можете найти здесь: http://mfi.chuvsu.ru/opros . 1 ВВЕДЕНИЕ Образование – одно из ключевых звеньев социально-экономической системы. По оценкам специалистов, в той или иной мере с системой образования в России связано около 50 млн. человек. В условиях формирования экономики, основанной на знаниях, образовательные учреждения высшего профессионального образования должны играть главную роль. Но их миссии, структуры и системы управления должны измениться, чтобы соответствовать существующим сейчас требованиям экономики и будущим требованиям экономики, основанной на знаниях. В соответствии с прежними (до 90-х годов) нормами система образования должна была готовить специалистов по заказам, централизованно формируемым государством. В условиях принципиально новой структуры экономики России, практического исчезновения как отдельных предприятий, так и целых отраслей промышленности, роста среднего и малого предпринимательства эта система перестала существовать. Вопрос сейчас необходимо поставить следующим образом. Что надо делать в условиях, когда часть выпускников не стремятся или не могут трудиться по специальности, а часть вообще планирует уехать из России; большинство работодателей не хотят или не могут их доучивать; часть профессоров не могут дать востребованные сейчас знания, поскольку никогда не работали в современных организациях и на современных производствах, или просто у них нет на это времени и желания? Не стоит ли сейчас вопрос о том, что ранее существовавшая система высшего профессионального образования должна коренным образом измениться, поскольку, в настоящее время, различные категории участников образовательного процесса и системы образования в целом имеют разные цели и интересы. Глава 1 Современное состояние системы высшего профессионального образования и методы ее исследования Сейчас каждый вуз (территориальными, специализацией в соответствии уровнем и со своими особенностями материально-технической квалификацией преподавателей и т. базы, д.) должен самостоятельно определять пути своего развития и взаимодействия с потребителями высшего образования, категории и потребности которых очень разнообразны. Казалось бы, на этой стадии вуз должен, в первую очередь, реагировать на существующий сейчас характер спроса на высшее образование, интересы потребителей высшего образования! Но он не должен при этом забывать о «здоровом» консерватизме системы образования – задаче сохранения себя непосредственных преподавателей, участников процесса как вуза, учета интересов образования административно-управленческого – аппарата, студентов, учебно- вспомогательного персонала. Он не должен забывать о будущих задачах системы образования. В будущем, по мере реализации перехода к экономике, основанной на знаниях, вузы как наиболее передовые структуры современного информационного общества сами должны будут определять перспективные направления развития экономики, сами смогут формировать спрос на высшее образование. Существующий сейчас уровень системы управления вузом, на наш взгляд, не позволяет решать эти задачи. Отсутствует современная система поддержки принятия решений и управления вузом. Имеется несоответствие между возникающими в последнее время новыми формами высшего образования, требованиями к системе образования и сложившейся в течение десятилетий системой управления, в которой лица принимающие решения руководствуются своим опытом, прошлым опытом своего вуза или 1 «чужого», используют в управлении индивидуальные «мифологемы» социально-исторической реальности [1, 2]. Но уже стало «общим местом» правило, что нельзя при выработке управляющих решений в области социально-экономических систем брать за основу исторический «старый» опыт, опыт других университетов и, тем более, зарубежный опыт. Другой существенной сложностью является то, что нельзя прямо использовать в управлении вузом концепцию качества образования. В работе [3] по этому поводу сказано следующее: «… Если же пытаться целенаправленно влиять на качество, то необходимо это качество превратить в количество, т.е. в измеряемые показатели. А что может являться измерителем качества образования? Сложность состоит в том, что так называемые заинтересованные подразумевают совершенно стороны разные под вещи. качеством Например, образования академическое сообщество считает показателем качества уровень знаний, т.е. успеваемость, оценки. Студенты под качеством образования понимают добавленную стоимость – разницу между стоимостью человека на рынке труда (потенциальный заработок до конца жизни) до и после завершения образовательной программы. Работодатель оценивает качество образования выпускника по его вкладу в успех деятельности компании. Государственные органы измеряют качество по отдаче на единицу вложений, т.е. трактуя его, по сути, как эффективность. Есть еще класс оценок по показателям уровня выпускников и профессорско-преподавательского используются в различных выпускников и рейтингах: преподавателей состава, которые наукометрические индексы (например, индекс Хирша), объем выполняемых научно-исследовательских и опытно-конструкторских работ, продвижение выпускников по карьерной лестнице и т.д.». Помимо замечания работы [3] важно отметить следующее. Существует так называемый процессный подход к управлению качеством. Согласно ему работа по улучшению качества производства (и в том числе и образования) должна быть организована вокруг процессов. Не качество «товара» (оно 2 может измениться в зависимости от субъективных факторов: спроса, желаний «клиента» и т.д.), а качество процесса его создания может принести долгосрочный успех. В этой концепции цель управления – повышение качества процессов. Участниками процесса образования в системе вуза являются не только вышеупомянутые: «академическое сообщество», студенты, работодатели, государственные органы, но и административноуправленческий аппарат и учебно-вспомогательный персонал вуза, родители студентов. От чего зависит их удовлетворенность качеством процесса образования? Таким образом, анализ проблемы показывает, что задача управления вузом в современных условиях сложна и многообразна, требует использования одновременно нескольких подходов к управлению, учета многих факторов. Это в очередной раз подтвердило обсуждение на самых разных уровнях недавно проведенного Минобрнауки мониторинга с целью определения по 5 (8) показателям «эффективности вуза (филиала)», которое сопровождалось как целым рядом достаточно мотивированных возражений, так и резко отрицательных отзывов о методике мониторинга. Справедливости ради, надо отметить, что Минобрнауки сразу определило предварительный характер этого мониторинга, включив в него только те параметры, которые можно было достаточно просто получить и в объективности значений которых нельзя было сомневаться. Правда, затем, по результатам этого мониторинга были предприняты серьезные меры по расформированию отдельных вузов и поглощению их другими вузами, что создало определенную напряженность в системе образования, которая сейчас сохраняется, и к чему она приведет, пока неясно. И здесь стоит отметить, что управление социально-экономическими системами относится к числу задач, для которых даже постановка конкретной задачи управления является сложной. Как отдельную задачу надо рассматривать задачу определения набора целевых функций управления (их 3 может быть несколько) и определения набора факторов, которые влияют на эти целевые функции. Как сейчас обычно осуществляется управление? «Древним» методом проб и ошибок, по принципу, а давайте попробуем обеспечить увеличение качества образования за счет увеличения зарплаты преподавателей в два раза! Сразу возникают вопросы: что понимается под качеством образования (оценки студентов, востребованность выпускников или другое), почему в два раза, а не в 1,6 или в 3,1, почему только преподавателей, а не учебновспомогательного персонала тоже? Сейчас с помощью различных методов учета и социологических исследований получено большое количество разнообразных данных по системе образования. В стандартных отчетных формах, накоплено громадное количество данных практически по всем аспектам образовательной деятельности. Но полученные данные до настоящего времени не сведены в систему, которая бы позволила приступить к работе по выявлению многофакторных связей между различными «элементами» и «процессами», связей между целевыми функциями, показателями и факторами, выявлению значимых факторов с точки зрения различных целевых функций, прогнозированию развития образования в конкретной «окружающей среде». Это – очень трудная задача и очень долгий путь, но без решения этой задачи управленческие решения по-прежнему будут приниматься древним методом проб и ошибок. Поэтому необходимо создание системы поддержки принятия решений (СППР), которая должна быть основана на современных информационных технологиях, позволяющих аккумулировать большие объемы разнообразной актуальной информации, проводить их многомерный анализ, реализовывать информационный подход [4] (основанный на эмпирических данных, описывающих исследуемую систему во времени и с различных точек зрения) к моделированию образовательной системы, позволяющий выявлять тенденции изменчивости образовательной системы на основе анализа 4 постоянно обновляемых данных о системе, прогнозировать ее развитие и вырабатывать совокупность управляющих решений. Данное направление работы соответствует Распоряжению Правительства РФ от 7 февраля 2011 г. N 163-р "О Концепции Федеральной целевой программы развития образования на 2011 – 2015 годы". Согласно данной концепции одной из важных составляющих является работа по созданию «новых моделей управления в условиях использования информационнокоммуникационных технологий» и «путь к стратегическим и управленческим решениям должен проходить через моделирование конкретных ситуаций, построение и исследование компьютерных моделей, прогнозирование развития системы образования в случае различных вариантов управляющих воздействий». В данном направлении МГУ недавно получил контракт по Федеральной целевой программе «Научные и научно-педагогические кадры инновационной России» на 2009 - 2013 годы: Научно-исследовательский проект (государственный контракт № 02.740.11.0366) философского факультета МГУ «Формы и уровни принятия решений в системах высшего профессионального образования и науки». И хотя этот проект не направлен на реальную разработку СППР, а посвящен «созданию теории принятия решений и методологии подхода к принятию решений в системах высшего профессионального образования» его появление свидетельствует о большом внимании Минобрнауки к этому вопросу. Как определяется в [5], СППР – это компьютерная автоматизированная система, целью которой является помощь руководителям, принимающим решение в сложных условиях, для полного и объективного анализа предметной деятельности. СППР ориентированы на аналитическую обработку и моделирование данных с целью получения знаний, необходимых для выработки управленческих решений. В нашей планируемой работе речь не идет об автоматизированных системах типа «Кадры», «Приемная комиссия» или «Отчетные системы», 5 которые позволяют в виде графиков и диаграмм представить, как меняется ситуация в вузе с кадрами, контингентом студентов и т.д. Отличие планируемой к созданию СППР заключается в том, что включая в себя базы данных по кадрам, контингенту студентов и абитуриентов, инфраструктуре вуза, показателям качества образования в вузе, трудоустройству выпускников и т.д. она должна выполнять анализ связей между входными и выходными факторами (параметрами, целевыми функциями) системы образования в вузе, строить качественные и количественные (в том числе, вычислительные) модели этих связей, прогнозировать развитие системы вуза при принятии того или иного управляющего решения. Она должна решать не только прямые задачи, например, прогнозировать успеваемость конкретного абитуриента, поступающего на конкретную специальность в зависимости от его баллов набранных на ЕГЭ (пример самой простой задачи). Она должна решать и обратные задачи, например, определять, какой должна быть зарплата конкретного преподавателя, чтобы максимальный процент студентов был востребован работодателем (пример очень интересной, но очень сложной задачи). Перспективным средством создания СППР являются методы интеллектуального анализа данных [4]. Поиск в Интернет не обнаружил прецедентов создания подобных систем в России. За рубежом такие системы разрабатываются, например [6-8]. Был также проведен поиск в научной электронной библиотеке России: http://elibrary.ru . Результаты следующие. По запросу - «система поддержки принятия решений» всего найдено публикаций: 2190. Это говорит о том, что задача создания систем поддержки решений в области управления является весьма актуальной. Но по запросу «система поддержки принятия решений AND высшее образование» было найдено только 10 публикаций. Причем анализ показал, что ни одна из них не относится непосредственно к созданию систем поддержки принятия решений при управлении вузом, а связаны с 6 применением чисто информационных систем (учетных систем) по фактическим данным системы образования. Поиск по запросу «система поддержки принятия решений AND высшее образование AND Data Mining» дал 0 ссылок. Все это показывает, что постановка задачи создания систем поддержки принятия решений в управлении вузом является актуальной как за рубежом, так и в России, но примеры применения с этой целью методов интеллектуального анализа данных или малочисленны (за рубежом), или отсутствуют (в России). Поэтому можно считать, что данный проект обладает существенным инновационным потенциалом. Исполнители проекта имеют опыт разработки СППР при исследовании социально-экономических систем, в частности в моделировании и прогнозировании семейных отношений в России с помощью методов интеллектуального анализа данных [9, 10]. Работа проводилась по гранту РФФИ и на сайте проекта http://www.chuvsu.ru/2008/proekt.html приведены некоторые результаты. 7 Глава 2 Методы анализа социально-экономических систем. С самого момента возникновения человеческого общества, когда стало зарождаться то социальное зерно, которое трансформировалось позднее в многомерное социальное пространство, людей волновали вопросы взаимодействия индивидуумов в социуме. Вначале это могли быть зачаточные философские суждения о строении и функционировании различных составляющих общества, затем появились попытки построения примитивных описательных моделей, их классификация, своеобразным венцом теоретических описательных и объяснительных моделей может служить предложенная Парсонсом структурно-функциональная модель общества, которая на данный момент считается наиболее всеобъемлющей социологической теорией. Таким образом, проблема анализа социальной информации, выявления социальных закономерностей, построения прогнозов развития общества всегда волновала людей. Она была зачастую просто жизненно необходима, и эта практическая необходимость направляла человеческую мысль в русло создания специальных механизмов обработки и анализа социальной информации. В 20-м веке практически параллельно развивались два фундаментальных направления анализа социальных процессов: количественные (статистические) и качественные методы. Начнем с количественных методов. По мере развития таких разделов математики, как теория вероятности и математическая статистика, в распоряжении социологов-эмпириков оказывалось все большее число соответствующих инструментов анализа. Так, от простого подсчета голосов избирателей в процентах (49-«за», 51-«против»), переходили на корреляционный анализ (увязывая принятие или отклонения предложенной кандидатуры с полом, возрастом и т.д.), затем однофакторный или многофакторный дисперсионный анализ и т.д. Своеобразную «эволюцию» прошла и методика организации сбора эмпирического материала. От опросов, затем с повышением грамотности населения с раздачи анкет до сбора и анализа так называемых панельных данных (Panel Data Analysis), когда опрашивается до 10.000 (иногда и более респондентов, часто по всему миру) и появляется возможность сделать «срезы» ситуации по годам, по странам, по определенным критериям. Радует, что и в нашей стране в последнее десятилетие этому стали уделять значительное внимание. Появились как панельные данные, собранные по России (Российский мониторинг экономического положения и здоровья населения)1, так и сравнительные исследования России с другими европейскими странами2 Конечно, это дело весьма финансово затратное и часто щепетильное т.к. при широких международных исследованиях возникают весьма специфические проблемы перевода одних систем измерений качества 1 2 http://www.cpc.unc.edu/rlms http://www.cessi.ru социальной жизни жителей одной страны в другую, приходится сравнивать и конвертировать величины, часто даже просто подбирая наиболее близкий возможный аналог. В то время как в России только стали проводить панельные исследования, ряд мировых лидеров социальных исследований (США, Германия и др.) стали внедрять новые методики сбора и новые технологии обработки данных. Одной из вершин статистического анализа (на данный момент) является методика Event History and Survival Analysis (EHA/SA), которую в весьма приблизительном варианте можно перевести как анализ истории событий, а также анализ произошедших и не произошедших (!) за определенный временной промежуток событий. Можно привести официальное определение (EHA/SA), данное в 1981 г. Миллером3: «это набор статистических методов для анализа положительных случайных переменных и их связей с другими переменными». Приведем пример сбора таких данных. Группа из 432 заключенных была выпущена на свободу из государственных тюрем штата Мэриленд, в течение года (а сведения собирались еженедельно) за ними велось открытое наблюдение. В частности учитывались такие характеристики, как наличие определенного уровня образования, была ли оказана помощь по социальной адаптации, был ли человек безработным или работал до заключения (В идеале должны быть учтены все значимые факторы или те, которые мы можем полагать таковыми при сборе и систематизации данных.). Цель наблюдения - посмотреть, произойдет ли за исследуемый период времени событие (event). Событием в данном случае считают наступление правонарушения и следующий за ним повторный арест. В базе данных тщательно фиксируется количество недель до наступления события, в данном случае повторного ареста бывшего заключенного (12 недель, 35 недель и т.д.). Либо же, если событие не произошло, то напротив идентификационного номера данного человека ставится цифра 52+, что означает, что в исследуемый период времени (1 год=52 недели) ожидаемое событие (повторные арест) не произошло. Анализ данных позволяет ответить на следующий вопрос: связано ли время между выходом из тюрьмы и последующим арестом, если таковой имеется, с уровнем образования, фактом оказания финансовой помощи, трудовой занятостью до первого ареста, а также является ли наступление события комбинацией одного, двух или всех факторов?4. Важной особенностью данной технологии является учет и анализ данных даже по тем событиям, которые не имели место в указанный период, что позволяет получать более целостную картину изучаемого социального процесса. Такие исследования требуют очень больших финансовых затрат даже по сравнению с сбором обычных панельных данных, преимущественно на организацию сбора информации, но не менее важно наличие грамотных 3 Miller, J (1981). Survival analysis. New York. Wiley Rossi, P.H., Berk R.A.&Lenihan K.J. (1980). Money, work, and crime: Experimental evidence. Academic Press New York. 4 1 специалистов, хорошо владеющих методиками обработки собранных данных в EHA/SA. Наиболее востребованными социологами на данный момент пакетами программ статистической обработки данных являются EXCEL, STATISTICA, SAS, SPSS, STATA. Перейдем к качественным методам анализа данных социологического исследования. Хотелось бы особо отметить, что разрыв между западными социологическими школами и отечественными в сфере применения этих методов - минимален. В западной социологии существует устойчивая тенденция применения компьютерных программ и для анализа качественных данных. Принцип действия таких программ для обработки текстовых данных изначально был прост: создавалась база данных интервью, затем вводилось ключевое слово для поиска, например «взятка» и исследователь получал готовую схему употребления данного слова, как в отдельном интервью, так и в целом по базе данных. Как вариант употребления учитывается контекст, а также характеристики самого респондента. При больших объемах информационных данных система работает гораздо более эффективно, чем это возможно сделать одному исследователю, ищущему заданные сочетания и закономерности аналитически. В последние два десятилетия на рынке программных продуктов, предлагаемых для качественного анализа данных появилось много интересных новинок, такие как HyperRESEARCH, QDA Miner, MaxQDA и др. На последней мы хотели бы остановиться особо. Первая версия данной программы под названием MAX (которое затем образовало целое семейство программ Max) была разработана в 1989 году в Германии и впервые была представлена, как удобное средство для обработки текстовых файлов на выставке в Ганновере (Германия) в 1992 г., а в 1995 г. появилась ее англоязычная версия5. С тех пор данное программное обеспечение победно шествует по всему миру. Существует техническая возможность его применения и для анализа русскоязычных текстов. К сожалению, авторам статьи ни разу не попадались ссылки социологовэмпириков на использование этого или любого другого аналогичного программного продукта в России. Необходимо отметить, что за последнее столетие социология сделала мощный рывок, как в развитии самих методов, так и в их применении, сократился, а иногда и полностью ликвидирован, разрыв между теоретикамиметодологами и эмпириками, когда метод, возникнув в недрах одной науки (математики) плавно перетекает в другие науки, как гуманитарного, так и естественно-научного цикла, наглядно демонстрируя прикладное значение науки. Количественные и качественные ветви анализа социальной информации развивались параллельно, но в современном мире ни одной из них нельзя отдать приоритет т.к. и количественный и качественные методы имеют как сильные стороны, так и ограничения. Например, существенным ограничением любой статистической программы является невозможность 5 http://www.maxqda.com/about/history 2 «внятного» прогнозирования социального процесса. Мы можем сказать, что было, в лучшем случае, что есть, но предсказать в каком направлении будет развиваться интересуемое нас явление мы, к сожалению, не можем. Срез социальной информации достаточно жестко фиксирован в определенный момент времени в прошлом. Любые предсказания останутся на совести аналитика, впрочем, также как и интерпретация данных статистических расчетов. Наличие неоднородных и сложных взаимосвязей неизбежно присутствующих в социальных явлениях нельзя раскрыть с помощью чисто статистических подходов, основанных, главным образом, на концепции усреднения по выборке, которая к тому же должна быть представительной, что не всегда возможно. Статистические методы не позволяют использовать качественную информацию, если ее невозможно строго формализовать. Формализованная же информация неизбежно теряет эмпирическую контрастность. Качественные же данные не могут дать целостную картину рассматриваемого явления, уходя от массовости и сосредотачиваясь на отдельном случае или интересуемой группе событий, конкретном аспекте. Возможности лаконичности выражения выводов в этом случае весьма ограничены и это есть ограничения, налагаемые самим методологическим подходом. Вся история развития и совершенствования методов этих двух направлений приходит к закономерному этапу - попытке соединить достоинства обоих методов и избежать (или по крайней мере свести к минимуму) недостатков. Тем более что прогрессирование научных технологий последних десятилетий позволяет нам это сделать. Наиболее с этой точки зрения перспективными, по нашему мнению, являются средства Data Mining, в которые в частности входят и более известные в научной литературе искусственные нейронные сети (ИНС). Среди других средств Data Mining можно отметить деревья решений (decision trees) и самоорганизующиеся карты Кохонена (Cohonen self-organizing maps). Средства Data Mining позволяют одновременно анализировать разнородные (количественные и качественные) данные, неполные («непредставительные» с точки зрения статистических методов) выборки, анализировать сильно нелинейные связи. За рубежом эти методы уже более десятилетия применяются в экономике, финансах, страховом деле6. В последнее время и в России появились работы направленные на использование средств Data Mining при построении моделей экономических систем7. Как нам представляется, применение средств Data Mining является логичным шагом в развитии методов анализа социальной информации. Известный математик Г.Пятецкий-Шапиро предложил такое определение: «Data Mining – это процесс обнаружения в сырых данных ранее не См например: Garson G. Neural Networks: An Introductory Guide for Social Scientists. N.C.: Nort Carolina Publ. 1998; Bainbridge W. Neural Network Models of Religious Belief//Sociological Perspectives, 1995, Vol 38, №4, С. 483-496. 7 См.например: Макаров В.Л., Бахтизин А.Р., Бахтизина Н.В. GGE - модель социально-экономической системы России со встроенными нейронными сетями. - М., ЦЭМИ РАН, 2005. 6 3 известных, не тривиальных, практически полезных и доступных для интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности»8. Средства Data Mining все чаще стали включаться в пакеты статистических программ, такие крупные игроки рынка программного статистического обеспечения, как SPSS и STATA уже включили их в свои последние версии. Большой удачей российской науки является создание собственных прикладных программных пакетов средств Data Mining для организации исследований, одним из представителей которых является система Deductor (Дедуктор)9. Deductor является аналитической платформой, позволяющей создавать законченные прикладные решения. Реализованные в Deductor средства Data Mining позволяют на базе единой архитектуры пройти все этапы построения аналитической системы: от создания хранилища данных до автоматического построения моделей изучаемого явления и визуализации полученных результатов. Deductor предоставляет аналитикам средства, необходимые для решения самых разнообразных аналитических задач: сегментация, поиск закономерностей, создание вычислительных моделей явления, прогнозирование. В последнее время, многие российские ученые прямо указывают на преимущества использования средств Data Mining применительно к анализу социальных процессов, но до сих пор в нашей стране крайне мало публикаций по этой тематике, исследования с применением этих технологий - единичны10. В нашей работе, впервые в практике социальных исследований в России, средства Data Mining были применены для исследования семейных отношений. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных:Data Mining, Visual Mining. Text Mining. OLAP. СПб.:БХВ-Петербург, 2008. 9 http://www.basegroup.ru/ 8 Круглов В.В., Дли М.И. Применение аппарата нейронных сетей для анализа социологических данных // Социологические исследования. 2001, № 9, С. 112-114. 10 4 Глава 3 Методология, методы и технологии экспериментальных и теоретических высшего исследований профессионального закономерностей образования с развития системы помощью средств интеллектуального анализа данных 3.1 Постановка задачи Основой для управления вузом в современных условиях должна быть информационно-аналитическая система, включающая в себя современные технологии сбора и организации разнообразных данных, предобработки и подготовки данных для анализа, современные методы анализа и моделирования данных, методы прогнозирования и выработки управляющих решений. К числу таких систем можно, например, отнести аналитическую платформу «Deductor» [4]. Она содержит в себе все инструменты, необходимые для осуществления процесса аккумуляции данных, их анализа и моделирования, извлечения скрытых закономерностей, прогнозирования. Реализованные в Deductor технологии позволяют на базе единой архитектуры пройти все этапы построения аналитической системы от создания хранилища данных до автоматического подбора моделей и визуализации полученных результатов. Deductor включает в себя следующее: Рис. 1. Взаимодействие составляющих аналитической платформы Deductor Deductor Warehouse - многомерное хранилище данных, аккумулирующее всю необходимую Использование для анализа единого предметной хранилища области информацию. позволяет обеспечить непротиворечивость данных и централизованное хранение, а также автоматически обеспечивает всю необходимую поддержку процесса анализа данных. Deductor Warehouse оптимизирован для решения именно аналитических задач, что положительно сказывается на скорости доступа к данным. Deductor Studio - программа, реализующая функции импорта, обработки, визуализации и экспорта данных. Deductor Studio может функционировать и без хранилища данных, получая информацию из любых других источников, но наиболее оптимальным является их совместное использование. В Deductor Studio включен полный набор механизмов, позволяющий получить информацию из произвольного источника данных, провести весь цикл обработки (очистку, трансформацию данных, построение моделей), отобразить полученные результаты наиболее удобным образом (OLAP, таблицы, диаграммы, деревья и т.д.) и экспортировать их в наиболее распространенные форматы. Deductor Viewer - программа, ориентированная на конечного пользователя и предназначенная для просмотра подготовленных при помощи Deductor Studio отчетов. Deductor Viewer позволяет минимизировать требования к пользователю системы, т.к. все требуемые операции выполняются автоматически при помощи подготовленных ранее сценариев обработки. Пользователю Deduсtor Viewer нужно только выбрать и настроить вариант отображения полученных результатов. Deductor Server – служба, обеспечивающая удаленную аналитическую обработку данных. Она позволяет автоматически обрабатывать данные и 1 переобучать модели на сервере, оптимизирует выполнение сценариев за счет кэширования проектов и использования многопоточной обработки. Deductor Client – клиент доступа к Deductor Server. Он обеспечивает доступ к серверу из сторонних приложений и управление его работой. Реализованная в Deductor архитектура позволяет добиться максимальной гибкости при создании законченного решения. Благодаря данной архитектуре можно собрать в одном аналитическом приложении все необходимые инструменты анализа и реализовать автоматическое выполнение подготовленного сценария. Технологическая максимально платформа сократить сроки прикладные решения, а также включает разработки, средства, быстро адаптировать их позволяющие создавать новые в соответствии с изменяющимися требованиями. 3.2 Методология создания системы поддержки принятия решений Информационное обеспечение – необходимое условие, определяющее правильность принимаемых управленческих решений. В настоящее время информационные системы в вузах (если они имеются) используются только как системы информационного обеспечения учебного процесса и системы учета, но не как системы управления. В них отсутствуют компоненты, необходимые для анализа, моделирования и прогнозирования поведения элементов системы вуза и системы вуза в целом. Это не позволяет реально управлять процессами, ресурсами и в конечном итоге образовательной системой. Основой для создания информационно-аналитической системы должны служить современные технологии сбора и хранения информации. К таким технологиям может «Хранилища данных» ориентированная, быть - отнесена ХД. ХД интегрированная, упомянутая выше технология определяется как «предметно- неизменчивая, поддерживающая 2 хронологию совокупность данных, организованных с целью поддержки управления» [4]. Существенным элементом ХД является семантический слой, трансформирующий термины предметной области в вызовы механизмов доступа к данным, и позволяющий пользователям – лицам, принимающим решения, не вникая в структуру данных, из которых состоит ХД, оперировать профессиональными терминами из области образования для получения интересующих его закономерностей в данных. Он позволяет просто получать регламентированные отчеты (как в обычных учетных системах). Но, главное, семантический слой позволяет формулировать нерегламентированные запросы, обеспечивает вызов тех данных, которые позволят проверить гипотетическое управленческое решение. Главная задача семантического слоя – помочь извлечь данные необходимые для решения конкретной управленческой задачи. Общее время, которое необходимо затратить на создание полноценного ХД может составить до 2 лет. Примером того, данные по каким факторам можно собирать и организовывать в «Хранилище данных» является приведенная на рис. 2 причинно-следственная диаграмма. На ней приведены факторы, оказывающие в той или иной степени влияние на абстрактный показатель качества образования в вузе. При построении данной диаграммы (ее надо рассматривать только как пример) основой выбора факторов, влияющих на показатель качества, был опыт работы авторов в вузе. 3 Рис. 2. Факторы, оказывающие в той или иной степени влияние на абстрактный показатель качества образования в ВУЗе В целом среди факторов, которые могут быть включены в рассмотрение и которые могут оказывать влияние на показатели качества образования можно отметить следующие: - потребность (федеральная, региональная, личностная) в специалистах и образовании; - уровень связи с потребителями специалистов; - ресурсы вуза (материальные, технические, технологические, финансовые, интеллектуальные); - бюджетное финансирование; - внебюджетное финансирование; 4 - степень внедрения информационно-телекоммуникационных технологий; - международное сотрудничество; - уровень требований при конкурсном отборе абитуриентов, качество отбора; - качество итоговой аттестации выпускников; - организация самостоятельной работы студентов; - ориентация учебно-научного процесса на практическую деятельность; - стипендия, меры материального поощрения; - степень участие преподавателей в НИР; - подготовка научно-педагогических кадров (аспирантура, докторантура); - кадровое обеспечение образовательного процесса в целом; - заработная плата преподавателей; - заработная плата учебно-вспомогательного персонала и сотрудников - нагрузка преподавателей; В качестве критериев качества образования в целом и отдельных аспектов могут быть использованы такие показатели, как: - российский рейтинг образовательного учреждения; - степень признания образовательного учреждения зарубежными вузами; - уровень участия в международных образовательных научных программах; - количество иностранных студентов; - количество лекций прочитанных преподавателями образовательного учреждения за рубежом; - экспертные оценки итоговых аттестаций и содержания выпускных квалификационных работ; - количество выпускников, состоящих на учете в региональной службе центра занятости, степень востребованности выпускников; - оценки потребителей; - уровень профессионального продвижения выпускников; 5 - закономерность изменения оценок успеваемости студентов за весь период обучения. 3.3 Сбор данных Источниками данных могут быть базы данных учетных систем вуза, если они есть, или просто данные учетных систем; данные, которые непосредственно или косвенно касаются участников образовательного процесса вуза, но которые отсутствуют в учетных системах и которые требуется и можно получить с помощью развернутых анкет-интервью участников образовательного процесса; внешние по отношению к вузу, но существенные данные (макроэкономические показатели региона вуза, конкурентная среда, демографические и иные статистические данные), которые можно взять из внешних источников. Поход должен быть здесь следующий. Чем больше будет данных для анализа, тем лучше; ненужные проще отбросить на следующих этапах, чем собирать новые сведения для возникшей конкретной задачи управления. Методология сбора данных - С другой стороны сбор данных не является самоцелью. Если информацию получить легко, то, естественно, нужно ее собрать. Если данные получить сложно, то необходимо соизмерить затраты на ее сбор и систематизацию с ожидаемыми результатами анализа и управления. Этот вопрос решают эксперты вместе с аналитиком, знающим современные методы анализа и моделирования данных, оценивая легкость сбора, нужность данных, задачи стоящие перед СППР. 3.4 Анализ, моделирование, прогнозирование, выработка управленческих решений Это – главные задачи СППР. Их предполагается решать с помощью Knowledge Discovery in Databases (KDD) [4]. KDD – это процесс 6 преобразования данных в знания. KDD включает в себя вопросы предобработки и подготовки данных, применения методов Data Mining (DM) [4], интерпретации выявленных закономерностей экспертом (лицом принимающим решения). DM – это совокупность технологий (средств) обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности [4]. DM включает в себя такие методы, как: искусственные нейронные сети, самоорганизущиеся карты Кохонена, деревья решений, алгоритмы кластеризации, установление ассоциативных правил и др. 3.5 Технологии предобработки и подготовки данных для анализа К этим технологиям относятся методы очистки данных (редактирование аномальных данных, выявление дубликатов и противоречий в данных, заполнение пропусков, очистка от шумов, сглаживание, фильтрация), средства трансформации данных в вид необходимый для конкретного метода анализа, алгоритмы понижения размерности данных, формализация данных, нормализация типов данных: числовых, строковых, дата/время и логических. 3.6 Data Mining: методы анализа, моделирования данных и прогнозирования Задачи, которые можно решать методами Data Mining следующие: Классификация – отнесение объектов (наблюдений, событий) к одному из заранее известных классов. Регрессия, в том числе задачи прогнозирования - установление зависимости выходных параметров (целевых функций) от входных переменных (факторов). 7 Кластеризация – группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность этих объектов. Объекты внутри кластера "похожи" друг на друга и отличаются от объектов, вошедших в другие кластеры. Ассоциация – выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Последовательные шаблоны – установление закономерностей между связанными во времени событиями, т.е. обнаружение зависимости, что если произойдет событие X, то спустя заданное время произойдет событие Y. Анализ отклонений – выявление наиболее нехарактерных шаблонов. Проблемы анализа, моделирования и управления вузом формулируются похожим образом и решение большинства из них сводится к той или иной задаче Data Mining или к их комбинации. 3.7 План работы В общий план работы входят: - сбор с помощью учетных информационных систем и Web-технологий экспериментальных данных участников образовательного процесса (абитуриенты, студенты, преподаватели, административно-управленческий аппарат, учебно-впомогательный персонал, выпускники прошлых лет, потребители и заказчики выпускников, родители), - сбор официальных статистических данных об участниках образовательного процесса и образовательном процессе в целом, - формирование хранилища данных, - разработка методологии анализа и моделирования собранных данных с помощью средств Data Mining, 8 - создание с помощью средств Data Mining качественных и количественных, в том числе вычислительных, моделей элементов и процессов системы образования, - создание системы поддержки принятия решений и управления высшим профессиональным образованием в виде базы знаний (совокупности фактической информации о системе образования вуза в виде постоянно обновляющегося хранилища данных; моделей данных, содержащих в себе все связи между всеми переменными системы образования вуза, и позволяющих визуализировать эти связи, вычислять значения целевых функций, решая при этом как прямые задачи, так и обратные, прогнозировать изменение состояния системы образования вуза при различных вариантах управляющих решений). - выработка вариантов управленческих решений в области высшего профессионального образования в различных реальных ситуациях и их верификация. 9 Глава 4. Методика и примеры применения методов интеллектуального анализа данных при моделировании социально-экономических систем 4.1. Анализ семейных отношений Начало работы: 1. Выбираем директорию, где находится аналитическая платформа. 2. Запуск дедуктора: Дедуктор\Bin\DStudio наводим курсор на исполняемую программу и нажимаем Enter. 3. Импорт базы данных: 4. На панели инструментов вызываем Мастер импорта. 5. Выбираем формат наших данных, например, MS Excel и наживаем кнопку Далее. 6. Выбираем базу данных для анализа в разделе База данных (лучше заранее ее поместить в директорию Bin), указываем таблицу в базе данных (лист, если речь идет о таблице MS Excel) в разделе Таблица в базе данных. 7. Запускаем процесс импорта, нажав кнопку Пуск 8. После исполнения команды Пуск можно указать два параметра столбцов: вид данных и назначение. Но это можно сделать и при выполнении обработки. 9. Выбираем способ отображения, например, Таблица. 1 Нажимаем кнопку Далее и получаем импортированную в Дедуктор таблицу. Готово. 1. Очистка данных Если анализируемые данные не соответствуют определенным критериям качества, то их предварительная обработка становится необходимым шагом для обеспечения удовлетворительного результата анализа. 1.1. Парциальная обработка В процессе парциальной обработки восстанавливаются пропущенные данные, редактируются аномальные значения, проводится спектральная обработка. В Deductor Studio при этом используются алгоритмы, в которых каждое поле анализируемого набора обрабатывается независимо от остальных полей, то есть данные обрабатываются по частям. По этой причине такая предобработка получила название парциальной. В числе процедур предобработки данных, реализованных в Deductor Studio, входят сглаживание, удаление шумов, редактирование аномальных значений, заполнение пропусков в рядах данных. Процесс обработки: 1. таблица с аномальными данными: 10. 2. открываем мастер обработки и выбираем парциальную обработку: 2 3. выбор операции восстановления пропущенных данных: 4. выбор степени подавления: 3 5. сглаживание данных возможно с помощью вейвлет-преобразования и вычитания шума: 6. полученная таблица: 1.2. Факторный анализ 4 Цель факторного анализа заключается в понижении размерности пространства факторов. Понижение размерности необходимо в случаях, когда входные факторы коррелированы друг с другом, т.е. взаимозависимы. В факторном анализе речь идет о выделении из множества измеряемых характеристик объекта новых факторов, более адекватно отражающих свойства объекта. Факторный анализ - метод многомерного статистического анализа, позволяющий на основе экспериментального наблюдения признаков объекта выделить группу переменных, определяющих корреляционную взаимосвязь между признаками. Например, при проведении элементного анализа предельных углеводородов можно отдельно измерять массовую долю углерода и массовую долю водорода - два признака. Однако, эти признаки не являются независимыми (коррелируют между собой) и оба определяются длиной углеродной цепи. В этом и состоит суть факторного анализа - на основе исследования корреляционных взаимосвязей признаков находить причины, определяющие эти взаимосвязи. Поле может быть использовано в факторном анализе, если выполнено несколько условий: - оно имеет числовой тип данных - в нем не содержатся пропуски - стандартное отклонение столбца не равно нулю, то есть в столбце содержатся различные значения. В противном случае, поле будет автоматически помечено как непригодное. Для понижения размерности пространства факторов необходимо наличие хотя бы двух входных полей. 1. Импортируем оцифрованную таблицу 3-new1(101)-оцифр Вводим входные характеристики: полных лет ей на момент заключения брака, полных лет ему на момент заключения брака, беременность до брака, количество детей и № брака. Вводим выходные характеристики: продолжительность брака. Далее выбираем способы отображения – таблица \ далее. Готово 5 2. Выбираем мастер обработки \ факторный анализ \ далее Пуск \ далее Задаем порог значимости, например, 70% \ далее Выбираем способы отображения: таблица, диаграмма, гистограмма \ далее Готово С помощью факторного анализа сократилось число переменных, т.е. он исключил факторы, которые дедуктор посчитал ненужными, т.к. они были ниже порогового значения. Первым этапом факторного анализа является выбор новых признаков, которые являются линейными комбинациями прежних и "вбирают" в себя большую часть общей изменчивости входных факторов. Поэтому они содержат большую часть информации, заключенной в первоначальных данных. В обработчике "Факторный анализ" это осуществляется с помощью метода главных компонент. Этот метод сводится к выбору новой ортогональной системы координат в пространстве наблюдений. В качестве первой главной компоненты избирают направление, вдоль которого массив данных имеет наибольший разброс. Выбор каждой последующей главной компоненты происходит так, чтобы разброс данных вдоль нее был максимальным и чтобы эта главная компонента была ортогональна другим главным компонентам, выбранным прежде. В качестве недостатков этого метода можно перечислить следующие: Нет однозначного подхода к определению числа значимых переменных. Экспериментальные данные, как правило, содержат случайную ошибку, что вызывает появление дополнительных факторов, которые по сути бесполезны и описывают погрешность эксперимента. Существует множество способов отделения значимых переменных от незначимых, однако в каждом конкретном случае требуется индивидуальный подход. Сложность интерпретации переменных - преобразование можно провести бесконечным множеством способов, при этом выяснить физическую суть каждой новой переменной довольно сложно, а часто и невозможно. Так, 6 например, если применить факторное преобразование к спектру смеси красителей, то каждая новая переменная, скорее всего, будет представлять собой не сами концентрации индивидуальных красителей, а некую линейную комбинацию концентраций. Выбор главных компонент в процессе факторного анализа может осуществляться полуавтоматически: пользователь задает уровень значимости, который в сумме должны давать главные компоненты. В результирующем наборе остаются главные компоненты, расположенные в порядке убывания, суммарный вклад которых не менее заданного пользователем уровня. Факторный анализ широко используется: в очень большом исходном наборе данных есть много полей, некоторые из которых взаимозависимы. На этом наборе данных требуется обучить нейронную сеть. Для того, чтобы снизить время, требуемое на обучение сети, и требования к объему обучающей выборки, с помощью факторного анализа осуществляют переход в новое пространство факторов меньшей размерности. Т.к. большая часть информативности исходных данных сохраняется в выбранных главных компонентах, то качество модели ухудшается незначительно, зато на много сокращается время обучения сети. 1.3. Корреляционный анализ Корреляционный анализ применяется для оценки зависимости выходных полей данных от входных факторов и устранения незначащих факторов. Принцип корреляционного анализа состоит в поиске таких значений, которые в наименьшей степени коррелированы (взаимосвязаны) с выходным результатом. Такие факторы могут быть исключены из результирующего набора данных практически без потери полезной информации. Критерием принятия решения об исключении является порог значимости. Если корреляция (степень взаимозависимости) между входным и выходным факторами меньше порога значимости, то соответствующий фактор отбрасывается как незначащий. Корреляция может быть положительной и отрицательной (возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин). Отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция — корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции положителен. Поле может быть использовано в корреляционном анализе, если выполнено несколько условий: 1. Применение возможно в случае наличия достаточного количества случаев для изучения: для конкретного вида коэффициента корреляции составляет от 25 до 100 пар наблюдений. 2. Второе ограничение вытекает из гипотезы корреляционного анализа, в которую заложена линейная зависимость переменных. Во многих 7 случаях, когда достоверно известно, что зависимость существует, корреляционный анализ может не дать результатов просто ввиду того, что зависимость не линейна (выражена, например, в виде параболы). 3. Сам по себе факт корреляционной зависимости не даёт основания утверждать, какая из переменных предшествует или является причиной изменений, или что переменные вообще причинно связаны между собой, например, ввиду действия третьего фактора. 4. поле имеет числовой тип данных, в нем не содержатся пропуски и стандартное отклонение столбца не равно нулю, то есть в столбце содержатся различные значения. В противном случае, поле будет автоматически помечено как непригодное. Исключение незначащих факторов производится на основании рассчитанной корреляции. Возможны два варианта принятия решения, определяемых выбором соответствующего пункта в нижней части окна: При ручном выборе незначащих факторов нужно отметить галочками те столбцы, которые будут включены в выходной набор, и снять пометки напротив тех столбцов, которые надо исключить из набора. В автоматическом режиме становится активной полоса "Порог значимости". Передвигая по ней ползунок, можно задать необходимый уровень значимости. Столбцы, у которых максимальное из рассчитанных значений корреляции меньше порога, будут исключены из выходного набора. Рекомендуемые значения порога значимости выделены синим цветом. В выходной набор попадут информационные поля, столбцы, отмеченные на этом шаге, и все выходные столбцы. Для устранения незначащих факторов необходимо наличие хотя бы двух входных полей и хотя бы одного выходного поля. Если выделить в списке непрерывное (числовое) поле, для него будет отображен набор основных статистических характеристик в секции "Статистика" - минимальное, максимально и среднее значения, а также стандартное отклонение. Если выделенное поле является дискретным, т.е. принимающим конечное число значений, для него в секции "Уникальных значений" будет указано количество уникальных значений в данном поле, а также список самих уникальных значений. Порядок выполнения работы: Используется оцифрованная таблица со статистикой 101 разведенной пары. 1) Запускаем дедуктор, выбираем таблицу «семья.оцифр», в ней содержится 14 столбцов: «продолжительность брака», «беременность до брака», «полных лет ей на момент брака», «полных лет ему на момент брака», «№ брака», «наличие братьев, сестер у нее», «алкоголизм», «насилие», «количество детей», «ее тип семьи», «отношения в семье у нее», «наличие братьев, сестер у него», «отношения в семье у него». 8 2) Запускаем мастер обработки. 3) Выбираем корреляционный анализ; 4) Обозначаем входные и выходные параметры (в данной таблице выходной параметр количество детей). 5) Нажимаем «далее», затем «пуск», на этом этапе рассчитываются коэффициенты корреляции, выбираем порог значимости (0,27) и дедуктор исключает все столбцы, где коэффициент ниже порогового значения. Из данной таблицы были исключены столбцы «беременность до брака», «полных лет ей на момент брака», «полных лет ему на момент брака», «№ брака», «наличие братьев, сестер у нее», «алкоголизм», «насилие». 6) Выбираем способ отображения данных (матрица корреляции, таблица); 9 7) Нажимаем «готово». Матрица корреляции выглядит так: Можно сделать вывод, что больше всего с выходным значением коррелирует фактор «продолжительность брака» - коэф.=0,473. Коэффициент положителен, т.е. чем больше продолжительность брака, тем больше детей с семье. Самый меньший коэффициент =-0,201(алкоголизм). 1.4. Дубликаты и противоречия Обнаружение Дубликатов и противоречий В процессе анализа иногда возникает проблема выявления дубликатов и противоречий в данных. В Deductor Studio для автоматизации этого процесса есть соответствующий инструмент «Дубликаты и противоречия». Дубликаты-записи в таблице, все входные и выходные поля которых одинаковые. Противоречия-записи в таблице, у которых все выходные поля одинаковые, но отличаются хотя бы по одному выходному полю. 1. Импортируем таблицу в Deductor и задаем входные и выходные поля. 10 2. Затем используем инструмент «Дубликаты и противоречия. При использовании обработчика «Дубликаты и противоречия» возможно отображение результатов обработки с помощью одноименного визуализатора. 1.5. Фильтрация Обработка данных с помощью операции Фильтрация. С помощью операции фильтрации можно оставить в таблице только те записи, которые удовлетворяют заданным условиям, а остальные удалить (Руководство по использованию дедуктора вызывается клавишей F1). Пример. Нам дана таблица семья. Нужно выделить в этой таблице строки в которых и муж и жена в момент заключения брака не достигли 20 лет. Проанализировать полученную таблицу. Выполняем фильтрацию: Вызываем Мастер обработки. Выбираем Фильтрация. 11 Водим условия входных данных: полных лет ей на момент заключения <20 и полных лет ему на момент заключения брака<20. Запускаем фильтрацию – Пуск. Способы отображения выберем Таблица и Статистика. Готово. Таблица до обработки в Дедукторе: 12 Таблица после обработки: Получили нужную таблицу. В ней только пары, которым в момент заключения брака нет 20 лет. В нашей базе данных таких пар 4. Это 3.8% всех опрошенных пар. 2. Трансформация данных. 2.1. Квантование. Квантование это процесс, в результате которого происходит распределение значений непрерывных данных по конечному числу интервалов заданной длины. Рассмотрим его применение на примере таблицы 3-new1(101).xls Выбор полей и настройка параметров квантования Для задания параметров квантования, нужно в списке полей выделить поле, данные в котором необходимо подвергнуть квантованию (настройка параметров квантования производится отдельно для каждого поля). При этом в правой части окна отобразятся свойства данного поля: Используемое - включает данное поле в число полей, выбранных для квантования. Если поле уже помечено как непригодное, то выбрать данный пункт нельзя. 13 Информационное - поле, помеченное как информационное, не будет использовано при обработке, но будет включено в результирующий набор без изменений. Неиспользуемое - запрещает использование поля. В отличие от непригодного поля, такие поля в принципе могут использоваться, просто это нецелесообразно. Непригодное - для данного поля не может быть выполнено квантование, например, если данные в этом поле - это строковые данные. Это поле будет вставлено в результирующую выборку в неизменном виде. Поле может быть использовано для квантования значений, если выполнены условия: Тип поля числовой (целый или вещественный). Стандартное отклонение столбца не равно нулю, то есть поле содержит различные значения. В качестве поля для квантования будем использовать поля »полных лет ему на момент заключения брака» Далее выбираем Способ - выбирается из списка способ квантования. Доступны два способа - по интервалам и по квантилям. При интервальном способе диапазон исходных значений разбивается на равные интервалы. При квантильном интервалы выбираются таким образом, чтобы в каждый из них попадало одинаковое количество значений. Интервалов - указывается количество интервалов, на которое будет разбит диапазон исходных данных. Значение: Номер интервала, Нижняя граница, Верхняя граница, Середина интервала, Метка интервала. Выберем интервальный способ квантования, количество интервалов 4, в качестве значения выберем середину интервала. Настройка границ и меток интервалов квантования. Данный шаг мастера позволяет вручную настроить границы и метки интервалов. На этом шаге в списке "Столбцы" будут отображены все поля исходной выборки, для которых выполняется операция квантования. Запуск процесса обработки. На данном шаге запускается собственно процесс квантования данных с ранее настроенными параметрами. На данном шаге пользователь должен выбрать, в каком виде будут отображены результаты обработки данных. Для этого достаточно пометить нужные виды отображения флажками и щелкнуть по кнопке "Далее". Для выборки данных, полученных в результате квантования, доступны следующие виды отображения: таблица, статистика, диаграмма, гистограмма, куб, сведения. Выберем отображение таблица. 2.2. Замена данных. В результате выполнения этой операции производится замена значений по таблице подстановки, которая содержит пары, состоящие из исходного 14 значения и выходного значения. Например, 0 – «красный», 1 – «зеленый», 2 – «синий». Или «зима» – «январь», «весна» – «апрель», «лето» – «июль», «осень» - «октябрь». Для каждого значения исходного набора данных ищется соответствие среди исходных значений таблицы подстановки. Если соответствие найдено, то значение меняется на соответствующее выходное значение из таблицы подстановки. Если значение не найдено в таблице, оно может быть либо заменено значением, указанным для замены «по умолчанию», либо оставлено без изменений (если такое значение не указано). Кроме того, можно указать значения, которые нужно вставить вместо пустых ячеек. В нашем случае, мы используем замену данных, как правило, для оцифровывания таблицы. Выбираем мастер обработки –> Замена данных: Далее выбираем столбец, где будем заменять (оцифровывать) данные, например, ее тип семьи. 15 Выбираем список значений –> отмечаем все значения галочками –>Оk. Заменяем значения на цифры -> далее. Заменив все нечисловые данные на цифры, мы получаем оцифрованную таблицу: 16 3. DataMining. 3.1. Логистическая регрессия. С помощью логистической регрессии можно оценивать вероятность того, что событие наступит для конкретного испытуемого (больной/здоровый, возврат кредита/дефолт и т.д.). Логистическая регрессия описывается уравнением P=a1*x1+a2*x2+...+an*xn + a0, P=1/(1+exp(-y)) - логистическая функция. Статус непригодного поля устанавливается только автоматически и в дальнейшем может быть изменен только на неиспользуемое или информационное. Поле будет запрещено к использованию если: поле является дискретным и содержит всего одно уникальное значение непрерывное поле с нулевой дисперсией поле содержит пропущенные значения 1. \ИНС-лекции\Дедуктор5-1\Bin DStudio Ок Выбираем мастер импорта \ MS Excel \ далее 3-new1(101)-дерево \ далее \ пуск \ далее Вводим входные характеристики: полных лет ей на момент заключения брака, полных лет ему на момент заключения брака, беременность до брака, количество детей и № брака. Вводим выходные характеристики: продолжительность брака Далее Выбираем способы отображения – таблица \ далее Готово. 17 2. Выбираем мастер обработки \ логистическая регрессия \ далее Пуск \ далее Выбираем обучающее – 95%, тестовое – 5% \ далее Настраиваем параметры остановки обучения \ далее \ пуск \ далее Определяем способы отображения \ Data Mining \ далее Готово. Оценить качество логистической регрессии как классификатора можно на основе таблицы сопряженности. По умолчанию порог отсечения равен 0.5. 18 В этой таблице сопряженности зафиксировано 8 случаев ложного обнаружения ( прод. брака больше 10, хотя по факту меньше) и 21 случая ложного пропуска. Доля верно классифицированных случаев составила чуть более 55%.. Это не самый высокий показатель, и его, скорее всего, можно улучшить, подобрав оптимальную пороговую точку. Это позволяет сделать ROC–анализ. ROC–анализ позволяет провести оценку качества модели-классификатора, сравнить прогностическую силу нескольких моделей, определить оптимальную точку отсечения для отнесения объектов к тому или иному классу. ROC-кривая показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров. С помощью логистической регрессии мы получили отклонение от линейной зависимости. Получили отклонение классических значений от фактических. Чувствительность (Sensitivity) – это и есть доля истинно положительных случаев: Специфичность (Specificity) – доля истинно отрицательных случаев, которые были правильно идентифицированы моделью: Результатом работы обработчика "Логистическая регрессия" является выходной набор, в котором появляются два новых поля: <Название_выходного_поля>_Score - рассчитанное значение вероятности появления события, или так называемый рейтинг примера. <Название_выходного_поля>_Out - классифицированное значение на основе рейтинга и порога отсечения. Логистическая регрессия на выходе рассчитывает значение рейтинга, которое можно трактовать как вероятность того, что событие наступит для конкретного испытуемого. Поэтому часто желательно указать, вероятность 19 какого именно (из двух вариантов выходного поля) события будет оцениваться, чтобы оно кодировалось истиной. Например, если мы прогнозируем вероятность наступления заболевания, имея два значения выходного поля ("больной", "здоровый"), то истинным случаем здесь будет "больной". Наоборот, если мы хотим оценивать вероятность того, что человек здоров, истиной будет "здоровый". 3.2. Нейросеть. В этом режиме Мастер обработки Дедуктора позволяет сконструировать нейронную сеть с заданной структурой, определить ее параметры и обучить с помощью одного из доступных в системе алгоритмов обучения. В результате будет получен эмулятор нейронной сети, который может быть использован для решения задач прогнозирования, классификации, поиска скрытых закономерностей, сжатия данных и многих других приложений. Перед тем как использовать нейросеть, нужно обучить ее. Задача обучения равносильно аппроксимации функции (восстановление функции по отдельным ее точкам). Для обучения нужно подготовить таблицу – задать входные и выходные параметры, то есть подготовить обучающую выборку. По такой таблице нейросеть сама находит зависимости выходных полей от входных. Далее эти зависимости можно использовать, подавая на вход нейросети некоторые значения (даже те, на которых нейросеть не обучалась) Настройка назначения полей. Задаются входные и выходные поля. Обычно для подготовки обучающей выборки используются методы очистки и трансформации данных – редактируются аномалии, заполняются или удаляются пропуски, устраняются дубликаты и противоречия, производится квантование и табличная замена, преобразуется формат данных. Нормализация значения полей. Цель-преобразование данных к виду наиболее подходящему для обработки алгоритмом. Для нейросети доступны следующие способы нормализации полей: Линейная нормализация. Для непрерывных числовых полей. Позволяет привести числа к диапазону [min…max] Уникальные значения. Для дискретных значений. Такими являются строки, числа и даты, заданные дискретно. Чтобы привести непрерывные числа к дискретному виду можно воспользоваться обработкой «квантование». Битовая маска. (дискр.) Все значения заменяются порядковыми номерами, а номер рассматривается в двоичном виде или в виде двоичной маски из нулей и единиц. Настройка обучающей выборки. Обучающую выборку разбивают на два множества - обучающее и тестовое (разбивается либо по порядку либо случайно). Тестовое множество используется для проверки результатов обучения. Настройка структуры нейросети. 20 Задаются количество скрытых слоев и нейронов в них, а также активационная функция нейронов. (причем слишком большое количество нейронов может привести к переобучению сети, когда она выдает хорошие результаты на примерах, входящих в обучающую выборку, но практически не работает на других примерах. В секции "Активационная функция" необходимо определить тип функции активации нейронов и ее крутизну. Для этого в списке "Тип функции" следует выбрать нужную функцию активации, а в поле "Крутизна" - задать ее крутизну (также крутизну можно задать с помощью ползунка, расположенного ниже). В нижней части окна отображается график выбранной функции в соответствии с установленной крутизной. Замечание: К выбору количества скрытых слоев и количества нейронов для каждого скрытого слоя нужно подходить осторожно. Хотя до сих пор не выработаны четкие критерии выбора, дать некоторые общие рекомендации все же возможно. Считается, что задачу любой сложности можно решить при помощи двухслойной нейросети, поэтому конфигурация с количеством скрытых слоев, превышающих 2, вряд ли оправдана. Для решения многих задач вполне подойдет однослойная нейронная сеть. При выборе количества нейронов следует руководствоваться следующим правилом: "количество связей между нейронами должно быть примерно на порядок меньше количества примеров в обучающем множестве". Количество связей рассчитывается как связь каждого нейрона со всеми нейронами соседних слоев, включая связи на входном и выходном слоях. Слишком большое количество нейронов может привести к так называемому "переобучению" сети, когда она выдает хорошие результаты на примерах, входящих в обучающую выборку, но практически не работает на других примерах. Обучение нейросети. Далее следует выбрать алгоритм обучения: Метод обратного распространения ошибки (минимизация среднеквадратичного отклонения текущих значений выходов от требуемых). Характеризуется высокой надежностью, но требует большое количество итераций. Требует указания двух параметров – это скорость обучения (величина шага при итерационной коррекции весов в нейросети, рекомендуемое значение от 0 до 1) и момент (задается от 0 до 1, рекомендуемо 0,9) Метод эластичного распространения (R-propagation). Так называемое обучение по эпохам, когда коррекция весов происходит после предъявления сети всех примеров из обучающей выборки. Обеспечивает большую скорость обучения за счет осуществления сходимости в методе. Для этого алгоритма указываются параметры: шаг спуска (коэффициент увеличения скорости обучения, который определяет шаг увеличения скорости обучении при недостижении алгоритмом оптимального результата) и шаг подъема (коэффициент уменьшения скорости обучения в случае пропуска оптимального результата) 21 Далее необходимо задать условия, при выполнении которых обучение будет прекращено: Считать пример распознанным, если ошибка меньше По достижении эпохи Обучающее множество Тестовое множество Теперь все готов к процессу обучения нейросети. В начале все веса инициализируются случайными значениями (после обучения эти веса принимают определенные значения). Обучение может с большей долей вероятности считаться успешным, если процент распознанных примеров на обучающем и тестовом множествах достаточно велик (близок к 100%). В качестве выходного параметра выбираем продолжительность брака. Все остальные параметры входные: 22 Выбираем один скрытый слой с 8 нейронами. 23 Ниже представлена структура самой нейросети (хорошо обученной) с одним скрытым слоем с 7 нейронами. 24 Обученную, таким образом, нейросеть можно использовать для выработки управляющих воздействий. Это можно сделать, применяя анализ «что-если». Для его включения нужно выбрать визуализатор «что-если»: Диаграмма рассеяния (для анализа обученности нейросети): 25 Если же при обучении нейросети не руководствоваться правилами выбора количества скрытых слоев и нейронов в нем, то нейросеть в данном случае может привести к так называемому «переобучению» или же нейросеть просто не обучится. В этом случае выдаваемые результаты из обученной нейросети не будут являться правдивыми. 3.3. Дерево решений. Деревья решений (decision trees) являются одним из самых мощных средств решения задачи отнесения какого-либо объекта (строчки набора данных) к одному из заранее известных классов. Дерево решений – это классификатор полученный из обучающего множества, содержащего объекты и их характеристики, на основе обучения. Дерево состоит из узлов и 26 листьев, указывающих на класс. (Руководство по использованию дедуктора вызывается клавишей F1). Исходную таблицу меняем, так как выходной параметр должен быть дискретным. В нашем случае мы поменяли значения столбца продолжительность брака на такие значения: меньше 2, от 2 до 5, от 5 до 10, от 10 до 15, больше 15. Выполняем обработку операцией Дерево решений: Вызываем Мастер обработки. Выбираем Дерево решений. Задаем назначения столбцов данных. Выходным значением сделаем продолжительность брака, входными – полных лет ей и ему на момент заключения брак, добрачная беременность, количество детей, номер брака. Исходное множество данных разбиваем на 95% обучающегося множества и 5% тестовое. 27 Указывается значения параметров обучения дерева решений: минимальное количество примеров в узле, при котором будет создан новый 2; уровень доверия 20%. Запускаем процесс построения дерева решений, нажав кнопку Пуск. Способы отображения данных выберем все подпункты пункта Data Mining 28 Готово. Мы получили дерево решений, построенного из 18 правил, эти правила, значимость каждого атрибута: 29 Примеры некоторых результатов полученных при исследовании семейных отношений, иллюстрирующих возможности DM, представлены на рис. 3-7: метод корреляционного анализа (рис. 3), метод дерева решений (рис. 4), метод искусственных нейронных сетей (рис. 5 и 6), самоорганизующиеся карты Кохонена (рис. 7). Комментарии приведены под рисунками. Ряд иллюстраций, показывающих полученные при анализе семейных отношений результаты, приведены также в Приложении к данной главе. 30 Рис. 3. Корреляционный анализ. Метод корреляции чаще применяется для исключения незначимых факторов со степенью корреляции меньшей 0,300. Анализ результатов показывает, что для «первых браков» (когда у обоих супругов брак – первый) большую корреляцию с ПБ имеет факторы «на каком году брака возник 2 кризис», «число старших сестер у жены», «материальное благосостояние семьи перед разводом». Незначимым можно считать фактор: «венчались ли дополнительно в церкви»; остальные факторы можно считать значимыми в некоторой степени. Это еще раз подтверждает, что на семейные отношения влияют многие факторы и их надо учитывать при построении моделей семейных отношений. 31 Рис. 4. Экран модели семейных отношений (дерево решений) Выходным параметром была ПБ. Показано, как метод дерева решений позволяет выработать «правила», которые определяют, при каких условиях ПБ будет меньше 10 лет, а при каких – больше 10 (число лет – границу «правил» можно задавать до анализа). Рис. 5. Экран модели семейных отношений (искусственные нейронные сети). Зависимость ПБ от номера брака у жениха (него) и невесты (нее) 32 Рис. 6. Экран модели семейных отношений (искусственные нейронные сети). Зависимость продолжительности брака от наличия насилия в семье. Внизу рис. 6 указан график зависимости ПБ (для конкретной данной семьи) от наличия насилия в семье. Видно, что наличие или отсутствие насилия заметно влияет на продолжительность данного брака. Подобные графики могут быть получены и для других параметров, от которых зависит продолжительность брака (см. Приложение к главе). Рис. 7. Экран модели семейных отношений (графическое отображение результатов кластеризации с помощью самоорганизующихся карт Кохонена). 33 Особенностью самоорганизующихся карт Кохонена является возможность в общей системе данных найти подсистемы (кластеры), а затем уже выявлять существующие закономерности по отдельным кластерам. Рис. 7 содержит в себе девять частей (диаграмм). В нижнем ряду первые две диаграммы слева наглядно показывают, что СКК разделили все семьи на два основных кластера: семьи, где у одного из супругов (в нашей базе данных – у мужа) была алкогольная зависимость, и семьи, где ее не было. Эти два кластера семей, соответственно, синий и красный, описываются разными закономерностями. Анализ полученных результатов показывает, что средства DM при исследовании социальных явлений позволяют получать принципиально новые результаты при выявлении многофакторных зависимостей. Они позволяют построить вычислительные модели семейных отношений. Эти модели дают возможность не только определять (прогнозировать) продолжительность брака для людей, вступающих в брак, и для людей, живущих в настоящее время в браке, но и вырабатывать рекомендации (управленческие решения) для увеличения продолжительности брака. Приложение к главе Примеры применения. График зависимости ПБ от возраста невесты (для данного конкретного набора параметров супругов) 34 График зависимости ПБ от возраста жениха (для данного конкретного набора параметров супругов) График зависимости ПБ от материального благосостояния семьи перед разводом: 35 График зависимости ПБ от количества детей на момент развода: График зависимости ПБ от номера брака: 36 График зависимости ПБ от наличия жилья у семьи: Семья жила в общежитии. ПБ = 7 лет. По графику видно, что наибольшая ПБ была бы при наличии собственной квартиры. График зависимости ПБ от доверия мужа жене: 37 График зависимости ПБ от степени ревнивости мужа: График зависимости ПБ от знака Зодиака жены (муж - телец): 38 График зависимости ПБ от знака Зодиака мужа (жена - рак): График зависимости ПБ от года рождения жены по китайскому календарю (муж - кролик): 39 График зависимости ПБ от года рождения мужа по китайскому календарю (жена - дракон): График зависимости ПБ от причины брака: 40 Глава 5. Результаты исследований и моделирования системы образования в вузе. За 2012 год сделано следующее. Разработаны структуры анкет-интервью для абитуриентов, студентов, магистрантов, аспирантов, преподавателей, выпускников прошлых лет. Создан сайт проекта, на котором размещены анкеты-интервью (http://mfi.chuvsu.ru/opros/). Анкеты интервью заполняются в режиме он-лайн и содержат около 100 вопросов по процессу образования в целом, качеству процесса образования, развитию системы образования. В настоящее время собрано более 200 анкет (20 000 ответов участников опроса по различным аспектам системы образования в целом и организации процесса обучения в вузе). Проведен анализ анкет и получены первые результаты. 3.1 Сайт проекта и структура анкет-интервью Ниже приведена первая страница сайта и 6 типов анкет. Первая страница сайта. «Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Чувашский государственный университет имени И.Н. Ульянова» Проект «Применение методов интеллектуального анализа данных для повышения эффективности управления системой высшего профессионального образования» Use of Data Mining for Improved Management of Education System 41 (научный руководитель – доктор физ.-мат. наук, профессор Абруков В.С., факультет прикладной математики, физики и информационных технологий, кафедра теплофизики) [email protected] Уважаемые студенты 1-5 курсов, магистранты, аспиранты, выпускники, будущие абитуриенты, преподаватели факультета! Факультет ПриМаФИТ начинает создание интеллектуальной системы поддержки принятия решений (СППР) и управления вузом (О СППР - см. Википедию - http://ru.wikipedia.org/wiki/СППР ). В основе создаваемой интеллектуальной СППР – средства DataMining и искусственные нейронные сети (о них см. на сайте http://www.chuvsu.ru/2008/proekt.html а также в Википедии) Эта работа является первой в этом направлении в России. Анкета, которую мы Вас просим заполнить является первым шагом на пути создания интеллектуальной СППР и ваше участие и помощь являются очень важными. Просим отнестись к заполнению анкеты внимательно! Наберитесь мужества! Студентов ждет около 100 вопросов (для других категорий может быть меньше, в частности, для абитуриентов). Для преподавателей всего - 12 вопросов. Уважаемые студенты! Перед заполнением анкеты обязательно приготовьте зачетную книжку. Ее надо будет использовать. Для студентов 1-го курса: вы знаете, что с 2011 года прием на факультет осуществляется по трем специальностям. Для студентов 2-го и последующего курсов: до 2011 года прием на факультет осуществлялся на две специальности – математика и физика. В последнем пункте анкеты укажите вашу электронную почту, а также ваши замечания и предложения по содержанию анкеты, предложите новые пункты анкеты, выразите свое мнение о перспективности создания СППР Уважаемые магистранты и аспиранты! 42 Вы можете заполнять не все пункты анкеты, но постарайтесь заполнить максимально возможное число пунктов анкеты, по которым можете дать ответ. В последнем пункте анкеты укажите замечания и предложения по содержанию анкеты, предложите новые пункты анкеты, выразите свое мнение о перспективности создания СППР Уважаемые выпускники прошлых лет! Вы можете заполнять не все пункты анкеты, но постарайтесь заполнить максимально возможное число пунктов анкеты, по которым можете дать ответ. В последнем пункте анкеты укажите вашу электронную почту, а также замечания и предложения по содержанию анкеты, предложите новые пункты анкеты, выразите свое мнение о перспективности создания СППР Уважаемые абитуриенты! Вы можете заполнять не все пункты анкеты, но постарайтесь заполнить максимально возможное число пунктов анкеты, по которым можете дать ответ, пусть даже, в будущем времени. В последнем пункте анкеты укажите вашу электронную почту, а также замечания и предложения по содержанию анкеты, предложите новые пункты анкеты, выразите свое мнение о перспективности создания СППР Уважаемые преподаватели! Вам пока предлагается заполнить ответы только на несколько вопросов. Поэтому в последнем пункте анкеты обязательно укажите замечания и предложения по содержанию анкеты, предложите новые пункты анкеты, выразите свое мнение о перспективности создания СППР Внимание! 1 раз в месяц на нашем сайте будет публиковаться статистика результатов опроса и их анализ. Будет интересно! Методология, примеры и первые результаты анализа данных анкет-интервью приведены в учебном пособии "Применение методов интеллектуального анализа данных при моделировании социально-экономических систем" !!Если после заполнения и отправки анкеты прошло пол-года или год-два-три, Вы изменились и надо снова заполнить анкету ЗАПОЛНИТЕ СНОВА. ТОЛЬКО НЕ ЗАБУДЬТЕ В ПОСЛЕДНЕМ ПУНКТЕ АНКЕТЫ СООБЩИТЬ – «Заполняю анкету во второй 43 (третий) раз, номер зачетки ________, день рождения _______. Это ОЧЕНЬ нужно для обновления и актуализации данных! ????????? ?????? Вторая страница сайта. Выбор категории респондента. Анкета Кто Вы? - -?? ??????- Анкета для студентов. Анкета - студент общие сведения Пол ? ?? ???? Семейное положение ?????? (?? ??? ?? ?? ) Дата рождения она нужна для определения знака зодиака (формат: 11.01.1991) Возраст укажите полное число лет цифрами даже, если вы указали день рождения. Это нужно для облегчения обработки данных Курс 1 Номер зачетной книжки можете не указывать, но лучше указать Номер академической группы Укажите название специализации ?????? ????? За сколько дней до окончания приема подали заявление если не помните, укажите примерно За сколько дней до окончания приема в ЧувГУ подали оригинал аттестата если не помните, укажите примерно 44 Удаленность места проживания от 1-го корпуса ЧувГУ (до поступления), км примерно этот пункт нужен для выявления влияния удаленности ЧувГУ на решение учиться в нем и анализа географического распределения анкетируемых Удаленность места проживания от 1-го корпуса ЧувГУ (в настоящее время), км примерно этот пункт нужен для выявления влияния удаленности ЧувГУ на текущую успеваемость и анализа географического распределения анкетируемых Оцените по 5-ти бальной системе свои сегодняшние условия проживания 5 с точки зрения возможности заниматься учебой Оцените по 5-ти бальной системе свое сегодняшнее материальное положение 5 с точки зрения возможности заниматься учебой Оцените по 5-ти бальной системе сегодняшнюю помощь со стороны родителей 5 с точки зрения возможности заниматься учебой Любимые дисциплины в школе математика Используйте клавишу 'Ctrl' для множественного выбора Укажите перечень профильных предметов, которые вы изучали в школе математика Используйте клавишу 'Ctrl' для множественного выбора Номер (или название для сельской школы) школы, которую вы окончили Город или село, где находится школа Фамилия и имя отчество учителя по математике Фамилия и имя отчество учителя по физике 45 Занимались ли дополнительной подготовкой к поступлению в вуз ??? Город проживания до поступления Город проживания сейчас Район проживания в Чувашии до поступления Район проживания в Чувашии сейчас Район проживания в других регионах до поступления Район проживания в других регионах сейчас Баллы ЕГЭ по математике Баллы ЕГЭ по физике Баллы ЕГЭ по русскому языку Выполняли ли тестовые задания факультета Как впервые узнали о факультете По какой причине поступили на факультет ?? те, что рассылались по школам ????? ?????? ? ? сам принял решение Используйте клавишу 'Ctrl' для множественного выбора Для всех, кто поступил на факультет до 2012 года: Специальность на которую зачислен ?????????? ? ???? ????? ? ??? ??? ????? На каком основании ?? ??? ?? ? ???????? 46 зачислен Для тех, кто поступил на факультет в 2011 году: Первая специальность, на которую подавал заявление ?????????? ? ???? ????? ? ??? ??? ????? Вторая специальность, на которую подавал заявление ?????????? ? ???? ????? ? ??? ??? ????? Третья специальность, на которую подавал заявление ?????????? ? ???? ????? ? ??? ??? ????? На какой другой факультет помимо ПриМаФИТ подавал заявление Укажите, в каких семестрах вы получали стипендию (не разовую, а постоянную) и количество оценок 5, 4, 3 за экзамены (левая страница зачетки) по семестрам была ли количество количество количество стипендия? пятерок четверок троек 1-й семестр ?? 2-й семестр ?? 3-й семестр ?? 4-й семестр ?? 47 5-й семестр ?? 6-й семестр ?? 7-й семестр ?? 8-й семестр ?? 9-й семестр ?? 10-й семестр ?? Сколько дипломов, грамот за учебную или научную работы вы получили в годы обучения если не помните, укажите примерно Укажите те дисциплины, которые вам понравились посмотрите зачетку и напишите название дисциплины Укажите те дисциплины, которые вы считаете важными для будущей работы посмотрите зачетку и напишите название дисциплины Если бы посещение занятий было бы необязательным, а по вашему выбору, то какой примерно процент занятий по специальности вы бы посещали оцениваются только математические и физические дисциплины Как вы оценивали факультет до поступления (будучи абитуриентом) по 5-ти бальной системе 5 Укажите общую степень удовлетворенности своей учебой на факультете сейчас по 5-ти бальной системе 5 Оцените отдельно качество организации научно-исследовательской деятельности студентов по 5-ти бальной системе 5 Оцените отдельно качество организации учебной работы студентов по 5-ти бальной системе 5 Оцените отдельно качество материально-технического обеспечения образовательного процесса по 5-ти бальной системе 5 48 Оцените отдельно качество информационного и библиотечного обеспечения образовательного процесса по 5-ти бальной системе 5 Нужно ли создать ассоциацию выпускников ?? Готовы ли вы принять участие в создании ассоциации выпускников ?? Укажите на каких курсах вы совмещали учебу с оплачиваемой работой 0 – никогда не совмещал Хотите ли вы совмещать работу и учебу ?? Нашли ли уже работу ?? Используйте клавишу 'Ctrl' для множественного выбора Где и кем планируете работать после окончания вуза Планируете ли поступать в магистратуру ?? Планируете ли поступать в аспирантуру ?? Служили ли в армии до поступления в вуз ?? Планируете ли после окончания отслужить в вооруженных силах ?? Планируете ли создать свой бизнес ?? Какая месячная зарплата устроит вас после окончания вуза, в рублях Кем вы сейчас работаете Где вы сейчас работаете если место работы секрет, не указывайте 49 Как Вы считаете, какая должна быть месячная зарплата у преподавателей, в рублях Обычная нагрузка преподавателей – 700 … 900 часов. А Вы как считаете, какая должна быть нагрузка преподавателей за учебный год, в часах Что предлагаете изменить на факультете (чем вам может помочь факультет), в университете? Какие учебные дисциплины необходимо ввести в учебный план Что планируете делать после окончания вуза, где работать (развернутый ответ)? Напишите ваши замечания и предложения по содержанию анкеты. Предложите новые пункты анкеты. Выразите свое мнение о перспективности создания СППР. Оставьте свою электронную почту (если это не секрет) ? ???????? ?????? ?????? ??????? Анкета для магистрантов. Анкета - магистрант общие сведения Пол ? ?? ???? Семейное положение ?????? (?? ??? ?? ?? ) Дата рождения она нужна для определения знака зодиака (формат: 11.01.1991) Возраст укажите полное число лет цифрами даже, если 50 вы указали день рождения. Это нужно для облегчения обработки данных Курс 1 Номер зачетной книжки можете не указывать, но лучше указать Номер академической группы Укажите название специализации ?????? ????? За сколько дней до окончания приема подали заявление если не помните, укажите примерно За сколько дней до окончания приема в ЧувГУ подали оригинал аттестата если не помните, укажите примерно Удаленность места проживания от 1-го корпуса ЧувГУ (до поступления), км примерно этот пункт нужен для выявления влияния удаленности ЧувГУ на решение учиться в нем и анализа географического распределения анкетируемых Удаленность места проживания от 1-го корпуса ЧувГУ (в настоящее время), км примерно этот пункт нужен для выявления влияния удаленности ЧувГУ на текущую успеваемость и анализа географического распределения анкетируемых Оцените по 5-ти бальной системе свои сегодняшние условия проживания 5 с точки зрения возможности заниматься учебой Оцените по 5-ти бальной системе свое сегодняшнее материальное положение 5 с точки зрения возможности заниматься учебой Оцените по 5-ти бальной системе сегодняшнюю помощь со стороны родителей 5 с точки зрения возможности заниматься учебой Номер (или название 51 для сельской школы) школы, которую вы окончили Город или село, где находится школа Фамилия и имя отчество учителя по математике Фамилия и имя отчество учителя по физике Любимые дисциплины в школе математика Используйте клавишу 'Ctrl' для множественного выбора Укажите перечень профильных предметов, которые вы изучали в школе математика Используйте клавишу 'Ctrl' для множественного выбора Занимались ли дополнительной подготовкой к поступлению в вуз ??? Город проживания до поступления Город проживания сейчас Район проживания в Чувашии до поступления Район проживания в Чувашии сейчас Район проживания в других регионах до поступления Район проживания в других регионах сейчас Баллы ЕГЭ по математике Баллы ЕГЭ по физике Баллы ЕГЭ по русскому языку Выполняли ли тестовые задания факультета Как впервые узнали о ?? те, что рассылались по школам ????? ?????? ? ? 52 факультете По какой причине поступили на факультет сам принял решение Используйте клавишу 'Ctrl' для множественного выбора Для всех, кто поступил на факультет до 2012 года: Специальность на которую зачислен ?????????? ? ???? ????? ? ??? ??? ????? На каком основании зачислен ?? ??? ?? ? ???????? На какой другой факультет помимо ПриМаФИТ подавал заявление Укажите, в каких семестрах вы получали стипендию (не разовую, а постоянную) и количество оценок 5, 4, 3 за экзамены (левая страница зачетки) по семестрам была ли количество количество количество стипендия? пятерок четверок троек 1-й семестр ?? 2-й семестр ?? 3-й семестр ?? 4-й семестр ?? 5-й семестр ?? 6-й семестр ?? 53 7-й семестр ?? 8-й семестр ?? 9-й семестр ?? 10-й семестр ?? Укажите оценку за выпускную (дипломную) работу 5 Сколько дипломов, грамот за учебную или научную работы вы получили в годы обучения если не помните, укажите примерно Укажите те дисциплины, которые вам понравились посмотрите зачетку и напишите название дисциплины Укажите те дисциплины, которые вы считаете важными для будущей работы посмотрите зачетку и напишите название дисциплины Если бы посещение занятий было бы необязательным, а по вашему выбору, то какой примерно процент занятий по специальности вы бы посещали оцениваются только математические и физические дисциплины Как вы оценивали факультет до поступления (будучи абитуриентом) по 5-ти бальной системе 5 Укажите общую степень удовлетворенности своей учебой на факультете сейчас по 5-ти бальной системе 5 Оцените отдельно качество организации научно-исследовательской деятельности студентов по 5-ти бальной системе 5 Оцените отдельно качество организации учебной работы студентов по 5-ти бальной системе 5 Оцените отдельно качество материально-технического обеспечения образовательного процесса по 5-ти бальной системе 5 Оцените отдельно качество 5 54 информационного и библиотечного обеспечения образовательного процесса по 5-ти бальной системе Нужно ли создать ассоциацию выпускников ?? Готовы ли вы принять участие в создании ассоциации выпускников ?? Укажите на каких курсах вы совмещали учебу с оплачиваемой работой 0 – никогда не совмещал Хотите ли вы совмещать работу и учебу ?? Нашли ли уже работу ?? Используйте клавишу 'Ctrl' для множественного выбора Где и кем планируете работать после окончания вуза Планируете ли поступать в аспирантуру ?? Служили ли в армии до поступления в вуз ?? Планируете ли после окончания отслужить в вооруженных силах ?? Служили ли вы в армии после окончания вуза ?? Планируете ли создать свой бизнес ?? Какая месячная зарплата устроит вас после окончания вуза, в рублях Кем вы сейчас работаете Где вы сейчас работаете если место работы секрет, не указывайте Как Вы считаете, какая должна быть месячная зарплата 55 у преподавателей, в рублях Обычная нагрузка преподавателей – 700 … 900 часов. А Вы как считаете, какая должна быть нагрузка преподавателей за учебный год, в часах Что предлагаете изменить на факультете (чем вам может помочь факультет), в университете? Какие учебные дисциплины необходимо ввести в учебный план Что планируете делать после окончания вуза, где работать (развернутый ответ)? Напишите ваши замечания и предложения по содержанию анкеты. Предложите новые пункты анкеты. Выразите свое мнение о перспективности создания СППР. Оставьте свою электронную почту (если это не секрет) ? ???????? ?????? ?????? ??????? Анкета для аспирантов. Анкета - аспирант общие сведения Пол ? ?? ???? Семейное положение ?????? (?? ??? ?? ?? ) Дата рождения она нужна для определения знака зодиака (формат: 11.01.1991) Возраст укажите полное число лет цифрами даже, если вы указали день рождения. Это нужно для облегчения обработки данных 56 Курс 1 Укажите название специализации ?????? ????? За сколько дней до окончания приема подали заявление если не помните, укажите примерно За сколько дней до окончания приема в ЧувГУ подали оригинал аттестата если не помните, укажите примерно Удаленность места проживания от 1-го корпуса ЧувГУ (до поступления), км примерно этот пункт нужен для выявления влияния удаленности ЧувГУ на решение учиться в нем и анализа географического распределения анкетируемых Удаленность места проживания от 1-го корпуса ЧувГУ (в настоящее время), км примерно этот пункт нужен для выявления влияния удаленности ЧувГУ на текущую успеваемость и анализа географического распределения анкетируемых Оцените по 5-ти бальной системе свои сегодняшние условия проживания 5 с точки зрения возможности заниматься учебой Оцените по 5-ти бальной системе свое сегодняшнее материальное положение 5 с точки зрения возможности заниматься учебой Оцените по 5-ти бальной системе сегодняшнюю помощь со стороны родителей 5 с точки зрения возможности заниматься учебой Номер (или название для сельской школы) школы, которую вы окончили Город или село, где находится школа 57 Фамилия и имя отчество учителя по математике Фамилия и имя отчество учителя по физике Любимые дисциплины в школе математика Используйте клавишу 'Ctrl' для множественного выбора Укажите перечень профильных предметов, которые вы изучали в школе математика Используйте клавишу 'Ctrl' для множественного выбора Занимались ли дополнительной подготовкой к поступлению в вуз ??? Город проживания до поступления Город проживания сейчас Район проживания в Чувашии до поступления Район проживания в Чувашии сейчас Район проживания в других регионах до поступления Район проживания в других регионах сейчас Баллы ЕГЭ по математике Баллы ЕГЭ по физике Баллы ЕГЭ по русскому языку Выполняли ли тестовые задания факультета Как впервые узнали о факультете По какой причине поступили на факультет ?? те, что рассылались по школам ????? ?????? ? ? сам принял решение Используйте клавишу 'Ctrl' для множественного выбора 58 Для всех, кто поступил на факультет до 2012 года: Специальность на которую зачислен ?????????? ? ???? ????? ? ??? ??? ????? На каком основании зачислен ?? ??? ?? ? ???????? На какой другой факультет помимо ПриМаФИТ подавал заявление Укажите, в каких семестрах вы получали стипендию (не разовую, а постоянную) и количество оценок 5, 4, 3 за экзамены (левая страница зачетки) по семестрам была ли количество количество количество стипендия? пятерок четверок троек 1-й семестр ?? 2-й семестр ?? 3-й семестр ?? 4-й семестр ?? 5-й семестр ?? 6-й семестр ?? 7-й семестр ?? 8-й семестр ?? 9-й семестр ?? 10-й семестр ?? 59 Укажите оценку за выпускную (дипломную) работу 5 Сколько дипломов, грамот за учебную или научную работы вы получили в годы обучения если не помните, укажите примерно Укажите те дисциплины, которые вам понравились посмотрите зачетку и напишите название дисциплины Укажите те дисциплины, которые вы считаете важными для будущей работы посмотрите зачетку и напишите название дисциплины Если бы посещение занятий было бы необязательным, а по вашему выбору, то какой примерно процент занятий по специальности вы бы посещали оцениваются только математические и физические дисциплины Как вы оценивали факультет до поступления (будучи абитуриентом) по 5-ти бальной системе 5 Укажите общую степень удовлетворенности своей учебой на факультете сейчас по 5-ти бальной системе 5 Оцените отдельно качество организации научно-исследовательской деятельности студентов по 5-ти бальной системе 5 Оцените отдельно качество организации учебной работы студентов по 5-ти бальной системе 5 Оцените отдельно качество материально-технического обеспечения образовательного процесса по 5-ти бальной системе 5 Оцените отдельно качество информационного и библиотечного обеспечения образовательного процесса по 5-ти бальной системе 5 Нужно ли создать ассоциацию выпускников ?? 60 Готовы ли вы принять участие в создании ассоциации выпускников ?? Укажите на каких курсах вы совмещали учебу с оплачиваемой работой 0 – никогда не совмещал Хотите ли вы совмещать работу и учебу ?? Нашли ли уже работу ?? Используйте клавишу 'Ctrl' для множественного выбора Где и кем планируете работать после окончания вуза Служили ли в армии до поступления в вуз ?? Планируете ли после окончания отслужить в вооруженных силах ?? Служили ли вы в армии после окончания вуза ?? Планируете ли создать свой бизнес ?? Какая месячная зарплата устроит вас после окончания вуза, в рублях Кем вы сейчас работаете Где вы сейчас работаете если место работы секрет, не указывайте Как Вы считаете, какая должна быть месячная зарплата у преподавателей, в рублях Обычная нагрузка преподавателей – 700 … 900 часов. А Вы как считаете, какая должна быть нагрузка преподавателей за учебный год, в часах Что предлагаете изменить на факультете (чем вам может помочь факультет), в университете? Какие учебные дисциплины необходимо ввести в учебный план Что планируете делать после окончания вуза, где работать 61 (развернутый ответ)? Напишите ваши замечания и предложения по содержанию анкеты. Предложите новые пункты анкеты. Выразите свое мнение о перспективности создания СППР. Оставьте свою электронную почту (если это не секрет) ? ???????? ?????? ?????? ??????? Анкета для выпускников прошлых лет. Анкета - выпускник прошлых лет общие сведения Пол ? ?? ???? Семейное положение ?????? (?? ??? ?? ?? ) Дата рождения она нужна для определения знака зодиака (формат: 11.01.1991) Возраст укажите полное число лет цифрами даже, если вы указали день рождения. Это нужно для облегчения обработки данных Год выпуска Номер академической группы Укажите название специализации ?????? ????? За сколько дней до окончания приема подали заявление если не помните, укажите примерно За сколько дней до если не помните, укажите примерно 62 окончания приема в ЧувГУ подали оригинал аттестата Удаленность места проживания от 1-го корпуса ЧувГУ (до поступления), км примерно этот пункт нужен для выявления влияния удаленности ЧувГУ на решение учиться в нем и анализа географического распределения анкетируемых Удаленность места проживания от 1-го корпуса ЧувГУ (в настоящее время), км примерно этот пункт нужен для выявления влияния удаленности ЧувГУ на текущую успеваемость и анализа географического распределения анкетируемых Оцените по 5-ти бальной системе свои сегодняшние условия проживания 5 с точки зрения возможности заниматься учебой Оцените по 5-ти бальной системе свое сегодняшнее материальное положение 5 с точки зрения возможности заниматься учебой Оцените по 5-ти бальной системе сегодняшнюю помощь со стороны родителей 5 с точки зрения возможности заниматься учебой Любимые дисциплины в школе математика Используйте клавишу 'Ctrl' для множественного выбора Укажите перечень математика Используйте клавишу 'Ctrl' для множественного выбора Номер (или название для сельской школы) школы, которую вы окончили Город или село, где находится школа Фамилия и имя отчество учителя по математике Фамилия и имя отчество учителя по физике 63 профильных предметов, которые вы изучали в школе Занимались ли дополнительной подготовкой к поступлению в вуз ??? Город проживания до поступления Город проживания сейчас Район проживания в Чувашии до поступления Район проживания в Чувашии сейчас Район проживания в других регионах до поступления Район проживания в других регионах сейчас Баллы ЕГЭ по математике Баллы ЕГЭ по физике Баллы ЕГЭ по русскому языку Выполняли ли тестовые задания факультета Как впервые узнали о факультете По какой причине поступили на факультет ?? те, что рассылались по школам ????? ?????? ? ? сам принял решение Используйте клавишу 'Ctrl' для множественного выбора Для всех, кто поступил на факультет до 2012 года: Специальность на которую ?????????? ? ???? ????? ? ??? ??? ????? 64 зачислен На каком основании зачислен ?? ??? ?? ? ???????? На какой другой факультет помимо ПриМаФИТ подавал заявление Укажите, в каких семестрах вы получали стипендию (не разовую, а постоянную) и количество оценок 5, 4, 3 за экзамены (левая страница зачетки) по семестрам была ли количество количество количество стипендия? пятерок четверок троек 1-й семестр ?? 2-й семестр ?? 3-й семестр ?? 4-й семестр ?? 5-й семестр ?? 6-й семестр ?? 7-й семестр ?? 8-й семестр ?? 9-й семестр ?? 10-й семестр ?? Укажите оценку за выпускную (дипломную) работу 5 Сколько дипломов, грамот за учебную или научную работы вы получили в годы обучения если не помните, укажите примерно Укажите те дисциплины, которые вам посмотрите зачетку и напишите название 65 понравились дисциплины Укажите те дисциплины, которые вы считаете важными для будущей работы посмотрите зачетку и напишите название дисциплины Если бы посещение занятий было бы необязательным, а по вашему выбору, то какой примерно процент занятий по специальности вы бы посещали оцениваются только математические и физические дисциплины Как вы оценивали факультет до поступления (будучи абитуриентом) по 5-ти бальной системе 5 Укажите общую степень удовлетворенности своей учебой на факультете сейчас по 5-ти бальной системе 5 Оцените отдельно качество организации научно-исследовательской деятельности студентов по 5-ти бальной системе 5 Оцените отдельно качество организации учебной работы студентов по 5-ти бальной системе 5 Оцените отдельно качество материально-технического обеспечения образовательного процесса по 5-ти бальной системе 5 Оцените отдельно качество информационного и библиотечного обеспечения образовательного процесса по 5-ти бальной системе 5 Нужно ли создать ассоциацию выпускников ?? Готовы ли вы принять участие в создании ассоциации выпускников ?? Укажите на каких курсах вы совмещали учебу с оплачиваемой работой 0 – никогда не совмещал Используйте клавишу 'Ctrl' для множественного выбора 66 Нашли ли уже работу ?? Планируете ли поступать в магистратуру ?? Планируете ли поступать в аспирантуру ?? Служили ли в армии до поступления в вуз ?? Служили ли вы в армии после окончания вуза ?? Планируете ли создать свой бизнес ?? Кем вы сейчас работаете Где вы сейчас работаете если место работы секрет, не указывайте Как Вы считаете, какая должна быть месячная зарплата у преподавателей, в рублях Обычная нагрузка преподавателей – 700 … 900 часов. А Вы как считаете, какая должна быть нагрузка преподавателей за учебный год, в часах Что предлагаете изменить на факультете (чем вам может помочь факультет), в университете? Какие учебные дисциплины необходимо ввести в учебный план Что планируете делать после окончания вуза, где работать (развернутый ответ)? Напишите ваши замечания и предложения по содержанию анкеты. Предложите новые пункты анкеты. Выразите свое мнение о перспективности создания СППР. Оставьте свою электронную почту (если это не секрет) 67 ? ???????? ?????? ?????? ??????? Анкета для абитуриентов. Анкета - абитуриент общие сведения Пол ? ?? ???? Семейное положение ?????? (?? ??? ?? ?? ) Дата рождения она нужна для определения знака зодиака (формат: 11.01.1991) Возраст укажите полное число лет цифрами даже, если вы указали день рождения. Это нужно для облегчения обработки данных Год приема За сколько дней до окончания приема подали заявление если не помните, укажите примерно За сколько дней до окончания приема в ЧувГУ подали оригинал аттестата если не помните, укажите примерно Удаленность места проживания от 1-го корпуса ЧувГУ (до поступления), км примерно этот пункт нужен для выявления влияния удаленности ЧувГУ на решение учиться в нем и анализа географического распределения анкетируемых Удаленность места проживания от 1-го корпуса ЧувГУ (в настоящее время), км примерно этот пункт нужен для выявления влияния удаленности ЧувГУ на текущую успеваемость и анализа географического распределения анкетируемых Оцените по 5-ти бальной системе свои сегодняшние условия 5 с точки зрения возможности заниматься учебой 68 проживания Оцените по 5-ти бальной системе свое сегодняшнее материальное положение 5 с точки зрения возможности заниматься учебой Оцените по 5-ти бальной системе сегодняшнюю помощь со стороны родителей 5 с точки зрения возможности заниматься учебой Любимые дисциплины в школе математика Используйте клавишу 'Ctrl' для множественного выбора Укажите перечень профильных предметов, которые вы изучали в школе математика Используйте клавишу 'Ctrl' для множественного выбора Номер (или название для сельской школы) школы, которую вы окончили Город или село, где находится школа Фамилия и имя отчество учителя по математике Фамилия и имя отчество учителя по физике Занимались ли дополнительной подготовкой к поступлению в вуз ??? Город проживания до поступления Город проживания сейчас Район проживания в Чувашии до поступления Район проживания в Чувашии сейчас Район проживания в других регионах до поступления 69 Район проживания в других регионах сейчас Баллы ЕГЭ по математике Баллы ЕГЭ по физике Баллы ЕГЭ по русскому языку Выполняли ли тестовые задания факультета Как впервые узнали о факультете По какой причине поступили на факультет ?? те, что рассылались по школам ????? ?????? ? ? Используйте клавишу 'Ctrl' для множественного выбора сам принял решение На какой другой факультет помимо ПриМаФИТ подавал заявление Нужно ли создать ассоциацию выпускников ?? Готовы ли вы принять участие в создании ассоциации выпускников ?? Хотите ли вы совмещать работу и учебу ?? Нашли ли уже работу ?? Где и кем планируете работать после окончания вуза Планируете ли поступать в магистратуру ?? Планируете ли поступать в аспирантуру ?? Служили ли в армии до поступления в вуз ?? Планируете ли после окончания ?? 70 отслужить в вооруженных силах Планируете ли создать свой бизнес ?? Какая месячная зарплата устроит вас после окончания вуза, в рублях Кем вы сейчас работаете если место работы секрет, не указывайте Где вы сейчас работаете Как Вы считаете, какая должна быть месячная зарплата у преподавателей, в рублях Обычная нагрузка преподавателей – 700 … 900 часов. А Вы как считаете, какая должна быть нагрузка преподавателей за учебный год, в часах Что предлагаете изменить на факультете (чем вам может помочь факультет), в университете? Какие учебные дисциплины необходимо ввести в учебный план Что планируете делать после окончания вуза, где работать (развернутый ответ)? Напишите ваши замечания и предложения по содержанию анкеты. Предложите новые пункты анкеты. Выразите свое мнение о перспективности создания СППР. Оставьте свою электронную почту (если это не секрет) ? ???????? ?????? ?????? ??????? Анкета для преподавателей. 71 Данная анкета – короткая. Основное назначение этой анкеты – получить критический анализ задач и методологии выполнения проекта, дополнить перечень вопросов анкет – интервью (последнее окно анкеты). Анкета - преподаватель общие сведения Пол ? ?? ???? Семейное положение ?????? (?? ??? ?? ?? ) Дата рождения она нужна для определения знака зодиака (формат: 11.01.1991) Возраст укажите полное число лет цифрами даже, если вы указали день рождения. Это нужно для облегчения обработки данных Стаж работы на факультете Нужно ли создать ассоциацию выпускников ?? Готовы ли вы принять участие в создании ассоциации выпускников ?? Служили ли вы в армии после окончания вуза ?? Планируете ли создать свой бизнес ?? Как Вы считаете, какая должна быть месячная зарплата у преподавателей, в рублях Обычная нагрузка преподавателей – 700 … 900 часов. А Вы как считаете, какая должна быть нагрузка преподавателей за учебный год, в часах Что предлагаете изменить на факультете (чем вам может помочь факультет), в университете? Какие учебные дисциплины необходимо ввести в учебный план Напишите ваши замечания и предложения по содержанию анкеты. Предложите новые пункты анкеты. Выразите свое мнение о перспективности создания СППР. Оставьте свою электронную почту (если это не секрет) 72 ? ???????? ?????? ?????? ??????? Последняя страница анкет после отправки. Спасибо за участие в Интернет-интервью! Если Вы ошиблись при заполнении анкеты или хотите поменять свои ответы и снова ответить на анкету - просто нажмите кнопку клавиатуры “Back” и исправьте уже данные ответы. 73 3.2 Результаты анкетирования. Статистические данные и гистограммы. В результате проведенной работы было собрано, обработано и систематизировано более 200 анкет, содержащих около 100 вопросов по процессу образования в целом, качеству процесса образования, развитию системы образования (всего около 20 000 ответов). Ниже представлены примеры полученных результатов (представлена только малая их часть). Рис. 8. Пример обобщения результатов анкетирования в виде таблицы (представлена только малая часть собранных данных). 74 Рис. 9. Пример статистической обработки данных анкет – интервью. Рис. 10. Гистограммы ответов на различные вопросы анкет. 75 Рис. 11. Обычная нагрузка преподавателей – 700…900 часов. А Вы как считаете, какая должна быть нагрузка преподавателей за учебный год, в часах Рис. 12. Как Вы считаете, какая должна быть зарплата у преподавателей, в рублях 76 Рис. 13. Оцените отдельно качество информационного и библиотечного обеспечения образовательного процесса по 5-ти бальной системе Рис. 14. Оцените отдельно качество материально-технического обеспечения образовательного процесса по 5-ти бальной системе 77 Рис. 15. Оцените отдельно качество организации учебной работы студентов по 5-ти бальной системе Рис. 16. Оцените отдельно качество организации научно-исследовательской деятельности студентов по 5-ти бальной системе Рис. 17. Баллы ЕГЭ по русскому языку 78 Рис. 18. Баллы ЕГЭ по физике Рис. 19. Баллы ЕГЭ по математике Рис. 20. Оценка помощи со стороны родителей 79 Рис. 21. Оценка материального положения Рис. 22. Оценка условий проживаний Рис. 23. Удаленность места проживания от места учебы 80 Рис. 24. Удаленность места проживания от места учебы до поступления Рис. 25. За сколько дней до окончания приема в ЧГУ поданы оригиналы Рис. 26. За сколько дней до окончания приема в ЧГУ поданы документы 81 Рис. 27. Количество пятерок в сессию Рис. 28. Количество четверок в сессию Рис. 29. Количество троек в сессию 82 Рис. 30. Гистограмма оценок ЕГЭ по математике Рис. 31. Гистограмма оценок ЕГЭ по физике 83 Рис. 32. Гистограмма оценок ЕГЭ по русскому языку Рис. 33. Более подробные гистограммы распределения баллов ЕГЭ зачисленных абитуриентов. По математике распределение близко к Гауссову (нормальному), по физике и русскому языку – нет. 84 . Рис. 34. Гистограммы распределения количества отличных оценок («пятерок») студентов по первым семи семестрам обучения. По оси абсцисс – количество студентов получивших оценки отлично, по оси абсцисс – количество «пятерок» (от 0 до 4). В правой крайней части рисунка – количество ответов респондентов, в которых отсутствовал ответ на «количество «пятерок» (ответы абитуриентов, преподавателей, аспирантов и магистров). Заметна тенденция увеличения количества отличных оценок с увеличением номера семестра (по мере приобретения опыта студентами количество отличных оценок возрастает). 85 Рис. 35. Гистограммы распределения ответов на два вопроса: 1. Если бы посещение занятий было бы необязательным, а по вашему выбору, то какой примерно процент занятий Вы бы посещали. 2. Укажите общую степень удовлетворенности своей учебой на факультете сейчас по 5-ти бальной системе. Анализ показывает, что достаточно большое количество студентов (около 60 процентов) предпочло бы не посещать все занятия. Общая удовлетворенность учебным процессом (оценки 4 и 5) достаточно велика, доля студентов удовлетворенных учебным процессом составляет примерно 80%. 86 Рис. 36. Гистограммы распределения ответов на два вопроса: 1. Укажите общую степень удовлетворенности своей учебой на факультете сейчас по 5ти бальной системе (как и на предыдущем рис. 35). 2. Как вы оценивали факультет до поступления (будучи абитуриентом) по 5-ти бальной системе. Рис. 37. Гистограммы распределения ответов на два вопроса: 1. Какая месячная зарплата устроит вас после окончания вуза? 2. Как Вы считаете, какая должна быть месячная зарплата у преподавателей? 87 Влияние разлличных факторов на принятие решения абитуриентом потому что здесь обучались родители хотел получить официальную отсрочку или родственники от армии 1% 1% думал, что будет легко учиться под воздействием рекламы 2% 1% знакомые посоветовали 4% учитель посоветовал 4% из-за престижности факультета 4% другое 5% сам принял решение 42% по причине низкого конкурса на факультете 6% специальность понадобится для будущей работы 8% нужен диплом о высшем образовании 9% родители посоветовали 13% Рис. 38. Гистограмма распределения того, как принималось абитуриентами решение о поступлении и некоторые причины, по которым абитуриент принял решение о поступлении. 88 3.3 Многофакторные вычислительные модели закономерностей процесса образования На рис. 39 приведены результаты оценки корреляции между результатами ЕГЭ и результатами первой сессии студентов приема 2011 года. Входные поля № Поле Корреляция с выходными полями количество пятерок количество четверок количество троек 1 Баллы ЕГЭ по математике 0,405 -0,394 -0,432 2 Баллы ЕГЭ по физике 0,404 -0,380 -0,336 0,336 -0,352 3 Баллы ЕГЭ по русскому языку 0,313 Рис. 39. Корреляция между результатами ЕГЭ и результатами первой сессии студентов приема 2011 года В левом столбце «Входные поля» указаны факторы (баллы ЕГЭ по трем дисциплинам), в столбце «Корреляция с выходными полями» – в первой строчке название целевых функций – количество оценок «Отлично», «Хорошо», «Удовлетворительно», ниже – показатели корреляции (цифры в виде десятичной дроби со знаком + или -). Анализ результатов с учетом того, что корреляция большая, чем 0,6 (по абсолютному значению), означает, что существует высокая связь между выходным полем (в данном случае, количеством конкретных оценок), а корреляция меньшая 0,300 – что нет связи, и промежуточные значения – о наличии некоторой связи, показывает, что: наибольшую корреляцию с количеством пятерок имеет фактор «Баллы ЕГЭ по математике», но даже она не достигает уровня «высокая связь». Остальные факторы – баллы ЕГЭ по физике и русскому языку имеют невысокую связь (фактор баллы ЕГЭ по физике имеет примерно такую же корреляцию, как и баллы ЕГЭ по математике). 89 отрицательную корреляцию с количеством троек имеют баллы ЕГЭ по всем лисциплинам, то есть это означает, что абитуриенты, имеющие высокие баллы по этим дисциплинам «наверное» будут учиться хорошо, но эта корреляция тоже не достигает уровня «высокая связь». Общий вывод, который можно сделать из всей таблицы корреляций – высокие баллы ЕГЭ не говорят о том, что студент гарантированно будет учиться хорошо и что связь между результатами ЕГЭ и результатами первой сессии студентов является существенно нелинейной. Этот вывод хорошо иллюстрируют результаты моделирования зависимостей количества различных оценок на первой сессии от результатов ЕГЭ, полученные с помощью искусственных нейронных сетей. На рис. 40 приведены исходные данные, на рис. 41 - структура нейронной сети, а на рис. 42-44 выявленные зависимости. Рис. 40. Экран аналитической платформы. Слева – использованные методы анализа. В центре – исходная таблица. 90 Рис. 41. Структура искусственной нейронной сети. 91 Рис. 42. Зависимость количества троек (синяя кривая), четверок (зеленая кривая) и пятерок (красная кривая) от баллов ЕГЭ по русскому языку. 92 Рис. 43. Зависимость количества троек (синяя кривая), четверок (зеленая кривая) и пятерок (красная кривая) от баллов ЕГЭ по физике 93 Рис. 44. Зависимость количества троек (синяя кривая), четверок (зеленая кривая) и пятерок (красная кривая) от баллов ЕГЭ по математике Вышеприведенные результаты показывают, что даже такая простая задача, как определение зависимости уровня знаний студентов 1 курса от баллов, полученных на ЕГЭ является сложной и существенно нелинейной. На следующих рисунках приведены результаты анализа связей баллов, полученных на ЕГЭ, и результатами второй сессии. 94 Рис. 45. Корреляция между результатами ЕГЭ и результатами второй сессии студентов приема 2011 года. Анализ показывает, что и для второй сессии (три правые колонки на рисунке) прямой корреляции между баллами ЕГЭ и оценками сессии нет. Вышеприведенные модели в дальнейшем будут уточняться – по мере увеличения базы данных. На рис. 46 приведены результаты исследования связи между баллами ЕГЭ и такого важного обстоятельства, как получают ли студенты стипендию во втором семестре или нет. В целом, получение студентом стипендии во втором семестре, говорит о его хорошей (оценки «отлично» и «хорошо») академической успеваемости. Исследования проводились методом «дерево решений». Этот метод позволяет определять качественные характеристики (да, нет) через количественные. 95 Рис. 46. Экран аналитической платформы. Метод «дерево решений» - в правой части. Выходным параметром было получает студент стипендию – «да» или не получает - «нет». На схеме «дерева решений» показаны «правила», которые определяют, при каких условиях студент будет получать стипендию - «да», а при каких – «нет». Каждые ветви решений разделены на два «цвета» – красный и зеленый. Красный цвет означает «да», а зеленый – «нет». В целом полученные результаты показывают, что мониторинг эффективности вуза по баллам ЕГЭ зачисленных абитуриентов, не является обоснованным с точки зрения качества образования, понимаемого как академическая успеваемость студентов. 96 Заключение Как показал анализ литературы, задачи управления вузом как основной единицы системы образования и системой образования в целом сложны и многообразны, требуют использования одновременно нескольких подходов к управлению, учета многих факторов. Различные категории участников образовательного процесса и системы образования в целом имеют разные цели и интересы. Поэтому каждый вуз в рамках общей стратегии развития образования должен самостоятельно определять пути своего развития и взаимодействия с потребителями образования. Остро стоит задача создания новой, современной системы поддержки принятия решений и управления вузом, обеспечивающей решение как общих стратегических задач, так и задач конкретного вуза, с учетом интересов непосредственных участников процесса образования – студентов, преподавателей, административноуправленческого аппарата, учебно-вспомогательного персонала, а также государственных органов, работодателей, родителей абитуриентов и студентов. При этом вузы как наиболее передовые структуры современного информационного общества не должны забывать о будущих задачах системы образования, когда по мере формирования общества основанного на знаниях они сами должны будут определять перспективные направления развития экономики, сами будут формировать спрос на высшее образование. Перспективными при решении задач создания системы поддержки принятия решений и управления вузом являются методы интеллектуального анализа данных, которые позволяют проводить многосторонний анализ закономерностей развития системы образования, осуществлять прогнозирование траектории развития системы, вырабатывать различные варианты управляющих решений. Путь к стратегическим и управленческим решениям должен проходить через моделирование конкретных ситуаций, 97 построение и исследование качественных и количественных моделей, прогнозирование развития системы образования в случае различных вариантов управляющих воздействий. За первый год выполнения проекта выполнено следующее. 1. Разработана новая методология экспериментальных и теоретических исследований закономерностей развития системы высшего профессионального образования и новые подходы к созданию моделей системы поддержки принятия решений и управления вузом с помощью средств интеллектуального анализа данных. В ее основе лежат подробные анкеты – интервью участников образовательного процесса в вузе. За первый год работы собрано более 200 анкет, содержащих около 100 вопросов (всего около 20 000 ответов). Сбор анкет проводился в режиме онлайн на сайте проекта. Во второй год выполнения проекта подобные анкеты – интервью (после корректировки их содержания в соответствии с результатами анализа эффективности анкет - интервью), планируется собрать на всех факультетах Чувашского госуниверситета, а также в других вузах Чувашии и Приволжского федерального округа. Методология проекта предусматривает, что подобные анкеты – интервью будут собираться постоянно, по крайней мере, один раз в год. Это обеспечит непрерывный мониторинг закономерностей развития системы высшего профессионального образования. Инструмент для проведения подобного объема работы (сайт проекта) создан и показал свою эффективность. В дополнение к данным анкет – интервью будут собраны официальные данные по финансовому обеспечению образовательного процесса, экспертным оценкам итоговых аттестаций и содержания выпускных квалификационных работ, российскому рейтингу образовательного учреждения – по годам, заработной плате преподавателей, размерам 98 стипендий и других мер материального поощрения, уровню конкурсного отбора абитуриентов и т.д. Источниками данных будут базы данных учетных систем вузов, данные, которые непосредственно или косвенно касаются участников образовательного процесса вуза и которые можно взять из внешних источников, внешние по отношению к вузам данные (макроэкономические показатели региона вуза, конкурентная среда, демографические и иные статистические данные). Основной технологией организации собранных с помощью анкет – интервью данных будет технология «Хранилища данных» (см. гл. 2). Она позволяет аккумулировать многомерные разнородные (количественные и качественные) данные, обеспечивает на этапе введения данных их непротиворечивость; автоматически, за счет семантического слоя, обеспечивает всю необходимую поддержку процесса анализа данных, обеспечивает высокую скорость доступа к данным. 2. Для выполнения проекта в качестве основного метода исследования и решения задач проекта определены искусственные нейронные сети. Они позволяют создавать многофакторные вычислительные модели, содержащие в себе все зависимости целевой функции управления (выбранной исходя из конкретной задачи управления) от факторов, влияющих (по мнению эксперта или лица принимающего решение) на целевую функцию. Это позволяет прогнозировать изменение значений целевой функции в зависимости от конкретных наборов факторов, определять требуемый набор факторов для достижения заданного значения целевой функции и, тем самым, вырабатывать необходимые управляющие решения. Искусственные нейронные сети позволят решать не только прямые задачи, например, прогнозировать успеваемость конкретного абитуриента, поступающего на конкретную специальность в зависимости от его баллов набранных на ЕГЭ (пример самой простой задачи). Они позволят решать и обратные задачи, например, определять, какой должна быть зарплата 99 конкретного преподавателя, чтобы максимальный процент студентов был востребован работодателем (пример очень интересной, но очень сложной задачи). Поиск в Интернет не обнаружил прецедентов создания подобных систем в России и в этом смысле проект можно считать уникальным. 3. Наряду с основными составляющими выполнения задач проекта – «Хранилищем данных» и искусственными нейронными сетями, в рамках разработанной методологии существенно необходимыми для выполнения проекта являются методы очистки данных (редактирование аномальных данных, выявление дубликатов и противоречий в данных, заполнение пропусков, очистка от шумов, сглаживание, фильтрация), средства трансформации данных в вид необходимый для конкретного метода анализа, алгоритмы понижения размерности данных, формализация данных, нормализация типов данных: числовых, строковых, дата/время и логических, метод «дерево решений» обеспечивающий определение качественной характеристики (типа да, нет, может быть) через количественные факторы, а также самоорганизующиеся карты Кохонена, решающие задачи кластеризации данных анкет – интервью: выделения среди огромного количества данных кластеров данных, относящихся к конкретной группе участников образовательного проекта, конкретному вузу, конкретной задаче управления. Все это будет обеспечивать обоснованность и необходимую точность (соответствие реальному состоянию и реальным тенденциям развития системы образования) многофакторных вычислительных моделей прогнозирования и управления создаваемых с помощью искусственных нейронных сетей. 4. За первый год выполнения проекта собраны разнообразные статистические данные участников образовательного процесса и системы в целом (в соответствии с вопросами анкет – интервью), малая часть их в качестве примеров приведены в главе 3. 100 5. Получены многофакторные вычислительные модели, устанавливающие закономерности процесса образования (см. главу 3). 6. Во второй год выполнения проекта предполагается решить целый комплекс задач прогнозирования и управления, например: - прогнозирование качества приема абитуриентов (через баллы ЕГЭ, зачисленных абитуриентов) по различным специальностям (направлениям подготовки) и определение мер способствующих его повышению. - прогнозирование «траектории» учебной и научной работы студентов различных специальностей и направлений подготовки (оценок, полученных на экзаменах; количество дипломов и грамот за участие в конкурсах и конференциях) и определение мер способствующих повышению качества учебной и научной работы студентов. - кластеризация – группировка специальностей и направлений подготовки по качеству приема абитуриентов, качеству учебной и научной работы студентов, районам проживания абитуриентов и студентов с хорошим качеством учебной и научной работы, уровню востребованности выпускников различных специальностей и направлений подготовки. - решение задач регрессии (получения многофакторных вычислительных моделей) устанавливающих зависимости таких целевых функций, как: качество выпускных квалификационных работ, востребованность выпускников и уровень их заработной платы после трудоустройства, наукометрические индексы преподавателей, степень удовлетворенности всех участников процесса образования, и другие от таких факторов, как: потребность (федеральная, региональная, личностная) в специалистах и образовании; ресурсы вуза (материальные, технические, технологические, финансовые, финансирование; интеллектуальные); степень бюджетное внедрения и внебюджетное информационно- телекоммуникационных технологий; уровень требований при конкурсном отборе абитуриентов, уровень стипендий и мер материального поощрения студентов; степень участия преподавателей в НИР; наличие аспирантуры; 101 уровень кадрового обеспечения образовательного процесса в целом; заработная плата преподавателей и учебно-вспомогательного персонала; и т.п. - а также ряд задач, связанных с выявлением ассоциаций (выявление закономерностей между связанными в пространстве факторов событиями); определением последовательных шаблонов – установление закономерностей между связанными во времени событиями; анализом отклонений – выявление наиболее нехарактерных шаблонов. 102 Список использованных источников 1. Абруков В.С., Ахтямова Г.Э., Степанов А.Г. Мифологема картины социально-исторической реальности. // Вестник Чувашского университета. – 2012. – № 2. – С. 122-125. 2. Абруков В.С., Михайлова Р.В., Степанов А.Г. Антропологические основания мифологемы картины социально-исторической реальности. // Вестник Чувашского университета. – 2012. – № 2. – С. 125-128. 3. Белоцерковский А.В. О «качестве» и «количестве» образования // Высшее образование в России. 2011. № 4. С. 3-9. 4. Анализ бизнес информации – основные принципы. http://www.basegroup.ru/library/methodology/analysisbusinessdata/ 5. Система поддержки принятия решений. http://www.wikipedia.org/. 6. Goyal, Monika. Applications of Data Mining in Higher Education. International journal of computer science, 2012, 9 (2), p. 113. 7. Jayanthi Ranjan. Effective educational process: a data-mining approach. Journal of information and knowledge management systems, 2007, 37 (4), p. 502. 8. Zlatko J Kovacic. Predicting student success by mining enrolment data. Journal of research in higher education, 2012, 15, p. 54. 9. Абруков В.С. Счастливый брак: Анализ и управление семейными отношениями с помощью искусственных нейронных сетей, Сообщество менеджеров Executive www.e-xecutive.ru, Москва, 2010, с. 1 – 23. прямой адрес статьи: http://www.e-xecutive.ru/community/articles/1437975/. 10. Абруков В.С., Николаева Я.Г. Количественные и качественные методы: соединяем и властвуем! СОЦИС, Москва, 2010, № 1, с. 142-145.