Преддипломная практика студентов факультета ВМК на безе отдела «Информационных систем» ИСП РАН Специализация отдела Отдел «Информационных систем» выполняет исследования и разработки в различных областях, связанных с построением систем обработки, анализа и хранения больших объемов данных. Проекты отдела связаны с обработкой текстов на естественном языке, информационным поиском, анализом социальных сетей, а также с распределённой обработкой данных. Основой для современных методов анализа информации служат модели и алгоритмы машинного обучения. В отделе информационных систем ведутся работы по созданию и модификации алгоритмов машинного обучения. Цели практики Целью преддипломной практики является освоение современных алгоритмов машинного обучения, используемых при решении задач обработки и анализа информации. Предполагается, что студенты, проходящие практику, будут изучать и реализовывать классические алгоритмы машинного обучения. Особое внимание будет уделяться качеству программного кода. Студенты должны будут продемонстрировать понимание принципов объектно-ориентированного программирования, знание шаблонов проектирования, а также приобрести практические навыки профилировки и экспериментальной оценки алгоритмов машинного обучения. Варианты заданий Выполняемое студентом задание заключается в изучении и программной реализации нескольких алгоритмов машинного обучения. Для каждого из алгоритмов предполагается проведение следующих работ: 1. Изучение алгоритма и методов оценки результатов. По результатам пишется первая глава отчета, содержащая описание алгоритма и методов его тестирования. 2. Проектирование. По результатам пишется вторая глава отчета с детальным описанием архитектуры в виде UML диаграмм. 3. Реализация алгоритма. Результатом данного этапа является первая версия алгоритма. 4. Тестирование на выбранном корпусе и отладка. По результатам пишется третья глава с методологией тестирования и результатами. 5. Профилировка и улучшение производительности. В результате этапа должна быть написана 4 глава отчета, содержащая таблицу с начальными результатами профилировки, описанием сделанных улучшений и окончательными результатами. Ниже перечислены варианты заданий. Каждый вариант содержит два алгоритма классификации и один метаклассификатор. Студент должен реализовать алгоритмы из своего варианта в виде библиотеки со стандартным интерфейсом. Вариант 1 1. Наивный байесовский классификатор 2. Метод опорных векторов с использованием SMO (Sequential minimal optimization) 3. Случайный лес (Random Forest) Вариант 2 1. Адаптер для LibSVM 2. LADTree 3. AdaBoost Вариант 3 1. Адаптер для LibLinear 2. Logistic model trees 3. MultiBoost Вариант 4 1. Линейная регрессия 2. C4.5 3. LogitBoost Вариант 5 1. ID3 2. Полиномиальная логистическая регрессия 3. Rotation Forest Порядок работы Практика проходит в Институте системного программирования РАН. На время практики студент обеспечивается рабочим местом, на котором ему необходимо присутствовать не менее двух полных рабочих дней в неделю. Отчетность Текущее состояние работы студент описывает в журнал преддипломной практики. К концу установленного периода, студент представляет отчет о проведенной работе, который должен в себе содержать: описание поставленной задачи, описание используемых подходов и технологий, описание полученного результата. Итоговый отчет должен содержать все промежуточные отчеты по каждому из разработанных алгоритмов. Критерием успешности работы является качественное освоение соответствующих программных инструментов и методов их применения.