отдел информационных систем ИСП РАН

advertisement
Преддипломная практика студентов факультета ВМК на
безе отдела «Информационных систем» ИСП РАН
Специализация отдела
Отдел «Информационных систем» выполняет исследования и разработки в
различных областях, связанных с построением систем обработки, анализа и хранения
больших объемов данных. Проекты отдела связаны с обработкой текстов на естественном
языке, информационным поиском, анализом социальных сетей, а также с распределённой
обработкой данных. Основой для современных методов анализа информации служат
модели и алгоритмы машинного обучения. В отделе информационных систем ведутся
работы по созданию и модификации алгоритмов машинного обучения.
Цели практики
Целью преддипломной практики является освоение современных алгоритмов
машинного обучения, используемых при решении задач обработки и анализа информации.
Предполагается, что студенты, проходящие практику, будут изучать и реализовывать
классические алгоритмы машинного обучения. Особое внимание будет уделяться
качеству программного кода. Студенты должны будут продемонстрировать понимание
принципов
объектно-ориентированного
программирования,
знание
шаблонов
проектирования, а также приобрести практические навыки профилировки и
экспериментальной оценки алгоритмов машинного обучения.
Варианты заданий
Выполняемое студентом задание заключается в изучении и программной
реализации нескольких алгоритмов машинного обучения. Для каждого из алгоритмов
предполагается проведение следующих работ:
1. Изучение алгоритма и методов оценки результатов. По результатам пишется
первая глава отчета, содержащая описание алгоритма и методов его тестирования.
2. Проектирование. По результатам пишется вторая глава отчета с детальным
описанием архитектуры в виде UML диаграмм.
3. Реализация алгоритма. Результатом данного этапа является первая версия
алгоритма.
4. Тестирование на выбранном корпусе и отладка. По результатам пишется третья
глава с методологией тестирования и результатами.
5. Профилировка и улучшение производительности. В результате этапа должна быть
написана 4 глава отчета, содержащая таблицу с начальными результатами
профилировки, описанием сделанных улучшений и окончательными результатами.
Ниже перечислены варианты заданий. Каждый вариант содержит два алгоритма
классификации и один метаклассификатор. Студент должен реализовать алгоритмы из
своего варианта в виде библиотеки со стандартным интерфейсом.
Вариант 1
1. Наивный байесовский классификатор
2. Метод опорных векторов с использованием SMO (Sequential minimal optimization)
3. Случайный лес (Random Forest)
Вариант 2
1. Адаптер для LibSVM
2. LADTree
3. AdaBoost
Вариант 3
1. Адаптер для LibLinear
2. Logistic model trees
3. MultiBoost
Вариант 4
1. Линейная регрессия
2. C4.5
3. LogitBoost
Вариант 5
1. ID3
2. Полиномиальная логистическая регрессия
3. Rotation Forest
Порядок работы
Практика проходит в Институте системного программирования РАН. На время
практики студент обеспечивается рабочим местом, на котором ему необходимо
присутствовать не менее двух полных рабочих дней в неделю.
Отчетность
Текущее состояние работы студент описывает в журнал преддипломной практики. К
концу установленного периода, студент представляет отчет о проведенной работе,
который должен в себе содержать: описание поставленной задачи, описание
используемых подходов и технологий, описание полученного результата. Итоговый отчет
должен содержать все промежуточные отчеты по каждому из разработанных алгоритмов.
Критерием успешности работы является качественное освоение соответствующих
программных инструментов и методов их применения.
Related documents
Download