Машинное обучение и имитационная модель – пример 27.05.2019 | Arash Mahdavi искусственный интеллект модель обучение Обучение с подкреплением (reinforcement learning) – вид машинного обучения, с которым связаны многие последние достижения в сфере искусственного интеллекта. Все больше исследователей в сфере ИИ пробует использовать обучение с подкреплением вместе с имитационными моделями. Как это работает? В этом посте я расскажу об этом, а также покажу пример модели со ссылкой на исходные файлы и инструкции, чтобы вы могли поработать с ней сами. Что такое глубокое обучение с подкреплением Вероятно, самый известный пример успеха глубокого обучения с подкреплением – победа программы AlphaGo от Deepmind над чемпионом мира Ли Седолем в матче по игре в го. Правила игры в го просты, но вариантов развития игры больше, чем атомов в обозримой вселенной. Считалось, что эта игра будет самой сложной для освоения искусственным интеллектом. Чтобы лучше понять успех AlphaGo, мы должны разобраться, как учатся компьютеры. Люди учатся двумя способами: первый – передача знаний (от учителя к ученику или из книг); второй – метод проб и ошибок. С компьютерами всё очень похоже. Для программ метод с передачей знаний сродни хардкодингу, когда в программу вносятся правила и стратегии игры, например, в шахматы, которые компьютер затем использует в партии. Метод проб и ошибок – это тренировка компьютера постоянными партиями в шахматы, в ходе которых он развивает свои собственные навыки и «чувство игры». Перед матчем с Ли Седолем AlphaGo сыграла миллионы тренировочных партий в го и, благодаря глубокому обучению с подкреплением, накопила тысячи лет человеческого опыта игры за несколько дней. Зачем нужны имитационные модели Чтобы программа могла учиться на собственном опыте, ей нужна среда, в которой можно было бы проверять идеи и получать знания из собственных ошибок и достижений. Такая среда может быть реальной (например, на частных дорогах, в ограниченном воздушном пространстве, либо на учебной конвейерной линии) или виртуальной. Хотя тренировочные среды из реального мира больше похожи на действительность, они имеют много недостатков. Создание реальных сред для экспериментов затратно, а в некоторых случаях такие среды могут представлять риск для людей и окружающей среды. Иногда подобные эксперименты могут быть ограничены законодательно. Имитационные модели не имеют таких ограничений – они дёшевы, и их можно гибко настраивать под конкретные нужды. Кроме того, модели в виртуальных средах могут воспроизводить процессы быстрее, чем они происходили бы в реальности, что экономит время. Примером стала разгромная победа модели системы от OpenAI над чемпионами мира в стратегической игре Dota 2. За десять месяцев обучения система OpenAI получила опыт, соответствующий 45 000 человеко-лет. Глубокое обучение с подкреплением – это всё ещё новое направление в мире искусственного интеллекта, и пока оно находится в стадии развития. В то же время имитационное моделирование в течение десятилетий регулярно используется в практике, и существует огромное количество примеров применения технологии в бизнесе. Специалисты по имитационному моделированию обычно работают так: создаётся имитационная модель, затем с ней проводятся эксперименты (оптимизация, эксперименты Монте-Карло, варьирование параметров и т. д.), а результаты используются для принятия решений в моделируемой бизнес-системе. Такой подход требует участия человека, который проводит эксперименты с моделью и получает от нее информацию. При машинном обучении алгоритмы (т.н. обучающиеся агенты) способны самостоятельно извлекать подходящие линии поведения и стратегии из имитируемых систем. Логичное решение – заставить алгоритмы учиться на имитационных моделях. С учётом того, что исследователи в области ИИ переходят от игр к бизнес-задачам, это особенно актуально. Как машинное обучение работает с имитационным моделированием Пример модели: имитация + обучение с подкреплением Имитационная модель реальной бизнес-системы может служить средой для машинного обучения. Мы решили показать это на примере перекрёстка со светофорами, который мы в AnyLogic разработали вместе с компанией Skymind. Похожую версию этой модели мы представили на конференции AnyLogic-2019 в Остине, доступно видео презентации (на англ. языке). Машинное обучение против алгоритмов оптимизации на примере светофора. Управление с помощью обучения с подкреплением – справа. Ниже можно скачать исходные файлы модели, необходимые библиотеки для глубокого обучения с подкреплением и детальные инструкции для настройки. Скачать ❕ Модель специально сделана простой и наглядной. Вы можете изменить политику управления, предложенную машинным обучением, на собственный набор эвристических правил и алгоритмов, и увидеть разницу. Однако прелесть этой модели в том, что процесс обучения проходит без участия человека, то есть ИИ самостоятельно вырабатывает эффективные стратегии, основанные на его взаимодействии с имитационной моделью. Если бы для моделирования и обучения был выбран более сложный пример (например, несколько смежных перекрестков), то преимущество обучающегося агента над разработанными человеком алгоритмами было бы намного больше. Попробуйте поэкспериментировать с моделью. Получится ли у вас расширить ее до нескольких перекрестков? Расскажите в комментариях, что у вас получилось. ⭐ Большое спасибо команде Skymind, в частности, Сэмюэлю Одету и Эдуардо Гонсалесу, за их участие в этом проекте; их вклад был неоценим. Если у вас возникли вопросы о библиотеке DL4J, использованной в модели, то их можно задать на странице команды в Gitter. Другие материалы о том, как ИМ используется вместе с ИИ: Видео: Имитационные модели – виртуальная среда для обучения и тестирования ИИ для бизнес-приложений Общая информация: Имитационная платформа для обучения и тестирования ИИ для бизнес-приложений Аналитическая статья (на англ.): ИИ и имитационное моделирование для бизнеса Блог: Искусственный интеллект и имитационное моделирование Блог: Что общего у ИМ, машинного обучения и глубокого обучения? Видео: ИМ и обучение с подкреплением – мнение экспертов Видео вебинара: Тренировка алгоритмов ИИ с помощью ИМ и глубокого обучения Видео вебинара от Skymind и AnyLogic: ИМ и автоматическое машинное обучение