Uploaded by Анна Борисова

Введение в машинное обучение

advertisement
Введение в
машинное
обучение
Основные понятия
• О чем нужно помнить
GIGO (англ. garbage in, garbage out
«мусор на входе — мусор на выходе») —
принцип в информатике, означающий, что
при неверных входящих данных будут
получены неверные результаты, даже если
сам по себе алгоритм правилен. В
русскоязычной культуре аналогом принципа
является выражение «что посеешь, то и
пожнёшь».
Давайте узнаем больше,
На облаке тэгов
вынесены данные,
которые мы
обрабатываем с
помощью алгоритмов
машинного обучения.
Назовите их
3
Краудсорсинг
Одним из способов сбора и разметки
данных для обучения моделей является
краудсорсинг, при этом можно выделить
три типа краудсорсинга:
1) наемный труд, к котором привлекаемые
люди получают оплату за свою работу;
2) игры с целью (англ. games with a
purpose; GWAP), где задача
представлена как игра;
3) привлечение волонтеров
Одна голова хорошо, а
тысяча - лучше
Прежде, чем начать работу определитесь с целью
Что будет уметь делать ваша модель?
1.
Автоматизировать
Предупреждать или подсказывать
2.
3.
4.
Организовывать, представляя объекты
в порядке, который может быть полезен
пользователю
Извлекать
Рекомендовать
Классифицировать
Синтезировать(например, генерировать
новый текст, изображение, звук или
другой объект, аналогичный объектам
в коллекции)
Обнаруживать новизну или аномалию
Аннотировать
6
Метаданные
Если вы перегружены
7
Аугментация данных – один из
методов, к которому прибегают
аналитики
Если вы перегружены
8
Какие данные можно считать хорошими?
1. содержат достаточно информации, которую можно использовать
для моделирования;
2. Довольно полно покрывают намерения относительно применения
модели;
3. Отражают реальные входные данные, которые модель будет
видеть на этапе эксплуатации; 
4. Максимально несмещенные;
5. не являются результатом самой модели;
6. Метки согласованы;
7. Данные достаточно велики для обобщаемости
Если вы перегружены
9
В процессе ETL нам нужно заполнить пропуски, найти опечатки, объединить все данные в
источники
На следующем этапе – подготовки данных мы их ОБРАБАТЫВАЕМ, чтобы их можно было подать на
вход модели машинного обучения
В основном выделяют три основных аспекта подготовки данных
1. Нормирование данных
2. Категориальные данные
3. Преобразование циклических переменных
Download