Загрузил Арина

Введение в ИНС

Реклама
Введение в ИНС
Лекция 1
2/7/2023
ВВЕДЕНИЕ В ИНС
1
Литература
С.Хайкин. Нейронные сети: полный курс/ пер. с анг.. – 2-е изд., испр. – М.: Изд. Дом
Вильямс. 2006. – 1104 с.
Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение / пер. с анг.. – 2-е изд., испр. –
М.: ДМК Пресс, 2018. – 652 с.
07.02.2023
ВВЕДЕНИЕ В ИНС
2
Содержание
1.
Задачи искусственного интеллекта ИИ, машинного обучения МО, обучения
представлений ОП, глубокого обучения ГО.
2.
Разнообразие методов и алгоритмов МО: обучение с учителем, без учителя, с
частичным привлечением учителя.
3.
Алгоритмы машинного обучения.
4.
Обучение и обобщение. Недообучение и переобучение.
5.
Классические сети прямого распространения сигнала
6.
Глубокие сети прямого распространения
7.
Перекрестная энтропия
8.
Блоки линейной ректификации и разреженное представление сетей
07.02.2023
ВВЕДЕНИЕ В ИНС
3
Задачи искусственного интеллекта
Задачи, которые решают с использованием
▪ искусственного интеллекта (ИИ),
▪ машинного обучения и
▪ глубокого обучения.
Глубокое
обучение
07.02.2023
Обучение
представлений
МО
ИИ
4
Проблемы искусственного интеллекта
В основе ИИ - база знаний и база утверждений, использующие машину
логического вывода. Процесс логического вывода основан на сложных логических
правилах. Система ИИ должна уметь самостоятельно накапливать знания.
Машинное обучение позволяет самостоятельно находить закономерности в
данных. Для этого МО путем их предварительной обработки (нормализации,
преобразования координат, извлечения главных компонент и др.). Примером
является подготовка данных для логистической регрессии.
Обучение представлений (ОП) - совершенствование алгоритмов ИИ и МО
связано с автоматическим формированием представлений данных для задач
регрессии, предсказания или классификации.
Глубокое обучение представляет собой частный случай МО и ОП, за счет
автоматического получения иерархии вложенных представлений в скрытых слоях,
который позволяет достичь большей эффективности.
07.02.2023
5
Глубокое обучение
Глубокое обучение является разделом машинного обучения.
Глубокое обучение использует многослойное или иерархическое обучение,
которое почти всегда выполняется с использованием нейронных сетей.
Число слоев глубоких нейронных сетей достигает нескольких сотен. Для
обучения глубоких сетей требуется иметь большие объемы
экспериментальных данных.
07.02.2023
6
Задачи машинного обучения
Классификация. Определение к какому классу из k классов принадлежит некоторый пример. Классы
предварительно заданы.
Кластеризация. Разбиения множества объектов на группы, называемые кластерами. Перечень групп
четко не задан и определяется в процессе работы алгоритма.
Регрессия. В этой задаче программа должна предсказать числовое значение выходных данных по
измеренным или известным входным данным.
Транскрипция. Запись устной речи в полном соответствии с ее звучанием. Преобразование устной
речи в письменную.
Машинный перевод. Обычно применяются к естественным языкам (например, перевод с русского на
французский).
Структурный вывод. Классификация изображений и подписывание изображения в виде предложения
на естественном языке
Обнаружение аномалий. Динамическая классификация процессов, например, процессов вторжения в
компьютерную сеть, мошенничества с кредитными картами.
Подавление шума. Неизвестный шум искажает полезный сигнал, шум и сигнал не отличаются по
частоте (внутри-диапазонный шум).
07.02.2023
ВВЕДЕНИЕ В ИНС
7
Алгоритмы машинного обучения
Контролируемое обучение (с учителем). Алгоритм имеет набор данных, в котором
каждый пример снабжен меткой, которая определяет целевой класс.
Не контролируемое обучение (без учителя). Алгоритм должен самостоятельно выявить
классы в предъявляемых данных, определить структуру набора данных.
Полу-контролируемое обучение. Алгоритм включает небольшой объем помеченных
данных с большим объемом немаркированных данных во время обучения.
Немаркированные данные вместе с небольшим количеством помеченных данных, могут
значительно повысить точность обучения.
Обучение с подкреплением. Рассматривает систему состоящую из агента и окружающей
среды., где агент обучается путем взаимодействия со средой, при этом агент воздействует
на среду, а среда, в свою очередь, воздействует на агента.
07.02.2023
ВВЕДЕНИЕ В ИНС
8
Обучение и обобщение
Обучение выполняется с использованием размеченных данных. Обычно количество данных
для обучения ограничено. Цель обучения – создание такой ИНС, которая способна выполнять
обобщение.
Обобщение - эта способность ИНС правильно работать на ранее не предъявлявшихся данных.
Ошибка обучения – это ошибка ИНС, которая была получена на обучающем наборе входных
данных.
Ошибка обобщения – это ошибка ИНС, которая получается на новых входных данных,
неизвестных при обучении.
Повышение качества работы алгоритма машинного обучения:
◦ сделать ошибку обучения как можно меньше;
◦ сократить разрыв между ошибками обучения и тестирования.
07.02.2023
ВВЕДЕНИЕ В ИНС
9
Недообучение и переобучение
Недообучение. Модель не позволяет получить достаточно малую ошибку на обучающем наборе
Переобучение – разрыв между ошибками обучения и тестирования слишком велик.
Емкость модели (количество свободных коэффициентов) позволяет управлять переобучением или
недообучением.
Недообучение
07.02.2023
Адекватная модель
ВВЕДЕНИЕ В ИНС
Переобучение
10
Расхождение между ошибкой обучения и
ошибкой обобщения
Принцип «бритва Оккама» (приблизительно 1287–1347) утверждает, что из всех гипотез, одинаково
хорошо объясняющих наблюдения, следует выбирать «простейшую»
Расхождение между ошибкой обучения и ошибкой обобщения ограничено сверху величиной, которая
растет с ростом емкости модели, но убывает по мере увеличения количества обучающих примеров
(Vapnik and Chervonenkis, 1971).
Зона
недообучения
Ошибка обучения
Ошибка обобщения
Зона
переобучения
Емкость модели
07.02.2023
ВВЕДЕНИЕ В ИНС
11
Компромисс между смещением и дисперсией
Сравнение среднеквадратической ошибки (СКО) двух оценок.
Дисперсия ошибки:


MSE = E ( cp − ) 2 = Bias ( cp ) 2 + Var ( cp )
o Дисперсия ошибки обобщения –имеет смещение и дисперсию.
o Увеличение емкости модели -> повышение дисперсии и снижение смещения.
Зона
недообучения
Смещение
Зона
переобучения
Ошибка обобщения
Дисперсия
Емкость модели
07.02.2023
ВВЕДЕНИЕ В ИНС
12
Кластеризация
Кластерный анализ — многомерная статистическая процедура, выполняющая ;
сбор данных, содержащих информацию об объекте или процессе;
упорядочение объектов в сравнительно однородные группы;
задача кластеризации относится к классу задач обучения без учителя.
07.02.2023
ВВЕДЕНИЕ В ИНС
13
Кластеризация методом k-средних
Инициализация k различных центроидов {μ(1), …, μ(k)},
Поочередно выполняются два шага до достижения сходимости.
◦ Обучающий пример относится к i-му кластеру с центром μ(i).
◦ Центроиду μ(i) присваивается значение, равное среднему всех
отнесенных к i-му кластеру примеров x(j).
Не существует однозначный критерий, позволяющий судить о
количестве классов
07.02.2023
ВВЕДЕНИЕ В ИНС
14
Алгоритмы обучения без учителя
Обучение без учителя - попытки извлечь информацию из распределения данных.
Задача обучения без учителя – найти «наилучшее» представление данных.
Три самых распространенных типа представления:
◦ Представления данных высокой размерности в пространстве меньшей размерности,
◦ Независимые представления. это попытка разделить источники так, чтобы измерения
представления оказались статистически независимыми.
07.02.2023
ВВЕДЕНИЕ В ИНС
15
Проклятие размерности
Проклятие размерности. Сложность алгоритмов машинного обучения возрастает экспоненциально с
увеличением числа переменных
Соответственно экспоненциальный рост необходимых экспериментальных данных в зависимости от
размерности пространства
Пусть в одномерном случае имеется 10 областей. Достаточное число примеров должно попадать в
каждую область (клетку).
В двумерном случае приходится учитывать 10×10 = 100 областей. В трехмерном случае число областей
возрастает до 10×10×10 = 1000 областей.
Одномерный
07.02.2023
Двумерный
ВВЕДЕНИЕ В ИНС
Трехмерный
16
Обучение многообразий
Многообразие – это связная область. С точки зрения математики, это множество точек,
ассоциированных с окрестностью каждой точки.
Выборка данных в двумерном пространстве концентрируется в окрестности одномерного
многообразия. Сплошной линией показано многообразие, которое требуется найти в процессе
обучения.
Алгоритмы обучения многообразий преодолевают это препятствие, предполагая, что большая
часть ℝn – недопустимые входные данные,
07.02.2023
ВВЕДЕНИЕ В ИНС
17
Многообразия в изображениях, строках
текста и звуковых файлах
При обработке изображений, звука или текста, предположение о многообразии приближенно правильно.
Гипотезы о многообразии - встречающееся в жизни распределение вероятности в изображениях, строках
текста и звуковых фрагментах имеет высокую концентрацию.
Изображения, встречающиеся в приложениях ИИ, занимают пренебрежимо малую долю всего
пространства изображений
Случайно сгенерированное изображения
07.02.2023
Многообразие лиц
ВВЕДЕНИЕ В ИНС
18
Самоорганизирующиеся карты
Свойство 1. Аппроксимация входного пространства. Карта признаков Ф в выходном пространстве А
реализует аппроксимацию пространства Х.
Свойство 2. Топологический порядок. Карта признаков Ф является топологически упорядоченной в
выходном пространстве А.
Свойство 3. Соответствие плотности. Карта признаков Ф отражает статистику входного сигнала.
Унифицированная матрица расстояний (u-matrix). При использовании этого метода вычисляется
расстояние между вектором весов нейрона в сетке и его ближайшими соседями
07.02.2023
ВВЕДЕНИЕ В ИНС
19
Классификация методом разделения
гиперплоскостью
Классификация на основе гиперплоскости:
положительный класс, если значение wТ x + b положительно,
отрицательный класс – если wТ x + b отрицательно.
w T x + b  0 → class 1
 T
w x + b  0 → class − 1
07.02.2023
ВВЕДЕНИЕ В ИНС
20
Классификация методом опорных
векторов
Support Vector Machine – SVM. (Vapnik, 1995).
Классификация на основе гиперплоскости:
положительный класс, если значение wТ x + b положительно,
отрицательный класс – если wТ x + b отрицательно.
2
w
07.02.2023
2
→ max
При условии:
w
w T x + b  0 → class 1
 T
w x + b  0 → class − 1
ВВЕДЕНИЕ В ИНС
21
Трюк с ядром
Трюк с ядром. Чтобы учесть возможность нелинейного разделения
классов, используем трюк с ядром (Kernel trick).
◦ Заменить x на функцию признаков ϕ(x),
◦ Скалярное произведение функцией k(x, x(i)) = ϕ(x) · ϕ(x(i)) называется ядром.
Гауссово ядро k(u, v) = 𝒩(u – v; 0, σ2I),
𝒩(x; μ, Σ) – функция плотности нормального распределения.
07.02.2023
ВВЕДЕНИЕ В ИНС
22
Классические сети с прямым
распространением сигнала
Универсальная теорема аппроксимации (Hornik, Cybenko, 1989) утверждает, что сеть прямого
распространения с линейным выходным слоем и, по крайней мере, одним скрытым слоем с функцией
активации например, как логистический сигмоид, может аппроксимировать любую измеримую
функцию, отображающую одно конечномерное пространство в другое с любой точностью, при условии
что в сети достаточно скрытых блоков.
Обучение может оказаться невозможным:
◦ алгоритм оптимизации может не найти значения параметров, которые определяют аппроксимацию.
◦ из-за переобучения алгоритм оптимизации может выбрать не ту аппроксимирующую функцию.
◦ не существует универсального верховного алгоритма машинного обучения, который всегда найдет
аппроксимирующую функцию.
В худшем случае может понадобиться экспоненциальное число скрытых блоков
07.02.2023
ВВЕДЕНИЕ В ИНС
23
Искусственный нейрон
Выход нейрона вычисляется по формуле:
Вход1



f ( xi , wi ) =  
( xi , wi ) 
 i


w1
w2
Нейрон
Вход2
Активационная
функция
Выход
w3
Вход3
07.02.2023
НЕЙРОННЫЕ СЕТИ - 24 2015
24
Полносвязные сети
Однослойная полносвязная сеть
прямого распространения сигнала
Входной слой
-источник
сигналов
07.02.2023
Выходной
слой
Двуслойная полносвязная сеть
прямого
распространения
сигнала
Входной слой
-источник
сигналов
НЕЙРОННЫЕ СЕТИ - 24 2015
Скрытый
слой
нейронов
Выходной
слой
нейронов
25
Типы активационных функций
Пороговая активационная функция. Функция Хевисайда (единичная ступенчатая
функция, функция единичного скачка «ступенька»)
- позволяет получать только бинарный ответ.
- не является непрерывно дифференцируемой.
- не дифференцируема в точке 0 и её производная равна 0 во всех других точках, так что методы
градиентного спуска не дают никакого успеха для неё.
 1 if v  0

( v ) =  0 if v = 0
− 1 if v  0

1 if v  0
( v ) = 
0 if v  0
07.02.2023
НЕЙРОННЫЕ СЕТИ - 24 2015
+1
−1
26
Типы активационных функций
Линейная активационная функция позволяет получать спектр значений, а не только бинарный ответ.
Производная функции – постоянная величина.
Метод градиентного спуска при обучении, имеет постоянный градиент, не связанный с входами Х. Это
нехорошо.
Многослойная сеть с линейными активационными функциями не имеет смысла, поскольку такую сеть
можно свести к однослойной.
1 if v  +1

( v ) =  v 0.5  v  −0.5
0 if v  −1

( v ) = v
07.02.2023
+1
0
НЕЙРОННЫЕ СЕТИ - 24 2015
if v  +1
1

( v ) =  v 0.5  v  −0.5
− 1 if v  −1

+1
−1
27
Активационная функция - сигмоида
Свойства сигмоиды:
◦ гладкая функция, подобная ступенчатой.
◦ благодаря нелинейности позволяет составлять слои.
◦ имеет гладкий градиент.
◦ стремится прийти к одной из границ 0 или -1 (возможность классификации и
предсказания).
◦ самая часто используемая активационная функция в ИНС.
Недостатки:
◦ Градиент в областях -2 и 2 имеет малые значения, что приводит к проблеме
«исчезновение градиента».
◦ При этом ИНС обучается крайне медленно.
( v ) =
07.02.2023
НЕЙРОННЫЕ СЕТИ - 24 2015
1
1 + exp( −av )
28
Активационная функция - гиперболический
тангенс
Свойства гиперболического тангенса
- часто используемая активационная функция ,
- нелинейная функция, которая позволяет комбинировать слои многослойной сети,
- градиент тангенциальной функции больше, чем у сигмоиды (производная круче),
- существует проблема «исчезновения градиента».
( v ) = tanh( v )
07.02.2023
НЕЙРОННЫЕ СЕТИ - 24 2015
29
Улучшенная линейная активационная функция
◦
◦
◦
◦
◦
◦
ReLu (улучшенная линейная функция) нелинейная, что позволяет соединять слои.
Любая функция может быть аппроксимирована комбинацией ReLu.
Область допустимых значений ReLu — [0,inf), то есть активация может “взорваться”.
Сигмоида или гиперболический тангенс {0,1} (-1,1) позволяют получить плотную активацию.
Разреженная активация при ReLu - при случайной инициализации имеет 50% нулевых активаций.
Проблема умирающего ReLu - градиент левой части ReLu равен 0. В результате некоторые
нейроны выключатся и делают значительную часть нейросети пассивной..
◦ ReLu имеет простые математические операции. Поэтому ReLu используют при создании глубоких
нейронных сетей.
07.02.2023
НЕЙРОННЫЕ СЕТИ - 24 2015
30
Функция softmax для вероятностной модели
нейрона
Применяется в задачах классификации позволяет получить значения субъективных вероятностей
классов.
ИНС тремя выходами при классификации может дать 0.9, 0.2, 0.4 что соответствует вероятностям 90%,
20%, 40%. Это нарушает аксиому теории вероятностей.
Необходимо ввести новые активационные функции - softmax:
i =
exp( zi )
 exp(z j )
jgroup
i – индекс выходного нейрона, j – индекс каждого нейрона в группе выходных нейронов,
Например, вероятность того, что объект принадлежит классу 1 из тех возможных классов 60%,
классу 2 – 13%, классу 3 – 27 %..
07.02.2023
НЕЙРОННЫЕ СЕТИ - 24 2015
31
Глубокие сети прямого распространения
сигнала
Глубокие ИНС прямого распространения сигнала можно рассматривать как машины для аппроксимации
функций.
Размерность скрытых слоев определяет ширину модели.
Ректифицированная линейная функция активации рекомендуется для большинства глубоких ИНС
прямого распространения сигнала.
При этом аппроксимирующая функция является кусочно-линейной. Линейные модели легко поддаются
оптимизации градиентными методами.
Из ректифицированных линейных функций можно построить универсальный аппроксиматор.
0
0
Функция абсолютной ректификации
07.02.2023
Функция линейной ректификации
ВВЕДЕНИЕ В ИНС
32
Глубокие сети прямого распространения
Семейства функций можно эффективно аппроксимировать с помощью архитектуры с
глубиной ИНС. Глубина - d.
Сеть с глубиной меньше d должна быть намного шире по размеру.
С помощью достаточно большой сети ректификаторов можно представить произвольную
функцию.
Число линейных участков, представимых глубокой сетью ректификаторов число линейных
участков, представимых глубокой сетью ректификаторов.
Эмпирически показано, что для широкого класса задач увеличение глубины влечет
улучшение обобщения
07.02.2023
ВВЕДЕНИЕ В ИНС
33
Перекрестная энтропия
Критерий обучения ИНС – минимум СКО был популярен в 1980-е и 1990-е годы.
ИНС использующие критерий минимума СКО, страдали от насыщения и медленного
обучения.
Замена критериев СКО семейством функций потерь на основе перекрестной энтропии
позволила ускорить обучение.
Использование перекрестной энтропии заметно повысило качество моделей с сигмоидой
и softmax функций активации.
Критерии перекрестной энтропии постепенно вытесняют критерии СКО. Критерии
перекрестной энтропии основаны на принципе максимального правдоподобия.
07.02.2023
ВВЕДЕНИЕ В ИНС
34
Блоки линейной ректификации
Замена сигмоидных скрытых блоков кусочно-линейными блоками линейной
ректификации - max{0, z} появилась в ранних моделях нейронных сетей.
В 1980-е годы используют в основном сигмоиды, которые лучше работают в малых
нейронных сетях.
Использование ректифицирующей нелинейности – самый важный фактор улучшения
качества системы распознавания.
Идея и восходит к когнитрону и неокогнитрону.
07.02.2023
ВВЕДЕНИЕ В ИНС
35
Разреженные представления
Под разреженным понимается такое представление, многие элементы которого равны 0 (или
близки к 0).
1-модель линейной регрессии с разреженной параметризацией,
2- модель линейной регрессии с разреженным представлением h данных x.
с разреженной
параметризацией
07.02.2023
с разреженным
представлением данных
ВВЕДЕНИЕ В ИНС
36
Обучение с частичным привлечением учителя
Маркировка данных может быть дорогой или длительной, поскольку для этого может
потребоваться доступ к экспертам в предметной области.
Немаркированные данные дешевы и их легко собирать и хранить
Принцип распространения меток. Примеры из одного класса должны иметь похожие
представления.
Снижение размерности, например, применение метода главных компонент в качестве
предварительной обработки.
07.02.2023
ВВЕДЕНИЕ В ИНС
37
Влияние немаркированных данных
Граница решения, которую мы могли бы принять, увидев
только один положительный и один отрицательный пример.
Граница решения, которую мы могли бы принять, если бы в
дополнение к двум помеченным примерам нам дали набор
немаркированных данных (серые кружки).
07.02.2023
ВВЕДЕНИЕ В ИНС
38
Предположения
Предположение о непрерывности
Точки, расположенные близко друг к другу, с большей вероятностью будут иметь метку.
В областях с низкой плотностью несколько точек, находящиеся рядом друг с другом,
находятся в разных классах.
Кластерное предположение
Точки в одном кластере с большей вероятностью имеют общую метку. Обучение признаков
выполняется с помощью алгоритмов кластеризации.
Предположение о многообразии
Данные лежат в пространстве меньшей размерности, чем пространство ввода. Это
позволяет избежать проклятия размерности. Затем обучение может продолжаться с
использованием расстояний, определенных на многообразии.
07.02.2023
ВВЕДЕНИЕ В ИНС
39
Пополнение набора данных
Самый лучший способ повысить обобщаемость – обучить ее на большем объеме
данных.
На практике объем данных ограничен.
Решения проблемы – добавить в обучающий набор искусственно
сгенерированные данные.
Проще всего искусственно генерировать данные для классификации.
При распознавании объектов на изображении применяют сдвиг, поворот
масштабирование изображения, привнесение шума.
07.02.2023
ВВЕДЕНИЕ В ИНС
40
Применение машинного обучения
Заменить человека на сложных участках производства. Развитие киберфизических систем, интернета
вещей, облачных вычислений и когнитивных вычислений позволяет повысить уровень автоматизации.
Четвертая промышленная революция. О переходе к киберфизическим системам принято говорить как о
четвертой промышленной революции, которая приводит к цифровому производству.
Интернет вещей и людей. Информационные потоки между сенсорами, устройствами и людьми
замыкаются через Интернет вещей и людей.
Агрегирование данных. Модели цифрового производства агрегируют низкоуровневые данные от
сенсоров с высокоуровневой контекстной информацией.
Представление данных. На основе этой информации киберфизические системы принимают решения
возможно белее автономно и, в то же время, предоставляют человеку-оператору агрегированную
информацию в удобной визуальной форме.
Технологии цифрового производства объединяют технологии искусственного интеллекта,
компьютерного моделирования, машинного обучения, облачных вычислений, киберфизических систем.
07.02.2023
ВВЕДЕНИЕ В ИНС
41
Свойства биологических нейронов
Ректификация предложена для улавливания следующих
свойств биологических нейронов:
1) для некоторых входных сигналов биологические
нейроны вообще неактивны;
2) для некоторых входных сигналов выходной сигнал
биологического нейрона пропорционален входному
сигналу;
3) большую часть времени биологические нейроны
пребывают в состоянии неактивности (т. е.
характеризуются разреженной активацией).
07.02.2023
ВВЕДЕНИЕ В ИНС
42
Скачать