Uploaded by Лиля Султанова

Вопросы Прикладные задачи математической статистики

advertisement
1. Какое определение машинному обучению представил Том Митчелл в1998 году?
a. *компьютерная программа обучается из опыта E по отношению к задаче T с
некоторой мерой производительности P, если производительность на задаче T,
оцененная мерой P, растет с опытом E
b. компьютерная программа обучается из опыта E по отношению к задаче T с
некоторой мерой обучаемости Z
c. компьютерная программа обучаемая из опыта E если производительность на
задаче T, оцененная мерой P, растет с опытом E
d. компьютерная программа обучаемая прямо пропорционально поступающему ей
опыту E
2. Функция стоимости.
a. функция параметры которой подобранны так, чтобы получить оптимальную
стоимость товара относительно затрат на его производство
b. *функция параметры которой подобранны так, чтобы полученная прямая была, в
некотором смысле, максимально близка ко всем точкам на графике с известными
данными
c. функция, определяющая минимальную стоимость производимой услуги или
товара с учетом спроса и предложения
d. функция, минимизируя которую можно оценить полезные свойства того или
иного процесса
3. Градиентный спуск. Логика
a. Нужно выбрать какое-то стартовое значение θ. Далее изменять его в направлении
антиградиента с определенным шагом до тех пор, пока очередной шаг не станет
меньше стартового значения.
b. Нужно выбрать какое-то стартовое значение θ. Далее изменять его в
направлении антиградиента с определенным шагом до тех пор, пока очередной шаг
не станет больше какого-то заданного значения
c. Нужно выбрать какое-то стартовое значение θ. Далее изменять его в направлении
градиента до тех пор, пока очередной шаг не станет меньше какого-то заданного
значения
d. *Нужно выбрать какое-то стартовое значение θ. Далее изменять его в
направлении антиградиента с определенным шагом до тех пор, пока очередной шаг
не станет меньше какого-то заданного значения
4. Алгоритм градиентного спуска.
a. *Задать начальное значение θ, задать ε и повторять, пока очередной шаг не будет
меньше
b. Задать шаг и повторять поиск значения пока не будет самое минимальное
c. Задать несколько начальных значений и варьировать шаг до получения
минимального
d. Задать начальное значение и шаг равный ему, сотая итерация даст верное
значение
5. Превращение линейной регрессии в нелинейную от признаков
a. Для этого можно сконструировать новые признаки, определенные, как
дискриминанты от произвольных функций.
b. *Для этого можно сконструировать новые признаки, определенные, как
произвольные функции имеющихся признаков.
c. Для этого можно продублировать уже имеющиеся признаки, но с
противоположными значениями
d. Для этого можно использовать один из уже имеющихся признаков и
использовать его, как новый, необходимое количество раз
6. Плюсы и минусы методов градиентного спуска и точного решения.
a. В градиентом спуске не нужны итерации, а в методе точного решения нужны
b. В градиентом спуске не нужно определять стартовый параметр, а в методе
точного решения необходимо
c. * В градиентом спуске нужно определять стартовый параметр, а в методе
точного решения нет
d. Градиентный спуск плохо работает при большом n, а метод точного решения
хорошо
7. Нахождение точных оптимальных параметров модели линейной регрессии.
Нормальное уравнение.
a. Вводим матрицу данных X, в строках записаны признаки каждого примера из
выборки. Таким образом, она имеет m (кол-во признаков) строк и n (кол-во
примеров) + 1 столбцов
b. Вводим матрицу данных X, в строках записаны признаки каждого примера из
выборки. Таким образом, она имеет m (кол-во примеров) строк и n (кол-во
признаков) + 3 столбцов. Тройка прибавляется из-за того, что мы добавили
фиктивный признак = 3
c. Вводим матрицу данных X, в столбцах записаны признаки каждого примера из
выборки. Таким образом, она имеет l (кол-во примеров) строк и n (кол-во
признаков) + 1 столбцов. Единица прибавляется из-за того, что мы добавили
фиктивный признак = 1
d. *Вводим матрицу данных X, в строках записаны признаки каждого примера из
выборки. Таким образом, она имеет m (кол-во примеров) строк и n (кол-во
признаков) + 1 столбцов. Единица прибавляется из-за того, что мы добавили
фиктивный признак = 1
8. Написать определение логарифмической регрессии.
9. Примеры задач классификации.
10. Как выглядит логистическая функция?
*- 𝑓(𝑧)=1/(1+𝑒^−𝑧)
-ℎ𝜃(𝑥)=𝑓(𝜃𝑇𝑥)=11+𝑒−𝜃𝑇 𝑥
-𝑙𝑜𝑠𝑠(ℎ𝜃(𝑥),𝑦)=12(ℎ𝜃(𝑥)−𝑦)2
-𝑃=𝑇𝑃/𝑇𝑃+𝐹𝑃
11. Функция потерь. Требования функции потерь.
12. Почему нельзя использовать ту же функцию потерь для логистической регрессии,
что и для линейной регрессии?
13. Классификация при более чем двух возможных классах, самый распространенный
способ и его суть.
14. Что такое переобучение?
15. Зачем нужны искусственные нейронные сети (ИНС)?
- Для решения задач программирования на языке Python
*- Основные области применения нейронных сетей — прогнозирование, принятие
решений, распознавание образов, оптимизация, анализ данных.
- Для разработки современных космических ракет
- Для успешной сдачи экзаменационной сессии
16. Как возникла идея проектирования ИНС?
- Идея возникла еще у Ньютона, когда на него упало яблоко
- Идея принадлежит Тому Митчеллу, который в 1998 году решил смоделировать
работу своего мозга
*- Идея проектирования ИНС возникла в процессе изучения принципов
функционирования головного мозга у живых существ
- Идея была разработана студентами МИРЭА для конкурса
17. Какого этапа нет в алгоритме прямого распространения сигнала (в упрощенном
виде)?
- На вход нейронной сети подается набор признаков (с фиктивным) x.
- Вычисляются функции активации нейронов 1-ого скрытого слоя (он же второй
слой нейронной сети) по формуле: a(2)= f(Θ(1)∗x)
*- Все центроиды переносятся в центры соответствующих кластеров
- Получив вектор значений функций активации у нейронов второго слоя,
интерпретируем их, как новый вектор признаков уже для 2-ого скрытого слоя,
добавляя в начало фиктивный признак, равный единице.
18. Функция стоимости для нейронной сети.
1
(𝑖)
(𝑖)
(𝑖)
(𝑖)
𝐾
*- 𝐽(𝜃) = − 𝑚 [∑𝑚
𝑖 = 1 ∑𝑘 = 1 𝑦𝑘 𝑙𝑛 (ℎ𝜃 (𝑥 )𝑘 ) + (1 − 𝑦𝑘 )𝑙𝑛 (1 − ℎ𝜃 (𝑥 )𝑘 )] +
𝜆
2𝑚
2
(𝑙)
𝑠𝑙 + 1
𝑠𝑙
∑𝐿−1
𝑙 = 1 ∑𝑗 = 1 ∑𝑖 = 1 (𝜃𝑖𝑗 )
K – количество нейронов на выходе
L – количество слоев в сети
𝐹=2
𝑃𝑅
𝑃+𝑅
𝑁𝑖
1
𝑐𝑖 = ∑ 𝑥 (𝑗) , 𝑁𝑖 − количество объектов в кластере, 𝑖 = 1. . 𝐾
𝑁𝑖
𝑗=1
- F=m*a
19. Где используется алгоритм обратного распространения ошибки?
*- Чтобы подобрать параметры модели, необходимо решить задачу оптимизации
функции стоимости по параметрам градиентными методами. Для этого нам нужно
рассчитать этот самый градиент. Эффективным методов расчета является алгоритм
обратного распространения ошибки.
- Для поиска способов кластеризации
- Для расчета функции стоимости
- Для улучшения градиентного спуска
20. Если есть численный расчет градиента, зачем нужен алгоритм обратного
распространения ошибки?
- Численный метод не научились использовать правильно
*-Численный расчет работает неприемлемо долго по сравнению с предложенным
алгоритмом, который считает градиент аналитически.
- Для перепроверки
- Численный метод слишком дорогой
21. Как задавать начальные значения параметров в ИНС?
*- случайными малыми величинами, например, на отрезке [0; 1]
- задать всем параметрам значения 0
- доверить это дело компьютеру
- задать каждому параметру значение от 1 до бесконечности с шагом 1
22. Что не нужно для построения модели на основе ИНС?
- Выбрать архитектуру сети
- Обучить выбранную ИНС
- Выполнить алгоритм обратного распространения ошибки на всем наборе данных
*- Рассчитать функцию экспоненты
23. Какая ставится цель при проектировании моделей и алгоритмов машинного
обучения?
1) Сравнить результаты
2) Получить новый набор данных
3)*Максимально приблизить значения, выдаваемые моделью к реальным
4) Получить прогнозные значения
24. В чем выражается проблема переобучения?
1) В большой ошибке на обучающем наборе, но малой ошибке на новых данных, не
входящих в обучающий набор
2)*В малой ошибке на обучающем наборе, но большой ошибке на новых данных,
не входящих в обучающий набор
3) Только в малой ошибке на обучающем наборе
4) Только в большой ошибке на новых данных, не входящих в обучающий набор
25. На какие параметры стоит опираться при выборе модели машинного обучения?
1) Модель не должна быть создана на основе показателей
классификации/регрессии
2) В модели должны присутствовать аномалии или выбросы
3)*Модель должна учитывать распределение данных, физическую суть
анализируемого процесса
4) Модель должна быть подвергнута ресамплингу
26. Что в машинном обучении показывает кривая обучения?
1) Кривая обучения нужна только для построения графиков
2) Кривая обучения — это тоже самое, что и кривая ROC
3) Кривая обучения позволяет найти точку, в которой алгоритм перестает учиться
4)*Кривая обучения показывает оценку валидации
27. Зачем данные делят не на две части, а на три: обучающую, валидационную и
тестовую?
1) На обучающей части подбирают значения гиперпараметров, на валидационной –
обучаемых параметров, на тестовой оценивают качество модели
2)*На обучающей части подбирают значения обучаемых параметров, на
валидационной – гиперпараметров, на тестовой оценивают качество модели
3) На обучающей и тестовой частях подбирают значения обучаемых параметров, на
валидационной – оценивают качество модели
4) На обучающей части подбирают значения обучаемых параметров, на
валидационной – оценивают качество модели, на тестовой - гиперпараметров
28. Что понимается под необучаемыми параметрами (гиперпараметрами)? Приведите
примеры.
1) Гиперпараметры находятся в процессе оптимизации функции стоимости, но не
влияют на ее результат
2) Гиперпараметрами называют параметры, которые не используются для
управления процессом обучения
3)*Гиперпараметры не находятся в процессе оптимизации функции стоимости, но
влияют на ее результат
4) Гиперпараметр является параметром, значение которого получены с помощью
обучения
29. Выберите верный путь исправления большой ошибки, полученной в ходе
реализации алгоритма модели
1) Нужно сразу же заменить модель
2)*Нужно собрать больше данных для обучения модели, попробовать изменить
набор признаков, по которому обучалась модель
3) Нужно изменить набор признаков, по которому обучалась модель, не трогая
параметр регуляризации
4) Нужно увеличить параметр регуляризации
30. Сколько в случае линейной разделимости объектов выборки, можно провести
разделяющих плоскостей?
1
*бесконечное количество
2
0
31. Как выбрать наилучшую разделяющую плоскость?
Плоскость которая ближе всех к обоим объектам
*Один из вариантов – та плоскость, которая максимально далека от объектов обоих
классов, но при этом является разделяющей
Плоскость, которая максимально далека от объектов обоих классов, но при этом не
является разделяющей
Любая плоскость подойдет
32. Какой подход лег в основу проектирования алгоритма метода опорных векторов?
Наилучшая разделяющая плоскость - та, которая максимально далека от объектов
обоих классов, но при этом не является разделяющей
*Наилучшая разделяющая плоскость - та, которая максимально далека от объектов
обоих классов, но при этом является разделяющей
Наилучшая разделяющая плоскость - та, которая ближе всех к обоим объектам
Лучшая плоскость не может быть определена.
33. Что определяет теорема Мерсера?
Теорема Мерсера определяет нужную разделяющую плоскость
*Теорема Мерсера определяет необходимые и достаточные условия, которыми
должна обладать функция K(x,x’) для того, чтобы являться ядром
Теорема Мерсера определяет ядро
Теорема Мерсера определяет сколько в случае линейной разделимости объектов
выборки, можно провести разделяющих плоскостей
34. Условия теоремы Мерсера?
-Функция двух переменных
𝐾(𝑥, 𝑥) ≠ 𝐾(𝑥 ′ , 𝑥) и
является ядром тогда и только тогда, когда
*Функция двух переменных
является ядром тогда и только тогда, когда
она симметрична, то есть
неотрицательно определена, то есть
функции
-Функция двух переменных
𝐾(𝑥, 𝑥′) ≠ 𝐾(𝑥 ′ , 𝑥);
;
для любой
является ядром тогда и только тогда, когда
-Функция двух переменных
является ядром тогда и только тогда, когда
она не симметрична и отрицательно определена
35. Что такое функция ядра?
Ядром линейного отображения A:V→W называется множество таких векторов
v∈V, что A(v)=oW, т.е. множество векторов из V, которые отображаются в нулевой
вектор пространства W
*Пусть – некоторое пространство. Тогда отображение называется ядром или kernel
function, если оно представимо в виде: , где – некоторое отображение . Теорема
Мерсера устанавливает необходимые и достаточные условия, при которых
отображение является ядром
Отображение из исходного признакового пространства в некоторое спрямляющее
пространство
Глобальная функция
36. Выбрать пример ядра.
𝐾(𝑥, 𝑥 ′ ) ≠ 𝐾(𝑥, 𝑥′)
*Тривиальное ядро:
𝐾(𝑥, 𝑥 ′ ) ≠ 𝐾1 (𝑥, 𝑥 ′ )𝐾2 (𝑥, 𝑥 ′ )
𝐾(𝑥, 𝑥 ′ ) ≠ 𝐾1 (𝑥, 𝑥 ′ ) + 𝐾2 (𝑥, 𝑥 ′ )
37. Как избежать переобучения/недообучения модели?
38. Что такое обучение без учителя?
39. Постановка задачи кластеризации.
40. Опишите алгоритм k-средних.
41. Как провести проверку градиента?
42. Как строится граница решений?
43. Как можно улучшить градиентный спуск?
44. В чем смысл регуляризации?
45. Что такое начальная инициализация параметров?
46. В чем заключается суть задачи по сокращению размерности имеющихся данных.
47. Каков алгоритм метода главных компонент?
48. Какое преобразование требуется для восстановления исходного пространства
признаков?
49. Что такое нормировка признаков и зачем она нужна?
50. Где может использоваться метод главных компонент и какие существуют
недостатки у этого метода?
Download