“Nesterov-final” — // — : — page — # Ю. Е. Нестеров Методы выпуклой оптимизации Издательство МЦНМО г. Москва “Nesterov-final” — // — : — page — # “Nesterov-final” — // — : — page — # Оглавление Предисловие Благодарности Введение Нелинейная оптимизация § .. Задачи нелинейной оптимизации . . . . . . . . . . . . . . ... Общая формулировка задачи . . . . . . . . . . . . . . . . ... Эффективность численных методов . . . . . . . . . . . . ... Оценки вычислительной сложности задач глобальной оптимизации . . . . . . . . . . . . . . . . . . . . . . . . ... Визитные карточки областей оптимизации . . . . . . . § .. Локальные методы безусловной оптимизации . . . . . . ... Релаксация и аппроксимация . . . . . . . . . . . . . . . . ... Классы дифференцируемых функций . . . . . . . . . . . ... Градиентный метод . . . . . . . . . . . . . . . . . . . . . . . ... Метод Ньютона . . . . . . . . . . . . . . . . . . . . . . . . . . § .. Методы первого порядка в нелинейной оптимизации . ... Градиентный метод и метод Ньютона: в чем разница? ... Сопряженные градиенты . . . . . . . . . . . . . . . . . . . ... Условная минимизация . . . . . . . . . . . . . . . . . . . . Гладкая выпуклая оптимизация § .. Минимизация гладких функций . . . . . . . . . . . . . . . . ... Гладкие выпуклые функции . . . . . . . . . . . . . . . . . ... Нижние границы аналитической сложности для класса F L∞,1 (Rn ) . . . . . . . . . . . . . . . . . . . . . . . “Nesterov-final” — // — : — page — # Оглавление ... Сильно выпуклые функции . . . . . . . . . . . . . . . . . . ... Нижние границы аналитической сложности n для класса Sµ∞,1 ,L (R ) . . . . . . . . . . . . . . . . . . . . . . . ... Градиентный метод . . . . . . . . . . . . . . . . . . . . . . . § .. Оптимальные методы . . . . . . . . . . . . . . . . . . . . . . . ... Оптимальные методы . . . . . . . . . . . . . . . . . . . . . ... Выпуклые множества . . . . . . . . . . . . . . . . . . . . . . ... Градиентное отображение . . . . . . . . . . . . . . . . . . ... Методы минимизации на простых множествах . . . . § .. Задача минимизации функций с гладкими компонентами . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... Минимаксная задача . . . . . . . . . . . . . . . . . . . . . . ... Градиентное отображение . . . . . . . . . . . . . . . . . . ... Методы минимизации для минимаксной задачи . . . . ... Оптимизация при функциональных ограничениях . . ... Метод условной минимизации . . . . . . . . . . . . . . . Негладкая выпуклая оптимизация § .. Выпуклые функции общего вида . . . . . . . . . . . . . . ... Мотивировка и определения . . . . . . . . . . . . . . . . ... Операции с выпуклыми функциями . . . . . . . . . . . ... Непрерывность и дифференцируемость . . . . . . . . ... Теоремы отделимости . . . . . . . . . . . . . . . . . . . . ... Субградиенты . . . . . . . . . . . . . . . . . . . . . . . . . . ... Вычисление субградиентов . . . . . . . . . . . . . . . . . § .. Методы негладкой минимизации . . . . . . . . . . . . . . ... Нижние границы сложности для общего случая . . . ... Основная лемма . . . . . . . . . . . . . . . . . . . . . . . . ... Субградиентный метод . . . . . . . . . . . . . . . . . . . ... Минимизация при функциональных ограничениях . ... Границы сложности в конечномерном случае . . . . ... Методы отсекающей гиперплоскости . . . . . . . . . . § .. Методы с полной информацией . . . . . . . . . . . . . . . ... Модель негладкой функции . . . . . . . . . . . . . . . . . ... Метод Келли . . . . . . . . . . . . . . . . . . . . . . . . . . . ... Метод уровней . . . . . . . . . . . . . . . . . . . . . . . . . ... Условная минимизация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . “Nesterov-final” — // — : — page — # Оглавление Структурная оптимизация § .. Самосогласованные функции . . . . . . . . . . . . . . . . . ... Концепция «черного ящика» в выпуклой оптимизации ... Как работает метод Ньютона? . . . . . . . . . . . . . . . . ... Определение самосогласованной функции . . . . . . . ... Основные неравенства . . . . . . . . . . . . . . . . . . . . . ... Минимизация самосогласованных функций . . . . . . . § .. Самосогласованные барьеры . . . . . . . . . . . . . . . . . . ... Мотивировка . . . . . . . . . . . . . . . . . . . . . . . . . . . ... Определение самосогласованных барьеров . . . . . . . ... Основные неравенства . . . . . . . . . . . . . . . . . . . . . ... Метод отслеживания траектории . . . . . . . . . . . . . . ... Нахождение аналитического центра . . . . . . . . . . . . ... Задачи с функциональными ограничениями . . . . . . § .. Приложения структурной оптимизации . . . . . . . . . . ... Границы параметров самосогласованных барьеров . . ... Линейная и квадратичная оптимизация . . . . . . . . . ... Полуопределенная оптимизация . . . . . . . . . . . . . . ... Экстремальные эллипсоиды . . . . . . . . . . . . . . . . . ... Сепарабельная оптимизация . . . . . . . . . . . . . . . . . ... Выбор схемы минимизации . . . . . . . . . . . . . . . . . Библиографический комментарий Литература “Nesterov-final” — // — : — page — # “Nesterov-final” — // — : — page — # Предисловие редактора Новая эра в нелинейной оптимизации открылась выдающейся статьей Н. Кармаркара, появившейся в середине -х гг. Значение этой работы, в которой предлагался новый полиномиальный алгоритм для задач линейной оптимизации, состояло не только в установлении границ вычислительной сложности. В то время совершенно замечательной особенностью этого алгоритма являлось то, что теоретические оценки его высокой эффективности блестяще подтверждались результатами численных экспериментов. Этот необычный по тем временам факт радикально изменил стиль и направление исследований в области нелинейной оптимизации. С тех пор появление новых методов все чаще стало сопровождаться теоретическим анализом их вычислительной сложности, который теперь обычно рассматривается как более веское доказательство их качества, чем численные эксперименты. В новой и быстро развивающейся области оптимизации, получившей название полиномиальные методы внутренней точки, такое обоснование стало обязательной нормой. Основные результаты первых пятнадцати лет серьезных исследований вошли в монографии [, , ––]. Однако эти книги труднодоступны российскому читателю. Более того, они не решают задачи изложения нового взгляда на предмет и цели выпуклой оптимизации. Дело в том, что к тому времени лишь теория методов внутренней точки для задач линейной оптимизации была разработана достаточно подробно, а общая теория самосогласованных функций существовала в печатном виде лишь в форме монографии []. Кроме того, было понятно, что новая теория методов внутренней точки представляет собой только часть общей теории выпуклой оптимизации –– технически довольно сложной дисциплины, включающей такие разделы, как границы вычислительной сложности, оптимальные методы и т. д. “Nesterov-final” — // — : — page — # Предисловие Автор настоящей книги, предлагаемой вниманию читателя, предпринял попытку преодолеть все эти трудности и изложить сложные вопросы в элементарной форме. На мой взгляд, попытка оказалась успешной. Ю. Е. Нестеров внес выдающийся вклад в развитие современной теории и методов выпуклой оптимизации. Еще в -е годы прошлого века он развил теорию эффективных методов оптимизации; см. []. Позже он совместно с А. С. Немировским предложил новый подход, основанный на самосогласованных функциях и барьерах (см. []), что привело к созданию полиномиальных методов оптимизации. В последние годы он опубликовал много работ, посвященных усовершенствованию методов для основных классов оптимизационных задач. Это помогло ему умело произвести отбор материала для книги. Ключевыми стали такие понятия, как вычислительная сложность оптимизационных задач и гарантированная эффективность численных методов, подкрепленная анализом границ сложности. При этом жесткие рамки объема книги обусловили прагматизм изложения –– каждое понятие или факт, приводимые в монографии, абсолютно необходимы для полноценного анализа по крайней мере одной оптимизационной схемы. До некоторой степени удивительным оказалось то, что при изложении совершенно не потребовалось сведений из теории двойственности, и поэтому этот раздел полностью опущен. Основная цель книги –– добиться правильного понимания сложности различных задач оптимизации, и цель эта выбрана не случайно. Пользователи постоянно интересуются тем, какой численный метод наиболее разумен для оптимизационных моделей, которыми они заняты. Оказывается, если модель построена без учета возможностей численных процедур, то шансы найти приемлемое численное решение близки к нулю. Что бы ни создавал человек в любой области своей деятельности, он знает заранее, почему действует так, а не иначе, и что собирается делать с тем, что получится. И лишь в области численного моделирования картина почему-то совершенно иная: сначала создается модель, а затем начинаются поиски численного метода. Если учесть сложность оптимизационных задач, становится ясно, что шансы на успех при таком подходе крайне невелики. Книга состоит из четырех глав: которые в большой степени независимы друг от друга и могут использоваться самостоятельно. Книга рассчитана на широкую аудиторию; от читателя предполагаются “Nesterov-final” — // — : — page — # Предисловие лишь знания в объеме стандартных университетских курсов математического анализа и линейной алгебры. Включенный в книгу краткий библиографический комментарий призван помочь более близкому ознакомлению с предметом. Английский вариант книги (Nesterov Yu. «Introductory lectures on convex optimizatin: a basic course») был выпущен издательством Kluwer в г. и встретил заинтересованный отклик. Я надеюсь, что издание монографии Ю. Е. Нестерова на русском языке будет заметным событием и даст возможность российским читателям впервые познакомиться с новым перспективным направлением исследований. Б. Т. Поляк “Nesterov-final” — // — : — page — # “Nesterov-final” — // — : — page — # Моей жене Светлане “Nesterov-final” — // — : — page — # “Nesterov-final” — // — : — page — # Благодарности Эта книга отражает основные достижения в выпуклой оптимизации –– научном направлении, в котором мне довелось работать более лет. В течение этого времени я имел редкую возможность свободного общения и сотрудничества со многими выдающимися учеными в этой области; им я выражаю свою глубокую признательность. Мне посчастливилось начать свою научную карьеру в Москве, в период максимального размаха научной деятельности в Советском Союзе. В этот момент в одном городе оказались собранными практически все выдающиеся умы трехсотмиллионной страны. Встречи и научные контакты с А. Антипиным, Ю. Евтушенко, Е. Гольштейном, А. Иоффе, В. Кармановым, Л. Хачияном, Р. Поляком, В. Пшеничным, Н. Шором, Н. Третьяковым, Ф. Васильевым, Д. Юдиным и, конечно же, с А. Немировским и Б. Поляком оказали определяющее влияние на формирование моих научных интересов и на выбор направления исследований. Как выяснилось потом, момент моего переезда на Запад тоже был весьма специфическим. В нелинейной оптимизации только что началась эра методов внутренней точки. Новые статьи со свежими идеями появлялись почти каждый день, и многочисленные конференции открывали редкую возможность для интересных научных контактов и активной совместной работы. Я очень благодарен моим коллегам, таким как Курт Анштрейхер, Альфред Ауслендер, Аарон Бен-Тал, Стивен Бойд, Кловис Гонзага, Дональд Гольдфарб, Жан-Луи Гоффен, Осман Гуллер, Иньюй Е, Кеннет Кортанек, Клод Лемарешаль, Оливер Мангасарян, Флориан Потра, Джеймс Ренегар, Корнелиус Рооз, Тамаш Терлаки, Андреас Титц, Майкл Тодд, Левент Тунсел, Роберт Фрёйнд, Флориан Ярре, за стимулирующие обсуждения и плодотворное сотрудничество. Особую благодарность мне хотелось бы выразить Жану-Филиппу Виалу, подтолкнувшему меня к написанию этой книги. “Nesterov-final” — // — : — page — # Благодарности В конце концов, мне повезло обосноваться в Центре исследования операций и эконометрики (CORE) в Лувэн-ла-Нёве, Бельгия, который при ближайшем рассмотрении оказался миниатюрной копией моего родного института ЦЭМИ РАН (Москва). Замечательные условия работы в этом научном центре и исключительное окружение помогали мне все эти годы. Трудно переоценить значение той атмосферы научных исследований, которую продолжают неустанно поддерживать мои коллеги из CORE и Центра системных исследований и прикладной механики (CESAME): Винсент Блондель, Ив Жене, Мишель Геверс, Этьен Лут, Ив Пошэ, Ив Смеерс, Поль Ван Доорен, Лоуренс Вулси. Моя работа в течение многих лет финансировались Бельгийской общенациональной программой по развитию фундаментальных исследований, созданной по инициативе правительства Бельгии и Комитета по научной политике. Я признателен Б. Т. Поляку и Московскому центру непрерывного математического образования за смелую инициативу перевода и издания этой книги на русском языке. “Nesterov-final” — // — : — page — # Введение Задачи оптимизации совершенно естественно возникают в различных прикладных областях. Во многих жизненных ситуациях у нас появляется желание или необходимость организовать свою деятельность наилучшим из возможных способов. Это намерение, облеченное в математическую форму, приобретает вид той или иной оптимизационной задачи. В зависимости от конкретной области приложения это может быть задача оптимального управления или задача оптимального размещения, составление оптимальной диеты или задача оптимального раскроя. Однако уже следующий шаг –– нахождение решения поставленной модельной задачи –– совсем нетривиален. На первый взгляд, все выглядит просто: на рынке имеется огромное количество легкодоступных коммерческих программных оптимизационных пакетов, и любой пользователь может получить «решение» задачи простым нажатием на иконку на экране своего персонального компьютера. Вопрос заключается в том, что именно он получит в качестве решения и насколько можно доверять результату. Одна из целей данной книги –– показать, что, несмотря на всю свою привлекательность, «решения» общих оптимизационных задач, получаемые таким образом, очень часто не соответствуют ожиданиям доверчивого пользователя. На мой взгляд, главное, что следует знать каждому работающему с оптимизационными моделями, –– это то, что задачи оптимизации, вообще говоря, численно неразрешимы. Это утверждение, часто не упоминаемое в стандартных курсах по оптимизации, крайне необходимо для понимания теории оптимизации и ее развития как в прошлом, так и в будущем. Во многих практических приложениях процесс формализации и приведения реальной проблемы к какому-либо стандарному виду требует большого времени и усилий. Поэтому исследователь должен иметь ясное представление о свойствах модели, которую “Nesterov-final” — // — : — page — # Введение он строит. На этапе моделирования обычно применяются различные средства для аппроксимации реального явления, и при этом совершенно необходимо осознавать, к каким вычислительным последствиям приведет каждое из принимаемых решений. Очень часто приходится выбирать между «хорошей» модельной задачей, которую не удается решить, и «плохой» задачей, решение которой заведомо возможно. Какая из них лучше? В действительности ответ часто может быть подсказан вычислительной практикой. Дело в том, что в настоящее время наиболее распространенные оптимизационные модели по-прежнему представлены задачами линейной оптимизации. Крайне маловероятно, чтобы такие модели могли адекватно описывать явления нашего нелинейного мира; тем не менее, они весьма популярны, поскольку практики предпочитают иметь дело с разрешимыми задачами. Разумеется, очень часто линейная аппроксимация оказывается грубой, но зато обычно удается предсказать последствия такого плохого приближения и внести поправку в интерпретацию полученного результата. По-видимому, на практике такой подход предпочтительнее попыток решения общей нелинейной задачи без какойлибо гарантии на успех. Другая цель настоящего курса –– обсуждение численных методов для разрешимых нелинейных задач, а именно задач выпуклой оптимизации. Развитие теории выпуклой оптимизации в последние годы протекало бурно и захватывающе. Сегодня она представлена несколькими «соперничающими» направлениями, имеющими свои сильные и слабые стороны. Мы подробно обсудим их свойства, принимая во внимание и историческую ретроспективу; точнее говоря, мы попытаемся понять внутреннюю логику развития каждого из этих направлений. До сих пор основные результаты развития теории выпуклой оптимизации можно найти лишь в специальных журналах или научных монографиях, однако, по моему мнению, она уже созрела настолько, что ее можно донести до конечного пользователя, будь то специалист по организации производства, экономист или студент той или иной специализации. С другой стороны, я надеюсь, что книга будет интересна и специалистам в теории оптимизации, так как в ней содержится большое количе Точнее, которую можно пытаться решать. “Nesterov-final” — // — : — page — # Введение ство материала, никогда не публиковавшегося в виде законченной монографии. Я попытаюсь убедить читателя в том, что для успешного применения оптимизационных формулировок задач необходимо иметь определенные сведения из теории оптимизации, которая помогает понять, чего можно и чего нельзя достигнуть при решении задачи оптимизации. Элементы этой простой философии нетрудно найти в каждой главе предлагаемой книги. Мы постараемся показать, что выпуклая оптимизация является отличным примером законченной прикладной теории, которая проста, легка в изучении и может быть весьма полезной при решении практических задач. Эту книгу можно также рассматривать как курс лекций, в котором мы обсуждаем наиболее эффективные современные схемы оптимизации и устанавливаем границы их эффективности. Курс является автономным, и мы доказываем все необходимые результаты, рассчитывая на то, что доказательства, рассуждения и соображения не будут представлять трудности даже для студентов-старшекурсников. Книга состоит из четырех относительно независимых глав, каждая из которых включает в себя три параграфа. Материал каждого параграфа примерно соответствует объему двухчасовой лекции, поэтому книга может почти без изменений использоваться при чтении односеместрового курса. Первая глава посвящена общим задачам оптимизации. В §. обсуждается терминология и вводятся понятия оракула, черного ящика, функциональной модели оптимизационной задачи и сложности итеративных схем общего вида. Мы покажем, что задачи глобальной оптимизации «нерешаемы», и обсудим основные характерные черты различных разделов теории оптимизации. В §. рассматриваются две принципиальные схемы локальной безусловной минимизации: градиентный метод и метод Ньютона. Мы установим их локальную скорость сходимости и обсудим возможные неприятности (расходимость, сходимость к седловой точке). В §. мы сравним структуры градиентного метода и метода Ньютона. Это приведет нас к идее переменной метрики, и мы опишем далее семейства квазиньютоновских методов и методов сопряженных градиентов. Завершается глава анализом схем последовательной безусловной минимизации. “Nesterov-final” — // — : — page — # Введение Во второй главе рассматриваются методы гладкой выпуклой оптимизации. В §. анализируются основные причины упомянутых выше трудностей; в результате этого анализа мы придем к двум удобным классам функций: гладким выпуклым и гладким сильно выпуклым. Для соответствующих задач безусловной минимизации будут установлены нижние границы сложности. В заключение параграфа мы проанализируем градиентный метод и покажем, что он не является оптимальным. Оптимальные методы для задач гладкой выпуклой минимизации обсуждаются в §.. Изложение начинается с задач безусловной минимизации. Далее вводятся выпуклые множества и определяется понятие градиентного отображения для задач минимизации с простыми ограничениями. Мы покажем, что градиентное отображение формально заменяет шаг градиентного метода в оптимизационных схемах. В §. обсуждаются более сложные задачи, включающие несколько гладких выпуклых функций, а именно минимаксная задача и задача условной минимизации. Для обеих задач вводится понятие градиентного отображения и приводятся оптимальные схемы минимизации. Третья глава посвящена теории негладкой выпуклой оптимизации. Не предполагая у читателя наличия специальных знаний по выпуклому анализу, мы начинаем главу §., в котором компактно излагаются все необходимые для дальнейшего сведения. Конечной целью этого параграфа является обоснование правил вычисления субградиентов выпуклой функции. Следующий §. начинается с установления нижних границ сложности для задач негладкой оптимизации. Далее предлагается общая схема анализа сложности соответствующих методов, которая потом применяется для нахождения скорости сходимости субградиентного метода, метода центра тяжести и метода эллипсоидов. Мы также обсудим некоторые методы отсекающей гиперплоскости. Параграф . посвящен схемам минимизации, в которых используется кусочно линейная модель выпуклой функции. Мы рассмотрим метод Келли и покажем, что он может быть чрезвычайно медленным. Наконец, мы опишем так называемый метод уровней и обоснуем оценки его эффективности на задачах безусловной и условной минимизации. В четвертой главе рассматриваются задачи выпуклой минимизации, имеющие явную структуру. Сначала в §. мы обсудим определенную противоречивость концепции черного ящика примени “Nesterov-final” — // — : — page — # Введение тельно к задаче выпуклой минимизации. Мы определим барьер для оптимизационной задачи исходя из понятия самосогласованной функции. Для таких функций оракул второго порядка не является локальным; их можно легко минимизировать с помощью метода Ньютона. Мы изучим свойства таких функций и оценим скорость сходимости метода Ньютона. В §. вводятся самосогласованные барьеры –– подкласс самосогласованных функций, удобных для применения схем последовательной безусловной минимизации. Далее мы изучаем свойства таких барьеров и находим оценку эффективности схемы отслеживания траектории. В §. приведено несколько примеров оптимизационных задач, для которых удается построить самосогласованный барьер, так что к этим задачам применима схема отслеживания траектории. Здесь рассматриваются задачи линейной и квадратичной оптимизации, задачи полуопределенной оптимизации, сепарабельной и геометрической оптимизации, задачи с экстремальными эллипсоидами и задачи аппроксимации в l p -нормах. Глава и вся книга завершаются сравнением метода внутренней точки и метода негладкой оптимизации применительно к решению конкретной оптимизационной задачи. “Nesterov-final” — // — : — page — # “Nesterov-final” — // — : — page — # Глава Нелинейная оптимизация § .. Задачи нелинейной оптимизации Общая формулировка задачи. Примеры задач оптимизации. Черный ящик и итеративные методы. Аналитическая и арифметическая сложность. Метод перебора на равномерной сетке. Нижние оценки вычислительной сложности. Нижние оценки для глобальной оптимизации. Правила игры. ... Общая формулировка задачи Обозначим через x вещественный вектор размерности n: T x = x (1) , …, x (n) ∈ Rn , а через S –– некоторое множество из пространства Rn . Пусть f0 (x), … … , fm (x) являются вещественнозначными функциями от x. В этой книге мы будем, как правило, рассматривать один из вариантов следующей общей задачи минимизации: min f0 (x) при f j (x) & 0, j = 1, …, m, (.) x ∈ S, где в качестве бинарного отношения & берется ¶, ¾ либо =. В дальнейшем f0 (x) будем называть целевой функцией нашей задачи, а векторную функцию T f (x) = f1 (x), …, fm (x) –– вектором функциональных ограничений. Множество S называется базовым допустимым множеством, а множество Q = x ∈ S | f j (x) ¶ 0, j = 1, …, m называется просто допустимым множеством задачи (.). Для определенности мы всегда будем рассматривать задачи минимизации. “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Любая задача максимизации может быть переписана в этом виде с помощью изменения знака целевой функции. Приведем названия некоторых важных типов задач минимизации. Условные задачи: Q ⊂ Rn . Безусловные задачи: Q ≡ Rn . Гладкие задачи: все функции f j (x) дифференцируемы. Негладкие задачи: существует по крайней мере одна недифференцируемая компонента fk (x). ◦ Задачи с линейными ограничениями: все функциональные ограничения являются линейными функциями: ◦ ◦ ◦ ◦ f j (x) = n P i =1 (i) a(i) + b j ≡ 〈a j , x 〉 + b j , j x j = 1, …, m (здесь 〈·, ·〉 обозначает скалярное произведение), а базовое множество S является многогранником. Если f0 (x) также является линейной функцией, то задача (.) называется задачей линейной оптимизации. Если функция f0 (x) является квадратичной, то задача (.) называется задачей квадратичной оптимизации. Если все функции f j квадратичные, то мы получаем задачу квадратичной оптимизации с квадратичными ограничениями. Существует также классификация задач, основанная на свойствах их допустимых множеств. ◦ Задача (.) называется допустимой, если Q 6= ∅. ◦ Задача (.) называется строго допустимой, если существует такой вектор x ∈ int Q, что f j (x) < 0 (или > 0) для всех ограничений-неравенств и f j (x) = 0 для всех ограничений-равенств (условие Слэйтера). Наконец, можно говорить о различных типах решений задачи (.). ◦ точка x ∗ называется оптимальным глобальным решением задачи (.), если f0 (x ∗ ) ¶ f0 (x) для всех x ∈ Q (глобальный минимум). В этом случае f0 (x ∗ ) называется (глобальным) оптимальным значением задачи. “Nesterov-final” — // — : — page — # § .. Задачи нелинейной оптимизации ◦ точка x ∗ называется локальным решением задачи (.), если для всех x ∈ int ¯Q̄ ⊂ Q выполнено неравенство f0 (x ∗ ) ¶ f0 (x) (локальный минимум). Покажем на нескольких примерах, как могут возникать задачи оптимизации. Пример ... Обозначим через x (1) , …, x (n) параметры проектирования. По ним мы сможем вычислить значения некоторых характеристик нашего решения: f0 (x), …, fm (x). В качестве таких характеристик можно взять, например, стоимость проекта, количество необходимых ресурсов, надежность системы и т. д. Затем самую важную характеристику f0 (x) мы выбираем в качестве целевой функции. Остальным характеристикам разрешается меняться в определенных пределах: a j ¶ f j (x) ¶ b j . Таким образом, возникает следующая задача: min f0 (x) при a j ¶ f j (x) ¶ b j , j = 1, …, m, x ∈ S, где множество S определяет структурные ограничения, такие как, например, естественный интервал изменения, неотрицательность значений и т. д. Пример ... Пусть наша исходная задача состоит в следующем: найти такое x ∈ Rn , что f j (x) = a j , j = 1, …, m. (.) В этом случае можно перейти к следующей задаче минимизации: m P j =1 f j (x) − a j 2 → min, x возможно, даже при некоторых дополнительных ограничениях на x. Если оптимальное значение в этой задаче равно нулю, то и исходная задача (.) разрешима. Заметим, что постановка (.) является почти универсальной задачей численного анализа. К такому виду приводятся системы обыкновенных дифференциальных уравнений и уравнений в частных производных, задачи поиска равновесных решений и многие другие. “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Пример ... Иногда переменные проектирования x (1) , …, x (n) по своему смыслу должны быть целыми числами. Это условие может быть записано с помощью следующего ограничения: sin(π x (i)) = 0, i = 1, …, n. Таким образом, общая задача нелинейной оптимизации включает в себя как частный случай задачи целочисленной оптимизации: min f0 (x) → min при a j ¶ f j (x) ¶ b j , j = 1, …, m, x ∈ S, sin(π x (i)) = 0, i = 1, …, n. После рассмотренных примеров становится понятным оптимизм пионеров нелинейной оптимизации, который легко распознается в работах -х и -х гг. XX в. Наше первое впечатление, конечно же, должно было бы быть таким: Нелинейная оптимизация является очень важной и многообещающей прикладной наукой. Она покрывает почти все нужды теории исследования операций и различных областей численного анализа. С другой стороны, после просмотра тех же самых примеров, особенно примеров .. и .., у более опытного читателя могли бы зародиться некоторые сомнения. Действительно, окружающая нас действительность слишком сложна для того, чтобы надеяться на существование универсального средства от всех болезней. Здоровый скептицизм должен привести нас к следующей догадке: Задачи нелинейной оптимизации, в их самой общей форме, являются численно неразрешимыми. Однако неподтвержденные догадки никогда особенно не ценились в математических науках. Поэтому трудно переоценить значение теории, созданной в середине -х годов, которая позволила доказать вышеупомянутое предположение. Это доказательство настолько просто и поучительно, что мы никак не можем опустить его в нашем курсе. Но прежде всего мы должны ввести специальную терминологию, необходимую для обсуждения подобных вопросов. “Nesterov-final” — // — : — page — # § .. Задачи нелинейной оптимизации ... Эффективность численных методов Представим себе следующую ситуацию: мы собираемся решить некоторую задачу P . Нам известно, что для решения задач такого типа разработано много различных численных методов. И, конечно же, нам бы хотелось применить метод, который является наилучшим для нашей задачи P . Как нам его найти? Оказывается, такая постановка вопроса просто неправомерна, т. е. победителя в подобном соревновании обнаружить нетрудно, но мы вряд ли захотим (и сможем) воспользоваться его услугами. Действительно, представим себе «метод» решения задачи (.), который только и умеет, что сообщать пользователю, что глобальный оптимум достигается в точке x ∗ = 0. Конечно же, такой ответ неверен для всех задач, кроме тех, у которых оптимальное решение на самом деле есть нуль. И для таких задач эффективность подобного метода превзойти просто невозможно. Таким образом, невозможно разумно определить наилучший метод решения отдельной задачи P . Однако это можно сделать для некоторого класса задач F ⊃ P . Действительно, обычно численные методы разрабатываются для решения многих однотипных задач с близкими характеристиками. Поэтому эффективность метода M на всем классе задач F можно считать естественной характеристикой его качества. Так как мы собираемся говорить об эффективности метода M на классе F , приходится предполагать, что наш метод с самого начала не имеет полной информации о решаемой задаче. Заранее известная численному методу «часть» задачи P называется моделью решаемой задачи. Для обозначения модели мы будем использовать символ Σ. Обычно в модель включаются формулировка задачи, описание свойств функциональных компонент и т. д. Для того чтобы распознать задачу P среди всех прочих задач из данного класса (и тем самым решить ее), численный метод должен уметь накапливать специфическую информацию о решаемой задаче. Этот процесс удобно описывать с помощью понятия оракула. Оракул O проще всего представить в виде некоторого устройства, которое “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация отвечает на последовательные вопросы численного метода. Метод M пытается решить задачу P , собирая и анализируя ответы оракула. В общем случае каждая задача может быть описана с помощью различных моделей. Более того, для одной и той же задачи можно разработать различные оракулы, от самых простых до самых сложных . Однако мы зафиксируем Σ и O . В этом случае естественно определить эффективность метода M на паре (Σ, O ) как его эффективность на наихудшем представителе Pw из (Σ, O ). Заметим, что задача Pw может быть трудной только для этого конкретного метода M . Далее, что такое эффективность метода M на задаче P ? Начнем с интуитивного определения. Эффективность метода M на задаче P определяется через общие вычислительные затраты метода M , необходимые для того, чтобы решить задачу P . В этом определении появляются два новых понятия. Прежде всего, что значит «решить задачу»? В некоторых ситуациях это может означать нахождение точного решения. Однако для большинства численных задач (в том числе и для многих задач оптимизации) это просто невозможно. Поэтому нам придется довольствоваться следующей формулировкой. Решить задачу P означает найти ее приближенное решение с заранее заданной точностью ǫ > 0. Реальное значение слов решение с точностью ǫ > 0 очень важно для дальнейшего. Но мы пока отложим подробное обсуждение этого вопроса и только введем обозначение Tǫ для некоторого критерия остановки, способного оценить качество предлагаемого кандидата. Теперь мы сможем формально определить класс решаемых задач F ≡ Σ, O , Tǫ . Для решения конкретной задачи P ∈ F естественно применить некую итеративную процедуру. Именно в таком виде удобно записывать любой метод M , работающий с оракулом. В принципе, можно включить в рассмотрение и оракул, выдающий по запросу точный ответ решаемой задачи. “Nesterov-final” — // — : — page — # § .. Задачи нелинейной оптимизации Общая итеративная схема (.) Вводные данные: начальная точка x0 и требуемая точность ǫ > 0. Настройка. Полагаем k = 0 и I−1 = ∅. Здесь k –– это счетчик итераций, а Ik –– это накапливаемая информационная модель решаемой задачи. Основной цикл . Задаем вопрос оракулу O в точке xk . . Пересчитываем информационную модель: Ik = Ik−1 ∪ xk , O (xk ) . . Применяем правила метода M для анализа модели Ik и формируем точку xk+1. . Проверяем критерий остановки Tǫ . Если ответ положительный, то генерируем ответ x̄. В противном случае полагаем k := k + 1 и переходим на шаг . Теперь мы можем определить слова вычислительные затраты в нашем определении эффективности. В схеме (.) нетрудно обнаружить два потенциально дорогих шага. Первый из них –– это шаг , на котором происходит обращение к оракулу. Второй же –– это шаг , на котором анализируется накопленная модель и формируется следующая тестовая точка. Таким образом, можно ввести две меры сложности задачи P для метода M . Аналитическая сложность. Это число обращений к оракулу, необходимое для решения задачи P с точностью ǫ . Арифметическая сложность. Это общее число всех вычислений (включая как работу оракула, так и работу метода), необходимых для решения задачи P с точностью ǫ . Сравним эти два понятия. Конечно же, арифметическая сложность оценивает вычислительные затраты более реалистично. Однако, как правило, эту оценку нетрудно получить из первой харак “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация теристики. Поэтому в большинстве рассматриваемых ситуаций мы будем следовать традиции и обсуждать в основном аналитическую сложность различных классов задач минимизации. Нам осталось ввести одно стандартное предположение, которое совершенно необходимо для получения большинства результатов теории сложности задач оптимизации. Это предположение называется концепцией черного ящика, и выглядит оно следующим образом. Концепция черного ящика . Единственной информацией, получаемой в ходе работы итеративного метода, являются ответы оракула. . Ответы оракула являются локальными: небольшое изменение задачи, произведенное достаточно далеко от тестовой точки x и согласованное с описанием данного класса задач, не обязано привести к изменению исходного ответа в точке x. Эта концепция является одной из самых полезных изобретений в численном анализе. Конечно же, ее первый постулат выглядит как некоторая стена, искусственно возведенная между оракулом и методом. Казалось бы, почему не дать методу возможность анализировать, например, всю промежуточную информацию, полученную при вычислениях оракула? Однако в этом случае, если вдруг появляется такая необходимость, ответ оракула можно и расширить. К тому же, как мы увидим в дальнейшем, концепция черного ящика особенно полезна в задачах с очень сложной структурой и сложным оракулом, когда промежуточных вычислений просто слишком много, чтобы в них разобраться. В более простых ситуациях, как будет показано в последней главе этой книги, ее можно заменить на концепцию структурной оптимизации. Заканчивая этот пункт, стоит упомянуть, что стандартная формулировка (.) называется функциональной моделью для задач минимизации. Обычно для такой модели стандартные предположения связаны с гладкостью функциональных компонент. В соответствии со степенью гладкости можно пользоваться разными типами оракулов. ◦ Оракул нулевого порядка: возвращает значение функции f (x). “Nesterov-final” — // — : — page — # § .. Задачи нелинейной оптимизации ◦ Оракул первого порядка: возвращает значение функции f (x) и ее градиент f ′ (x). ◦ Оракул второго порядка: возвращает f (x), f ′ (x) и матрицу гессиана f ′′ (x). ... Оценки вычислительной сложности задач глобальной оптимизации Теперь мы попытаемся применить формальные понятия, введенные в предыдущем пункте, к конкретному классу задач оптимизации. Рассмотрим следующую задачу: (.) min f (x). x ∈ Bn В соответствии с нашей терминологией это есть задача условной минимизации, но без функциональных ограничений. Допустимым множеством задачи является n-мерный куб Bn в пространстве Rn : Bn = x ∈ Rn | 0 ¶ x (i) ¶ 1, i = 1, …, n . Введем l∞ -норму в Rn : k x k∞ = max | x (i) |. 1¶i ¶n Предположим, что относительно этой нормы целевая функция f (x) будет липшицевой на Bn : | f (x) − f ( y) | ¶ Lk x − y k∞ (.) ∀ x, y ∈ Bn с некоторой константой L (константа Липшица). Рассмотрим простейший метод решения задачи (.), называемый методом равномерного перебора. У этого метода G (p) есть только один входной целочисленный параметр p ¾ 1. Его схема выглядит следующим образом. “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Метод G (p) . Формируем (p + 1)n точек i i i T cx(i1 ,…,in ) = 1 , 2 , …, n , p p (.) p где (i1 , …, in ) ∈ {0, …, p}n . . Среди всех точек x(i1 ,…,in ) находим точку x̄ с наименьшим значением целевой функции. . Представляем пару ( x̄, f ( x̄)) как результат работы метода. Таким образом, наш метод просто перебирает точки равномерной сетки, сформированной внутри куба Bn , выбирает среди них точку с минимальным значением целевой функции и выдает ее в качестве приближенного решения задачи (.). В соответствии с нашей терминологией это метод нулевого порядка с отсутствием какого бы то ни было влияния накопленной информации на формирование последовательности пробных точек. Выведем оценку эффективности этого алгоритма. Теорема ... Обозначим через f ∗ оптимальное значение целевой функции в задаче (.). Тогда f ( x̄) − f ∗ ¶ L . 2p Доказательство. Пусть точка x∗ будет глобальным решением нашей задачи. Тогда найдется такой мультииндекс (i1 , i2 , …, in ), что x ≡ x(i1 ,i2 ,…,in ) ¶ x ∗ ¶ x(i1+1,i2 +1,…,in +1) ≡ y (здесь и в дальнейшем соотношение x ¶ y для векторов x, y ∈ Rn означает, что x (i) ¶ y (i) для всех индексов i = 1, …, n). Заметим, что y (i) − x (i) = 1/ p при всех i = 1, …, n и x∗(i) ∈ [x (i) , y (i) ], i = 1, …, n. Пусть x̂ = (x + y)/2. Зададим координаты точки x̃ следующим образом: ¨ y (i) , если x∗(i) ¾ x̂ (i), (i) x̃ = (i) x в противном случае. “Nesterov-final” — // — : — page — # § .. Задачи нелинейной оптимизации 1 , i = 1, …, n. Поэтому 2p 1 k x̃ − x ∗ k∞ = max | x̃ (i) − x∗(i) | ¶ . p 1¶i ¶n Понятно, что | x̃ (i) − x∗(i) | ¶ Поскольку точка x̃ принадлежит сформированной сетке, можно утверждать, что f ( x̄) − f (x∗ ) ¶ f ( x̃) − f (x∗ ) ¶ Lk x̃ − x∗ k∞ ¶ L . 2p Теперь мы завершим описание рассматриваемого класса задач. Для этого нужно задать конечную цель наших действий: найти такую точку x̄ ∈ Bn , что f ( x̄) − f ∗ ¶ ǫ . (.) Теперь мы можем утверждать следующее. Следствие ... Аналитическая сложность класса задач минимизации (.), (.), (.) для метода G не превосходит j k n L A (G) = +2 2ǫ вызовов оракула (здесь, как и в дальнейшем, ⌊a⌋ обозначает целую часть числа a). j k L L Доказательство. Выберем p = + 1. Тогда p ¾ , и в силу тео2ǫ 2ǫ ремы .. получаем f ( x̄) − f ∗ ¶ L ¶ ǫ. 2p Осталось заметить, что было просмотрено (p + 1)n пробных точек. Таким образом, величина A (G) устанавливает верхнюю границу сложности для рассматриваемого класса задач. Полученный результат достаточно информативен. Однако у нас все еще остаются вопросы. Может, например, оказаться, что для оценки эффективности метода G (p) мы применили слишком грубое доказательство и его реальная производительность гораздо выше. Может также оказаться, что существуют другие, гораздо более эффективные методы решения задачи (.). Для устранения подобных сомнений необходимо получить нижние оценки сложности для класса задач (.), (.), (.). Отметим главные особенности таких оценок. “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация ◦ Они основаны на применении концепции черного ящика. ◦ Полученные оценки верны для всех мыслимых итеративных методов. Таким образом, устанавливается нижняя оценка для аналитической сложности рассматриваемого класса задач. ◦ Очень часто эти оценки выводятся с помощью сопротивляющегося оракула. В приведенном списке только понятие сопротивляющегося оракула является новым для нас. Поэтому сейчас мы обсудим его более подробно. Сопротивляющийся оракул создает наихудшую задачу для каждого конкретного метода. Каждый раз он начинает работу с «пустой» задачи и старается отвечать на вопросы метода наихудшим образом. Однако эти ответы должны быть согласованы как с предыдущими ответами, так и с характеристиками данного класса задач. В этом случае после завершения работы возможна реконструкция задачи, которая полностью соответствует информации, собранной тестируемым методом оптимизации. Если теперь запустить этот метод на созданной таким образом задаче, то он, шаг за шагом получая те же самые ответы, воспроизведет прежнюю последовательность пробных точек. Покажем, как все это работает, на задаче (.). Рассмотрим класс задач минимимизации C , определенный следующим образом. Модель: min f (x), x ∈ Bn f (x) является l∞ -липшицевой функцией на Bn . Оракул: черный ящик нулевого порядка. Приближенное решение: найти x̄ ∈ Bn : f ( x̄) − f ∗ ¶ ǫ . Теорема ... Пусть ǫ < (1/2)L. Тогда аналитическая сложность класса C составляет по крайней мере (⌊ L/2ǫ⌋)n вызовов оракула. Доказательство. Положим p = ⌊ L/2ǫ⌋ (¾ 1). Пусть существует некоторый метод, которому требуется N < p n вызовов оракула для того, чтобы решить любую задачу из класса C . Применим для этого метода следующий сопротивляющийся оракул: “Nesterov-final” — // — : — page — # § .. Задачи нелинейной оптимизации сообщается, что f (x) = 0 в любой тестовой точке x. В этом случае метод может обнаружить только x̄ ∈ Bn со значением f ( x̄) = 0. Однако нетрудно заметить, что существует такая точка x̂ ∈ Bn , что 1 x̂ + e ∈ Bn , e = (1, …, 1)T ∈ Rn , p и при этом не существует ни одной тестовой точки внутри куба n o 1 B = x | x̂ ¶ x ¶ x̂ + e . p 1 Обозначим x∗ = x̂ + e и рассмотрим функцию 2p f¯(x) = min{0, L k x − x∗ k∞ − ǫ }. Ясно, что эта функция будет l∞ -липшицевой с константой L и что значение ее глобального минимума равно −ǫ . Более того, функция f¯(x) отлична от нуля только внутри куба B′ = {x : k x − x∗ k∞ ¶ ǫ/ L}. Поскольку 2p ¶ L/ǫ , нетрудно видеть, что o n 1 . B′ ⊆ B ≡ x : k x − x̃ k∞ ¶ 2p Таким образом, функция f¯(x) равна нулю во всех тестовых точках нашего метода. Так как точность полученного ответа никак не лучше, чем ǫ , мы приходим к следующему заключению: за число обращений к оракулу, меньшее, чем p n , нельзя гарантировать, что достигнутая абсолютная точность будет лучше, чем заранее заданное ǫ > 0. Теперь мы можем сказать гораздо больше об эффективности метода перебора по равномерной сетке. Сравним его оценку эффективности с нижней оценкой сложности рассматриваемого класса задач минимизации: j k n j kn L L метод G : + 2 , нижняя оценка сложности: . 2ǫ 2ǫ Таким образом, если ǫ ¶ O(L/n), то нижние и верхние оценки эффективности совпадают с точностью до мультипликативной абсолютной константы. Это означает, что метод перебора G (p) является асимптотически оптимальным методом на классе C . “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация В то же время, теорема .. подтверждает нашу исходную догадку о неразрешимости общей задачи глобальной нелинейной оптимизации. Рассмотрим следующий пример. Пример ... Пусть класс задач минимизации F имеет следующие параметры: L = 2, n = 10, ǫ = 0,01. Отметим здесь, что размерность рассматриваемых задач крайне мала. Да и требуемую точность в 1% никак нельзя признать слишком высокой. Однако, как мы видели, нижняя оценка сложности для данного класса составляет (L/2ǫ )n вызовов оракула. Посмотрим, что это означает для нашего примера. Нижняя оценка: 1020 обращений к оракулу. Сложность оракула: не меньше n арифметических операций (а. о.). Общий объем вычислений: 1021 а. о. Производительность компьютера: 106 а. о. в секунду. Общее время: 1015 секунд. Один год: меньше чем 3, 2 · 107 секунд. Нам нужно: лет! Приведенная оценка является настолько обескураживающей и настолько важной для правильного понимания сложности задач оптимизации, что мы будем неоднократно к ней возвращаться. К тому же понятно, что нельзя всерьез рассчитывать на улучшение ситуации в будущем за счет увеличения мощности компьютеров. Действительно, если мы прибавим к n единицу, то оценку необходимого времени придется увеличить в сто раз . С другой стороны, если требуемая точность ǫ умножается на два, то оценка количества За время, прошедшее между появлением английского текста этих лекций и их русского варианта, именно это и случилось: быстродействие современных персональных компьютеров достигает 108 а. о./сек. Так что сейчас в приведенном примере надо брать n = 11. “Nesterov-final” — // — : — page — # § .. Задачи нелинейной оптимизации вычислений уменьшается в тысячу раз. Таким образом, для ǫ = 8% потребуется всего две недели вычислений. Следует отметить, что нижние оценки сложности для задач с гладкими функциональными компонентами, так же как и гарантированная эффективность методов более высокого порядка для задач глобальной минимизации, не намного лучше оценки из теоремы ... Соответствующий анализ может быть проведен с помощью практически тех же рассуждений, и мы оставляем его читателю в качестве упражнения. Интересно сравнить полученные оценки с верхними оценками трудоемкости для NP-сложных задач, которые часто используются в качестве примера громоздких вычислений. Оказывается, для решения труднейших комбинаторных задач достаточно выполнить всего 2n арифметических операций! Заканчивая этот параграф, сравним возникшую ситуацию с положением в других областях численного анализа. Ведь хорошо известно, что вычисления на равномерной сетке широко используются для решения многих важных задач. Рассмотрим, например, задачу приближенного вычисления значения интеграла от функции одной переменной: R1 I = f (x) dx. 0 Стандартная рекомендация в этом случае как раз и состоит в использовании равномерной сетки: n i 1 P Sn = f xi , xi = , i = 1, …, N. N i =1 N Если функция f (x) является липшицевой с константой L, то можно оценить погрешность найденного приближения для I : N= L ⇒ |I − S N | ¶ ǫ . ǫ Приведенный способ действия широко используется на практике. Почему же он работает здесь и не работает в оптимизации? Причина этого расхождения состоит в размерности задач. Если для интегрирования типичная размерность крайне невелика (не больше трех), то в оптимизации часто возникают задачи с миллионами переменных. “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация ... Визитные карточки областей оптимизации После пессимистических результатов предыдущего пункта нам нужно, так или иначе, вновь обрести точку опоры и найти новые ориентиры для теоретического анализа задач оптимизации. По-видимому, с общей задачей глобальной минимизации уже все ясно. Но, может быть, мы ставим перед собой слишком амбициозные цели? Может быть, в некоторых практических задачах нам вполне хватило бы и гораздо менее «оптимального» решения? Или, может быть, существуют гораздо более узкие классы оптимизационных задач, у которых легко находить глобальное решение? На самом деле каждый из этих вопросов допускает разные ответы. И каждый из ответов определяет свой стиль исследований (или правил игры) в соответствующей области нелинейной оптимизации. Философия этих направлений различается в следующих аспектах. ◦ Конечная цель численного анализа. ◦ Классы функциональных компонент. ◦ Тип оракула. Эти характеристики естественным образом определяют набор возможных теоретических результатов и желаемых свойств численных методов. В заключение приведем визитные карточки четырех основных областей нелинейной оптимизации, рассматриваемых в этой книге. Название. Общая глобальная оптимизация (§ .). Цель. Найти глобальное решение. Функциональный класс. Непрерывные функции. Оракул. Черный ящик порядка –. Желаемые свойства. Сходимость к глобальному решению. Особенности. Теоретический анализ в большинстве случаев приводит к крайне пессимистическим выводам. “Nesterov-final” — // — : — page — # § .. Задачи нелинейной оптимизации Размеры задач. Иногда появляются сообщения о решенных задачах очень большого размера. Однако невозможно заранее гарантировать успех даже для маломерных задач. История. Начинается с г. Наблюдаются регулярные всплески интереса, связанные с появлением очередной увлекательной эмпирической идеи (алгоритмы типа simulated annealing, нейронные сети, генетические алгоритмы). Название. Общая нелинейная оптимизация (§ ., .). Цель. Найти локальный минимум. Функциональный класс. Дифференцируемые функции. Оракул. Черный ящик порядка –. Желаемые свойства. Быстрая сходимость к локальному минимуму. Особенности. Многообразие подходов. Широко доступное программное обеспечение. Цель не всегда достижима. Размеры задач. До переменных. История. Начинается с г. Пиковый период: ––. Теоретическая активность сейчас достаточно Название. Выпуклая оптимизация (гл. и ). Цель. Найти глобальный минимум. Функциональный класс. Выпуклые функции. Оракул. Черный ящик -го порядка. Желаемые свойства. Сходимость к глобальному минимуму. Скорость сходимости может зависеть от размерности. “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Особенности. Очень богатая и интересная теория, включающая теорию сложности. Эффективные алгоритмы. Класс задач не очень широк. Размеры задач. До переменных. История. Начинается с г. Пик интереса: –– (прервался с появлением методов внутренней точки). Возрастающая теоретическая активность. Название. Полиномиальные методы внутренней точки (гл. ). Цель. Найти глобальный минимум. Функциональный класс: Выпуклые множества и функции с явно заданной структурой. Оракул. Черный ящик -го порядка (не локальный!). Желаемые свойства. Быстрая сходимость к глобальному минимуму. Скорость сходимости зависит от структуры задачи. Особенности. Новая и перспективная теория. Удалось избавиться от черного ящика. Класс задач фактически такой же, как и у выпуклой оптимизации. Размеры задач. До переменных. История. Начинается с г. Пик интереса: –– . Высокая теоретическая активность. § .. Локальные методы безусловной оптимизации Релаксация и аппроксимация. Необходимые условия оптимальности. Достаточные условия оптимальности. Класс дифференцируемых функций. Класс дважды дифференцируемых функций. Градиентный метод. Скорость сходимости. Метод Ньютона. “Nesterov-final” — // — : — page — # § .. Локальные методы безусловной оптимизации ... Релаксация и аппроксимация Простейшей общей задачей нелинейной оптимизации является поиск локального минимума дифференцируемой функции. Вообще говоря, глобальная структура такой функции не проще, чем структура липшицевых функций. Поэтому для решения даже такой частной задачи необходимо следовать некоторым специальным принципам, гарантирующим сходимость алгоритма минимизации. Большинство методов нелинейной оптимизации базируются на идее релаксации. Назовем последовательность {ak }∞ релаксационk =0 ной, если ak+1 ¶ ak ∀k ¾ 0. В этом параграфе мы рассмотрим несколько методов решения следующей задачи безусловной минимизации: minn f (x), x ∈R (.) где f (x) –– гладкая функция. Для этого будем формировать релаксационную последовательность { f (xk )}∞ k =0 : f (xk+1) ¶ f (xk ), k = 0, 1, … Эта стратегия имеет следующие важные преимущества. . Если функция f (x) ограничена снизу в Rn , то последовательность { f (xk )}∞ k =0 сходится. . В любом случае мы улучшаем начальное значение целевой функции. Однако было бы невозможно применить идею релаксации без использования другого фундаментального понятия численного анализа, а именно аппроксимации. Построить аппроксимацию означает заменить начальный сложный объект на более простой, но близкий по своим свойствам к начальному. В нелинейной оптимизации мы обычно применяем локальные аппроксимации с использованием некоторого набора производных “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация аппроксимируемых функций. Например, аппроксимации первого и второго порядка (или линейные и квадратичные аппроксимации). Пусть функция f (x) дифференцируема в точке x̄. Тогда для y ∈ Rn имеем f ( y) = f ( x̄) + 〈 f ′ ( x̄), y − x̄ 〉 + o(k y − x̄ k), где o(r) –– некоторая функция от r ¾ 0, удовлетворяющая условиям 1 r lim o(r) = 0, r ↓0 o(0) = 0. В дальнейшем будем обозначать через k · k стандартную евклидову векторную норму в пространстве Rn : P n 2 1/2 k x k = 〈 x, x 〉1/2 = x (i) . i =1 ′ Линейная функция f ( x̄) + 〈 f ( x̄), y − x̄ 〉 называется линейной аппроксимацией функции f в точке x̄. Напомним, что вектор f ′ (x) называется градиентом функции f (x). Рассматривая точки yi = x̄ + ǫ ei , где ei –– i-й ортонормированный вектор в Rn , и переходя к пределу при ǫ → 0, мы получим следующее координатное представление градиента: ∂ f (x) T ∂ f (x) , …, . f ′ (x) = ∂x (1) ∂x (n) Приведем здесь два важных свойства градиента. Обозначим через L f (α) множество уровней функции f (x): L f (α) = x ∈ Rn | f (x) ¶ α . Рассмотрим множество направлений, касательных к L f ( f ( x̄)) в точке x̄: § ª yk − x̄ S f ( x̄) = s ∈ Rn | s = lim . yk → x̄, f ( yk )= f (x̄) k yk − x̄ k Лемма ... Если s ∈ S f ( x̄), то 〈 f ′ ( x̄), s〉 = 0. Доказательство. Поскольку f ( yk ) = f ( x̄), мы получаем f ( yk ) = f ( x̄) + 〈 f ′ ( x̄), yk − x̄ 〉 + o k yk − x̄ k = f ( x̄). Поэтому 〈 f ′ ( x̄), yk − x̄ 〉 + o(k yk − x̄ k) = 0. Разделив левую часть этого уравнения на k yk − x̄ k и переходя к пределу при yk → x̄, получим искомый результат. “Nesterov-final” — // — : — page — # § .. Локальные методы безусловной оптимизации Пусть s задает некое направление в пространстве Rn , k s k = 1. Рассмотрим локальное поведение функции f (x) вдоль s: 1 ∆(s) = lim f ( x̄ + αs) − f ( x̄) . α↓0 α Заметим, что f ( x̄ + αs) − f ( x̄) = α f ′ ( x̄), s + o(α). Поэтому ∆(s) = f ′ ( x̄), s . Используя неравенство Коши––Буняковского −k x k · k y k ¶ 〈 x, y 〉 ¶ k x k · k y k, ′ получим ∆(s) = f ( x̄), s ¾ −k f ′ ( x̄) k. Возьмем теперь Тогда s̄ = − f ′ ( x̄)/k f ′ ( x̄) k. ∆(s̄) = − f ′ ( x̄), f ′ ( x̄) /k f ′ ( x̄) k = −k ( x̄) k. Таким образом, направление − f ′ ( x̄) (антиградиент) является направлением наискорейшего локального убывания функции f (x) в точке x̄. Следующее утверждение, возможно, является самым важным фактом в теории оптимизации. Теорема .. (условие оптимальности первого порядка). Пусть x ∗ –– точка локального минимума дифференцируемой функции f (x). Тогда f ′ (x ∗ ) = 0. Доказательство. Так как x ∗ –– точка локального минимума функции f (x), существует такое r > 0, что для всех y, k y − x ∗ k ¶ r, имеет место неравенство f ( y) ¾ f (x ∗ ). Поскольку функция f дифференцируема, мы получаем f ( y) = f (x ∗ ) + f ′ (x ∗ ), y − x ∗ + o k y − x ∗ k ¾ f (x ∗ ). Таким образом, для всех таких s, что k s k = 1, выполнено неравенство 〈 f ′ (x ∗ ), s〉 ¾ 0. Рассмотрим направления s и − s; тогда f ′ (x ∗ ), s = 0 ∀s: k s k = 1. Наконец, выбрав s = ei , i = 1, …, n, где ei –– i-й координатный вектор в Rn , получаем f ′ (x ∗ ) = 0. “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Следствие ... Пусть x ∗ –– точка локального минимума дифференцируемой функции f (x) при ограничениях в виде линейных равенств x ∈ L ≡ x ∈ Rn | Ax = b 6= ∅, где A –– (m × n)-матрица, а b ∈ Rm , m < n. Тогда существует такой вектор множителей λ∗ , что f ′ (x ∗ ) = AT λ∗ . (.) Доказательство. Рассмотрим некоторые векторы ui , i = 1, …, k, которые формируют базис нуль-пространства матрицы A. Тогда любой вектор x ∈ L может быть представлен в виде x = x( y) ≡ x ∗ + k P y (i) ui , i =1 y ∈ Rk . Более того, точка y = 0 представляет собой локальный минимум функции ϕ ( y) = f (x( y)). Из теоремы .. следует, что ϕ ′ (0) = 0. Отсюда получаем ∂ϕ (0) = f ′ (x ∗ ), ui = 0, ∂ y (i) i = 1, …, k, и равенство (.) доказано. Заметим, что мы доказали только необходимое условие существования локального минимума функции. Все точки, удовлетворяющие этому условию, называются стационарными точками функции f . Для того чтобы показать, что такие точки не всегда являются точками локального минимума, достаточно рассмотреть функцию f (x) = x 3 , x ∈ R1 , в окрестности x = 0. Теперь введем в рассмотрение аппроксимации второго порядка. Предположим, что функция f (x) является дважды дифференцируемой в точке x̄. Тогда 1 ′′ f ( y) = f ( x̄) + f ′ ( x̄), y − x̄ + f ( x̄)( y − x̄), y − x̄ + o k y − x̄ k2 . 2 Квадратичная функция f ( x̄) + f ′ ( x̄), y − x̄ + 1 ′′ f ( x̄)( y − x̄), y − x̄ 2 называется квадратичной аппроксимацией (или аппроксимацией второго порядка) функции f в точке x̄. Напомним, что (n × n) “Nesterov-final” — // — : — page — # § .. Локальные методы безусловной оптимизации матрица f ′′ (x) имеет следующие компоненты: f ′′ (x) (i, j) = ∂2 f (x) . ∂x (i) ∂x ( j) Она называется гессианом функции f в точке x. Отметим, что гессиан есть симметрическая матрица: T f ′′ (x) = f ′′ (x) , которую можно рассматривать как производную вектор-функции f ′ (x): f ′ ( y) = f ′ ( x̄) + f ′′ ( x̄)( y − x̄) + o k y − x̄ k , где o(r) –– такая вектор-функция, что limr ↓0 1/r k o(r) k = 0 и o(0) = 0. Используя квадратичную аппроксимацию, мы можем выписать условия оптимальности второго порядка. Оговорим предварительно, что запись A 0 будет означать, что матрица A является симметрической неотрицательно определенной: 〈 Ax, x 〉 ¾ 0, ∀ x ∈ Rn . (.) Аналогично запись A ≻ 0 означает, что матрица A положительно определенная (неравенство (.) при этом должно быть строгим для x 6= 0). Теорема .. (Условие оптимальности второго порядка). Пусть x ∗ –– точка локального минимума дважды дифференцируемой функции f (x). Тогда f ′ (x ∗ ) = 0, f ′′ (x ∗ ) 0. Доказательство. Поскольку x ∗ –– точка локального минимума функции f (x), существует такое r > 0, что при всех y, удовлетворяющих условию k y − x ∗ k ¶ r, выполнено неравенство f ( y) ¾ f (x ∗ ). Из теоремы .. следует, что f ′ (x ∗ ) = 0. Поэтому для любых таких y верно соотношение f ( y) = f (x ∗ ) + f ′′ (x ∗ )( y − x ∗ ), y − x ∗ + o k y − x ∗ k2 ¾ f (x ∗ ). Таким образом, 〈 f ′′ (x ∗ )s, s〉 ¾ 0 для всех векторов s, удовлетворяющих условию k s k = 1. “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Снова заметим, что приведенная теорема дает только необходимое условие (второго порядка) для локального минимума. Теперь докажем достаточное условие. Теорема ... Пусть функция f (x) дважды дифференцируема в Rn , и пусть точка x ∗ удовлетворяет условию f ′ (x ∗ ) = 0, f ′′ (x ∗ ) ≻ 0. Тогда x ∗ является точкой строгого (изолированного) локального минимума функции f (x). Доказательство. Заметим, что в малой окрестности точки x ∗ функцию f (x) можно представить как 1 ′′ ∗ f ( y) = f (x ∗ ) + f (x )( y − x ∗ ), y − x ∗ + o k y − x ∗ k2 . 2 Так как (o(r))/r → 0, существует такая величина r̄, что для всех r ∈ [0, r̄] имеет место неравенство r | o(r) | ¶ λ1 f ′′ (x ∗ ) , 4 где λ1 f ′′ (x ∗ ) –– наименьшее собственное значение матрицы f ′′ (x ∗ ). Напомним, что из предположений теоремы следует положительность этого собственного значения. Отсюда следует, что для всех y, удовлетворяющих условию k y − x ∗ k ¶ r̄, выполняется неравенство 1 f ( y) ¾ f (x ∗ ) + λ1 f ′′ (x ∗ ) k y − x ∗ k2 + o k y − x ∗ k2 ¾ 2 1 ¾ f (x ∗ ) + λ1 f ′′ (x ∗ ) k y − x ∗ k2 > f (x ∗ ). 4 ... Классы дифференцируемых функций Хорошо известно, что любую непрерывную функцию можно приблизить гладкой функцией со сколь угодно высокой точностью. Поэтому, предполагая только дифференцируемость целевой функции, мы не сможем сильно улучшить сходимость соответствующих методов. Следовательно, нам необходимо накладывать некоторые дополнительные предположения на величину ее производных. Традиционно в теории оптимизации такие предположения представляются в форме условия Липшица для производной определенного порядка. Пусть Q есть подмножество пространства Rn . Обозначим через k,p C L (Q) класс функций со следующими свойствами: “Nesterov-final” — // — : — page — # § .. Локальные методы безусловной оптимизации ◦ любая функция f ∈ C Lk,p (Q) k раз непрерывно дифференцируема на Q; ◦ ее p-я производная удовлетворяет условию Липшица на Q с константой L: k f (p) (x) − f (p) ( y) k ¶ Lk x − y k для всех x, y ∈ Q. Очевидно, что всегда p ¶ k. Если q ¾ k, то C Lq,p (Q) ⊆ C Lk,p (Q), например, C L2,1 (Q) ⊆ C L1,1 (Q). Отметим также, что эти классы обладают следующим свойством: если f1 ∈ C Lk,p (Q), f2 ∈ C Lk,p (Q) и α, β ∈ R1 , то 1 2 для L3 = |α| L1 + |β | L2 выполняется включение α f1 + β f2 ∈ C Lk,p (Q). 3 Будем использовать обозначение f ∈ C k (Q) для функции f , которая k раз непрерывно дифференцируема на Q. Наиболее важным классом функций из перечисленных для нас будет C L1,1 (Rn ), т. е. класс функций, градиент которых удовлетворяет условию Липшица. По определению включение f ∈ C L1,1 (Rn ) означает, что k f ′ (x) − f ′ ( y) k ¶ Lk x − y k (.) для всех x, y ∈ Rn . Приведем достаточное условие для такого включения. Лемма ... Функция f (x) принадлежит классу C L2,1 (Rn ) ⊂ C L1,1 (Rn ) тогда и только тогда, когда k f ′′ (x) k ¶ L ∀ x ∈ Rn . (.) Доказательство. В самом деле, для любых x, y ∈ Rn имеет место равенство f ′ ( y) = f ′ (x) + R1 0 f ′′ (x + τ( y − x))( y − x) dτ = 1 R ′ ′′ = f (x) + f (x + τ( y − x)) dτ · ( y − x). 0 “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Поэтому если условие (.) выполнено, то 1 R ′ ′ ′′ k f ( y) − f (x) k = f (x + τ( y − x)) dτ · ( y − x) ¶ 0 ¶ R1 0 f ′′ (x + τ( y − x)) dτ · k y − x k ¶ ¶ R1 0 k f ′′ (x + τ( y − x)) k dτ · k y − x k ¶ Lk y − x k. С другой стороны, если f ∈ C L2,1 (Rn ), то для любого s ∈ Rn и α > 0 имеем α R ′′ f (x + τs) dτ · s = k f ′ (x + αs) − f ′ (x) k ¶ α Lk s k 0 Разделив это неравенство на α и перейдя к пределу при α ↓ 0, получим неравенство (.). Этот простой результат порождает много примеров функций с липшицевым градиентом. Пример ... . Линейная функция f (x) = α + 〈a, x 〉 принадлежит классу C01,1 (Rn ), поскольку f ′ (x) = a, f ′′ (x) = 0. 1 . Для квадратичной функции f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉, A = AT , 2 имеют место равенства f ′ (x) = a + Ax, f ′′ (x) = A. Поэтому f (x) ∈ C L1,1 (Rn ) с L = k A k. p . Рассмотрим функцию одной переменной f (x) = 1 + x 2 , x ∈ R1 . Тогда x 1 f ′ (x) = p , f ′′ (x) = ¶ 1. 2 3/2 1 + x2 (1 + x ) Значит, f (x) ∈ C11,1 (R). Следующее утверждение важно с точки зрения геометрической интерпретации функций из класса C L1,1 (Rn ). “Nesterov-final” — // — : — page — # § .. Локальные методы безусловной оптимизации Лемма ... Пусть f ∈ C L1,1 (Rn ). Тогда для любых x, y из Rn имеет место неравенство L 2 | f ( y) − f (x) − 〈 f ′ (x), y − x 〉| ¶ k y − x k2 . (.) Доказательство. Для любых x, y ∈ Rn имеем f ( y) = f (x) + R1 f ′ (x + τ( y − x)), y − x dτ = 0 = f (x) + 〈 f ′ (x), y − x 〉 + R1 0 f ′ (x + τ( y − x)) − f ′ (x), y − x dτ. Поэтому | f ( y) − f (x) − 〈 f ′ (x), y − x 〉| = = R1 0 ¶ R1 0 ¶ R1 0 〈 f ′ (x + τ( y − x)) − f ′ (x), y − x 〉 dτ ¶ |〈 f ′ (x + τ( y − x)) − f ′ (x), y − x 〉| dτ ¶ k f ′ (x + τ( y − x)) − f ′ (x) k · k y − x k dτ ¶ ¶ R1 0 L 2 τ Lk y − x k2 dτ = k y − x k2 . Геометрически мы можем представить себе следующую картину. Рассмотрим функцию f из C L1,1 (Rn ). Зафиксируем некоторую точку x0 ∈ Rn и определим две квадратичные функции L 2 L ϕ2 (x) = f (x0 ) + 〈 f ′ (x0 ), x − x0 〉 − k x − x0 k2 . 2 ϕ1 (x) = f (x0 ) + 〈 f ′ (x0 ), x − x0 〉 + k x − x0 k2 , Тогда график функции f расположен между графиками функций ϕ1 и ϕ2 : ϕ1 (x) ¾ f (x) ¾ ϕ2 (x) ∀ x ∈ Rn . Докажем похожий результат для класса дважды дифференцируемых функций. Основным для нас в этом случае будет класс функций “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация 2,2 CM (Rn ), т. е. класс дважды дифференцируемых функций с липшице2,2 вым гессианом. Вспомним, что для f ∈ C M (Rn ) верно неравенство для всех x, y ∈ Rn . k f ′′ (x) − f ′′ ( y) k ¶ M k x − y k (.) 2,2 Лемма ... Пусть f ∈ C M (Rn ). Тогда для любых x, y ∈ Rn выполняются неравенства k f ′ ( y) − f ′ (x) − f ′′ (x)( y − x) k ¶ M k y − x k2 , 2 (.) 1 2 | f ( y) − f (x) − 〈 f ′ (x), y − x 〉 − 〈 f ′′ (x)( y − x), y − x 〉| ¶ ¶ M k y − x k3 . 6 (.) Доказательство. Зафиксируем некоторые x, y ∈ Rn . Тогда f ′ ( y) = f ′ (x) + R1 0 f ′′ (x + τ( y − x))( y − x) dτ = = f ′ (x) + f ′′ (x)( y − x) + R1 0 f ′′ (x + τ( y − x)) − f ′′ (x) ( y − x) dτ. Поэтому k f ′ ( y) − f ′ (x) − f ′′ (x)( y − x) k = R1 = 0 ¶ ¶ R1 0 R1 0 f ′′ (x + τ( y − x)) − f ′′ (x) ( y − x) dτ ¶ k f ′′ (x + τ( y − x)) − f ′′ (x) ( y − x) k dτ ¶ k f ′′ (x + τ( y − x)) − f ′′ (x) k · k y − x k dτ ¶ ¶ R1 0 τ M k y − x k2 dτ = Неравенство (.) доказывается аналогично. 2,2 Следствие ... Пусть f ∈ C M (Rn ) и k y − x k = r. Тогда f ′′ (x) − MrIn f ′′ ( y) f ′′ (x) + MrIn , M k y − x k2 . 2 “Nesterov-final” — // — : — page — # § .. Локальные методы безусловной оптимизации где In –– единичная матрица в Rn . (Напомним, что для матриц A и B мы пишем A B, если A − B 0.) Доказательство. Введем обозначение G = f ′′ ( y) − f ′′ (x). Так как 2,2 f ∈ CM (Rn ), мы имеем k G k ¶ Mr. Следовательно, собственные значения λi (G) симметрической матрицы G удовлетворяют неравенству |λi (G) | ¶ Mr, i = 1, …, n. Отсюда следует, что − MrIn G ≡ f ′′ ( y) − f ′′ (x) MrIn . ... Градиентный метод Теперь мы можем попробовать оценить скорость сходимости некоторых методов безусловной минимизации. Начнем с наиболее простой схемы. Мы уже знаем, что антиградиент является направлением наискорейшего локального убывания дифференцируемой функции. Поскольку мы собираемся искать локальный минимум такой функции, в первую очередь имеет смысл рассмотреть следующую итеративную схему. Градиентный метод Выберем x0 ∈ Rn . Вычислим xk+1 = xk − hk f ′ (xk ), k = 0, 1, … (.) Будем называть эту схему градиентным методом. Скалярный множитель hk перед градиентом будем называть длиной шага. Очевидно, он должен быть положительным. Существует много разновидностей этого метода, которые различаются друг от друга стратегией выбора длины шага. Рассмотрим наиболее важные из них. ∞ . Последовательность hk k=0 выбирается заранее. Например, hk = h > 0 (постоянный шаг), hk = p h . k+1 . Полная релаксация: hk = arg min f xk − hf ′ (xk ) . h ¾0 “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация . Правило Голдштейна––Армийо: найти такое xk+1 = xk − hf ′ (xk ), что α f ′ (xk ), xk − xk+1 ¶ f (xk ) − f (xk+1 ), (.) β f ′ (xk ), xk − xk+1 ¾ f (xk ) − f (xk+1) (.) где α, β , 0 < α < β < 1, –– некоторые фиксированные параметры. Сравнивая эти стратегии, видим, что первая из них является самой простой. Действительно, она часто используется, но главным образом в контексте задач выпуклой оптимизации. В таких задачах поведение функций наиболее благоприятно по сравнению с общим нелинейным случаем. Вторая стратегия интересна только с теоретической точки зрения. Она никогда не используется на практике, так как даже в одномерном случае мы не можем найти точного минимума за конечное время. Третья стратегия используется в большинстве практических алгоритмов. Она имеет следующую геометрическую интерпретацию. Зафиксируем x ∈ Rn . Рассмотрим функцию одной переменной ϕ (h) = f (x − hf ′ (x)), h ¾ 0. Тогда длина шага, допустимая в этой стратегии, принадлежит той части графика функции ϕ , которая расположена между графиками двух линейных функций: ϕ1 (h) = f (x) − αhk f ′ (x) k2 , ϕ2 (h) = f (x) − β hk f ′ (x) k2 . Заметим, что ϕ (0) = ϕ1 (0) = ϕ2 (0) и ϕ ′ (0) < ϕ2′ (0) < ϕ1′ (0) < 0. Поэтому допустимые значения существуют, если функция ϕ (h) ограничена снизу. Имеется несколько очень быстрых одномерных процедур для поиска точки, удовлетворяющей условиям этой стратегии. Однако их детальное описание сейчас не представляется необходимым. Оценим эффективность градиентного метода. Для этого рассмотрим задачу minn f (x) x ∈R с функцией f ∈ C L1,1 (Rn ) и предположим, что функция f (x) ограничена снизу в Rn . Оценим результат одной итерации градиентного метода. Рассмотрим точку y = x − hf ′ (x). Тогда из неравенства (.) “Nesterov-final” — // — : — page — # § .. Локальные методы безусловной оптимизации следует, что L 2 f ( y) ¶ f (x) + 〈 f ′ (x), y − x 〉 + k y − x k2 = h2 Lk f ′ (x) k2 = 2 h = f (x) − h 1 − L k f ′ (x) k2 . 2 = f (x) − hk f ′ (x) k2 + (.) Таким образом, чтобы получить наилучшую гарантированную оценку для убывания целевой функции, необходимо решить следующую одномерную задачу: h ∆(h) = −h 1 − L → min. 2 h Вычислив производную этой функции, получаем, что оптимальная длина шага должна удовлетворять равенству ∆′ (h) = hL − 1 = 0. Следовательно, поскольку ∆′′ (h) = L > 0, точка h∗ = 1/ L, является точкой глобального минимума для ∆(h). Таким образом, наше рассуждение доказывает, что один шаг градиентного метода уменьшает величину целевой функции по крайней мере следующим образом: f ( y) ¶ f (x) − 1 k f ′ (x) k2. 2L Проверим, как обстоят дела с приведенными выше стратегиями длины шага. Пусть xk+1 = xk − hk f ′ (xk ). Тогда при постоянном шаге hk = h имеем 1 f (xk ) − f (xk+1 ) ¾ h 1 − Lh k f ′ (xk ) k2 . 2 2α , α ∈ (0, 1), то L 2 f (xk ) − f (xk+1 ) ¾ α(1 − α)k f ′ (xk ) k2 . L Поэтому если выбрать hk = Очевидно, что оптимальным шагом будет hk = 1/ L. Для стратегии с полной релаксацией имеем f (xk ) − f (xk+1) ¾ 1 k f ′ (xk ) k2 , 2L так как максимальное убывание не хуже, чем при hk = 1/ L. “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Наконец, в силу неравенства (.) для правила Голдштейна––Армихо имеем f (xk ) − f (xk+1) ¶ β 〈 f ′ (xk ), xk − xk+1 〉 = β hk k f ′ (xk ) k2 . Из соотношения (.) получаем h f (xk ) − f (xk+1) ¾ hk 1 − k L k f ′ (xk ) k2 . 2 2 L Поэтому hk ¾ (1 − β ). Далее, используя неравенство (.), имеем f (xk ) − f (xk+1) ¾ α〈 f ′ (xk ), xk − xk+1 〉 = αhk k f ′ (xk ) k2 . Объединяя это неравенство с предыдущим, заключаем, что 2 L f (xk ) − f (xk+1 ) ¾ α(1 − β )k f ′ (xk ) k2 . Таким образом, мы доказали, что во всех случаях имеет место неравенство ω f (xk ) − f (xk+1 ) ¾ k f ′ (xk ) k2 , (.) L где ω –– некоторое положительное число. Приступим теперь к оценке эффективности градиентной схемы. Просуммировав неравенства (.) при k = 0, …, N, получим N ω P k f ′ (xk ) k2 ¶ f (x0 ) − f (x N +1 ) ¶ f (x0 ) − f ∗ , L k =0 (.) где f ∗ есть оптимальное значение для задачи (.). Как простое следствие из неравенства (.) получаем k f ′ (xk ) k → 0 при k → ∞. Однако здесь можно также что-то сказать и о скорости сходимости метода. В самом деле, обозначим gN∗ = min gk , 0¶k ¶ N где gk = k f ′ (xk ) k. Тогда в силу неравенства (.) мы приходим к следующему неравенству: h i1/2 1 1 gN∗ ¶ p L( f (x0 ) − f ∗ ) . (.) N +1 ω “Nesterov-final” — // — : — page — # § .. Локальные методы безусловной оптимизации Правая часть этого неравенства описывает скорость сходимости последовательности {gN∗ } к нулю. Заметим, что о скорости сходимости последовательностей { f (xk )} и {xk } ничего сказать нельзя. Напомним, что в общей задаче нелинейной оптимизации нашей целью является поиск только локального, а не глобального минимума. Тем не менее, даже при такой постановке задачи для градиентного метода эта цель недостижима. Рассмотрим следующий пример. Пример ... Возьмем функцию двух переменных 2 1 4 1 2 1 f (x) ≡ f x (1) , x (2) = x (1) + x (2) − x (2) . 2 4 2 T Градиент этой функции равен f ′ (x) = x (1) , (x (2) )3 − x (2) , откуда следует, что существуют только три точки, которые могут претендовать на локальный минимум: x1∗ = (0, 0), Вычисляя гессиан x2∗ = (0, −1), f ′′ (x) = x3∗ = (0, 1). 1 0 , 0 3(x (2) )2 − 1 заключаем, что x2∗ и x3∗ являются точками изолированного локального минимума , в то время как x1∗ есть только стационарная точка нашей функции. Действительно, f (x1∗ ) = 0 и f (x1∗ + ǫ e2 ) = (ǫ 4 /4) − − (ǫ 2 /2) < 0 при достаточно малых ǫ . Теперь рассмотрим траекторию градиентного метода, начинающуюся в точке x0 = (1, 0). Обратим внимание на то, что вторая координата этой точки равна нулю, поэтому вторая координата для f ′ (x0 ) также есть нуль. Следовательно, вторая координата точки x1 равна нулю и т. д. Таким образом, вся последовательность точек, образованная градиентным методом, будет иметь нулевую вторую координату, что означает сходимость этой последовательности к x1∗ . В заключение нашего примера отметим, что эта ситуация типична для всех методов первого порядка безусловной оптимизации. Без дополнительных более строгих предположений невозможно гарантировать их глобальную сходимость к точке локального минимума. В общем случае гарантируется только сходимость к стационарной точке. В действительности в нашем примере они являются глобальными решениями. “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Заметим, что неравенство (.) иллюстрирует нам понятие скорости сходимости алгоритма минимизации. Как мы можем его использовать при анализе вычислительной сложности различных задач? Дело в том, что скорость сходимости дает верхние границы сложности для некого класса задач. Эти границы всегда устанавливаются с помощью численных методов. Если существует метод, для которого верхние границы вычислительной сложности пропорциональны соответствующим нижним границам, то мы называем этот метод оптимальным. Вспомним, что в § . мы уже приводили пример оптимального метода. Рассмотрим пример вычисления верхних границ сложности. Пример ... Введем следующий класс задач. Модель: . безусловная минимизация; . f ∈ C L1,1 (Rn ); . f (x) ограничена снизу. Оракул: черный ящик первого порядка. (.) ǫ -решение: f ( x̄) ¶ f (x0 ), k f ′ ( x̄) k ¶ ǫ . Заметим, что неравенство (.) можно использовать для получения верхней границы числа для шагов (равных числу вызовов оракула), которые необходимы для нахождения точки с малой нормой градиента. Для этого запишем следующее неравенство: 1/2 1 1 gN∗ ¶ p L f (x0 ) − f ∗ ¶ ǫ. N +1 ω Отсюда следует, что если N + 1 ¾ L/ωǫ 2 f (x0 ) − f ∗ , то мы с необходимостью имеем gN∗ ¶ ǫ . Таким образом, мы можем использовать значение L/(ωǫ 2 )( f (x0 ) − − f ∗ ) как верхнюю границу сложности для рассматриваемого класса задач. Сравнивая эту оценку с результатом из теоремы .., можно увидеть, что она намного лучше; по крайней мере она не зависит от n. Нижняя граница сложности для класса (.) неизвестна. Выясним, что можно сказать о локальной сходимости градиентного метода. Рассмотрим задачу безусловной минимизации: minn f (x) x ∈R “Nesterov-final” — // — : — page — # § .. Локальные методы безусловной оптимизации при следующих предположениях: 2,2 . f ∈ C M (Rn ); . существует точка локального минимума функции f , в которой гессиан является положительно определенным; . известны некоторые границы 0 < l ¶ L < ∞ для гессиана в точке x ∗ : l In f ′′ (x ∗ ) LIn ; (.) . начальная точка x0 расположена достаточно близко к x ∗ . Рассмотрим следующую процедуру: xk+1 = xk − hk f ′ (xk ). Заметим, что f ′ (x ∗ ) = 0. Отсюда следует, что f ′ (xk ) = f ′ (xk ) − f ′ (x ∗ ) = R1 0 f ′′ (x ∗ + τ(xk − x ∗ ))(xk − x ∗ ) dτ = = Gk (xk − x ∗ ), где Gk = R1 0 f ′′ (x ∗ + τ(xk − x ∗ )) dτ. Поэтому xk+1 − x ∗ = xk − x ∗ − hk Gk (xk − x ∗ ) = (I − hk Gk )(xk − x ∗ ). Существует стандартная техника для анализа такого типа алгоритмов, основанная на сжимающих отображениях. Пусть последовательность {ak } определена следующим образом: a0 ∈ R n , a k +1 = A k a k , где Ak такие (n × n)-матрицы, что k Ak k ¶ 1 − q, q ∈ (0, 1). Тогда мы можем оценить скорость сходимости последовательности {ak } к нулю: k ak+1 k ¶ (1 − q)k ak k ¶ (1 − q)k+1 k a0 k → 0. В нашем случае нам нужно оценить k In − hk Gk k. Обозначим rk = k xk − x ∗ k. Из следствия .. имеем f ′′ (x ∗ ) − τ Mrk In f ′′ (x ∗ + τ(xk − x ∗ )) f ′′ (x ∗ ) + τ Mrk In . Поэтому, используя предположение (.), получаем r r l − k M In Gk L + k M In . 2 2 “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Отсюда следует, что r r 1 − hk L + k M In ¶ In − hk Gk ¶ 1 − hk l − k M In , 2 2 и мы заключаем, что (.) k In − hk Gk k ¶ max{ak (hk ), bk (hk )}, где ak (h) = 1 − h(l − (rk /2)Mr) и bk (h) = h(L + (rk /2)M) − 1. 2l Заметим, что ak (0) = 1 и bk (0) = −1. Поэтому если rk < r̄ ≡ , то M ak (h) –– строго убывающая функция от h, и мы убеждаемся, что k In − hk Gk k < 1 при достаточно малых hk . В этом случае мы получим rk+1 < rk . Существует много разных стратегий выбора длины шага. Например, можно взять hk = 1/ L. Рассмотрим «оптимальную» стратегию, заключающуюся в минимизации правой части неравенства (.): max{ak (h), bk (h)} → min. h Предположим, что r0 < r̄. Тогда если мы формируем последовательность {xk }, используя оптимальную стратегию, то можно быть уверенным, что rk+1 < rk < r̄. Далее, оптимальная длина шага h∗k может быть найдена из уравнения r r ak (h) = bk (h) ⇐⇒ 1 − h l − k M = h L + k M − 1. 2 2 Отсюда следует, что h∗k = 2 L+l (.) (достаточно неожиданно, что оптимальный шаг не зависит от M). При таком выборе h∗k получим rk+1 ¶ Mrk2 (L − l)rk + . L+l L+l Оценим скорость сходимости процесса. Обозначим q = = M r (< q). Тогда L+l k ak+1 ¶ (1 − q)ak + a2k = ak (1 + (ak − q)) = 2l и ak = L+l ak (1 − (ak − q)2 ) ak ¶ . 1 − (ak − q) 1 + q − ak “Nesterov-final” — // — : — page — # § .. Локальные методы безусловной оптимизации Значит, 1+q 1 ¾ − 1, или a k +1 ak q a k +1 −1¾ q(1 + q) q − q − 1 = (1 + q) −1 . ak ak Отсюда следует, что q q 2l L+l − 1 ¾ (1 + q)k − 1 = (1 + q)k · −1 = ak a0 L+l r0 M = (1 + q)k Таким образом, ak ¶ qr0 qr0 ¶ r̄ − r0 r0 + (1 + q)k (r̄ − r0 ) 1 1+q r̄ −1 . r0 k , откуда вытекает следующая теорема. Теорема ... Пусть функция f (x) удовлетворяет нашим предположениям, а начальная точка x0 расположена достаточно близко к точке локального минимума: r0 = k x0 − x ∗ k < r̄ = 2l . M Тогда градиентный метод с длиной шага (.) сходится следующим образом: k xk − x ∗ k ¶ r̄r0 2l 1− r̄ − r0 L + 3l k . Такая скорость сходимости называется линейной. ... Метод Ньютона Метод Ньютона широко известен как способ нахождения корня функции одной переменной. Пусть ϕ (t): R → R. Рассмотрим уравнение ϕ (t ∗ ) = 0. Метод Ньютона основан на его линейной аппроксимации. Выберем некоторое t, достаточно близкое к t ∗ . Тогда ϕ (t + ∆t) = ϕ (t) + ϕ ′ (t)∆t + o(|∆t |). Поэтому уравнение ϕ (t + ∆t) = 0 можно приблизить следующим линейным уравнением: ϕ (t) + ϕ ′ (t)∆t = 0. “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Можно ожидать, что решение этого уравнения, т. е. отклонение ∆t, будет хорошей аппроксимацией оптимального отклонения ∆t ∗ = = t ∗ − t. Представив наши рассуждения в алгоритмической форме, получаем процедуру t k +1 = t k − ϕ (tk ) . ϕ ′ (tk ) Эту схему можно естественным образом обобщить на задачу решения системы нелинейных уравнений F(x) = 0, n n n где x ∈ R и F(x): R → R . В этом случае требуется определить смещение ∆ x как решение следующей системы линейных уравнений: F(x) + F ′ (x) ∆ x = 0 (она называется системой Ньютона). Если якобиан F ′ (x) невырожден, то можно вычислить смещение по формуле ∆ x = −[F ′ (x)]−1 F(x). Соответствующая итеративная схема выглядит следующим образом: −1 xk+1 = xk − F ′ (xk ) F(xk ). Наконец, из теоремы .. следует, что можно заменить задачу безусловной минимизации задачей отыскания корней системы нелинейных уравнений f ′ (x) = 0 (.) (эта замена не является полностью эквивалентной, но она работает в невырожденных случаях). Далее, для решения системы (.) можно применить стандартный метод Ньютона для систем нелинейных уравнений. В этом случае система линейных уравнений для смещения принимает вид f ′ (x) + f ′′ (x)∆ x = 0 Таким образом, метод Ньютона для задач оптимизации записывается как −1 ′ xk+1 = xk − f ′′ (xk ) f (xk ). (.) Заметим, что мы можем получить процесс (.), используя идею квадратичной аппроксимации. Рассмотрим эту аппроксимацию относительно точки xk : ϕ (x) = f (xk ) + f ′ (xk ), x − xk + 1 ′′ f (xk )(x − xk ), x − xk . 2 “Nesterov-final” — // — : — page — # § .. Локальные методы безусловной оптимизации Предположим, что f ′′ (xk ) ≻ 0. Тогда можно выбрать xk+1 как точку минимума квадратичной функции ϕ (x). Это означает, что ϕ ′ (xk+1 ) = f ′ (xk ) + f ′′ (xk )(xk+1 − xk ) = 0, и мы снова приходим к схеме Ньютона (.). Мы увидим, что скорость сходимости метода Ньютона в окрестности точки строго локального минимума очень велика. Однако этот метод имеет два серьезных недостатка. Во-первых, он не работает, если гессиан f ′′ (xk ) вырожден. Во-вторых, метод Ньютона может расходиться. Рассмотрим следующий пример. Пример ... Применим метод Ньютона для отыскания корня следующей функции одной переменной: ϕ (t) = p t 1 + t2 . Очевидно, t ∗ = 0. Заметим, что ϕ ′ (t) = 1 . [1 + t 2 ]3/2 Поэтому схема Ньютона запишется в виде 3/2 ϕ (t ) t t k +1 = t k − ′ k = t k − p k · 1 + tk2 = −tk3 . ϕ (tk ) 1 + tk2 Таким образом, если | t0 | < 1, то метод сходится очень быстро, точки ±1 –– это точки осцилляции, а при | t0 | > 1 метод расходится. Для того чтобы избежать возможной расходимости, на практике применяют демпфированный метод Ньютона: −1 ′ xk+1 = xk − hk f ′′ (xk ) f (xk ), где hk > 0 –– параметр длины шага. На начальном этапе метода можно использовать ту же стратегию выбора длины шага, что и у градиентного метода. На заключительном этапе разумно выбирать hk = 1. Изучим локальную сходимость метода Ньютона. Рассмотрим задачу minn f (x) x ∈R при следующих предположениях: 2,2 . f ∈ C M (Rn ); “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация . существует точка локального минимума функции f с положительно определенным гессианом: f ′′ (x ∗ ) lIn , (.) l > 0; ∗ . начальная точка x0 расположена достаточно близко к x . −1 ′ Рассмотрим следующий алгоритм: xk+1 = xk − f ′′ (xk ) f (xk ). Используя те же рассуждения, что и для градиентного метода, получим представление −1 ′ xk+1 − x ∗ = xk − x ∗ − f ′′ (xk ) f (xk ) = −1 R1 ′′ ∗ = xk − x ∗ − f ′′ (xk ) f (x + τ(xk − x ∗ ))(xk − x ∗ ) dτ = 0 −1 = f ′′ (xk ) Gk (xk − x ∗ ), R 1 где Gk = 0 f ′′ (xk ) − f ′′ (x ∗ + τ(xk − x ∗ )) dτ. Введем обозначение rk = k xk − x ∗ k. Тогда k Gk k = R1 0 f ′′ (xk ) − f ′′ (x ∗ + τ(xk − x ∗ )) dτ ¶ ¶ R1 0 k f ′′ (xk ) − f ′′ (x ∗ + τ(xk − x ∗ )) k dτ ¶ ¶ R1 0 M(1 − τ)rk dτ = rk M. 2 На основании следствия (..) и условия (.) имеем f ′′ (xk ) ¾ f ′′ (x ∗ ) − Mrk In ¾ (l − Mrk )In . Поэтому если rk < l / M, то матрица f ′′ (xk ) положительно определена и k [ f ′′ (xk )]−1 k ¶ (l − Mrk )−1 . Отсюда при достаточно малом rk (rk < 2l /3M) получим rk+1 ¶ Mrk2 2(l − Mrk ) (< rk ). Скорость сходимости такого типа называется квадратичной. Таким образом, доказана следующая теорема. “Nesterov-final” — // — : — page — # § .. Локальные методы безусловной оптимизации Теорема ... Пусть функция f (x) удовлетворяет нашим предположениям. Если начальная точка x0 достаточно близка к x ∗ : k x0 − x ∗ k < r̄ = 2l , 3M то k xk − x ∗ k < r̄ для всех k ¾ 0 и метод Ньютона сходится квадратично: M k xk − x ∗ k2 k x k +1 − x ∗ k ¶ . ∗ 2(l − M k xk − x k) Сравнивая этот результат со скоростью сходимости градиентного метода, мы видим, что метод Ньютона намного быстрее. При этом оказывается, что область квадратичной сходимости метода Ньютона почти такая же, как и область линейной сходимости градиентного метода. Это обстоятельство объясняет стандартную рекомендацию использовать градиентный метод только на начальном этапе процесса минимизации, стараясь приблизиться на достаточно малое расстояние к точке локального минимума. Заключительный этап лучше проводить с помощью метода Ньютона. В этом параграфе мы привели несколько примеров скорости сходимости. Установим соответствие между этими скоростями и границами аналитической сложности. Как мы видели в примере .., верхняя граница сложности для некоторого класса задач есть обратная функция скорости сходимости. . Сублинейная скорость. Эта скорость задается p степенной функцией от числа итераций. Например, если rk ¶ c/ k, то верхняя граница сложности соответствующего класса задач равна (c/ǫ )2 . Сублинейная скорость является достаточно низкой. С точки зрения вычислительной трудоемкости можно сказать, что для улучшения точности ответа еще на один знак требуется количество операций, сравнимое с общим объемом всех предшествующих вычислений. Отметим также, что константа c играет существенную роль в соответствующей оценке. . Линейная скорость. Эта скорость определяется с помощью показательной функции от числа итераций. Например, rk ¶ c(1 − q)k . Отметим, что соответствующая граница сложности равна 1/q(ln c + ln 1/ǫ ). “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Линейная скорость является достаточно быстрой: увеличение точности ответа на один знак требует постоянного количества вычислительных операций. Зависимость оценки сложности от константы c очень слабая. . Квадратичная скорость. Эта скорость имеет форму двойной показательной функции от числа итераций и выводится из неравенства rk+1 ¶ crk2 . Соответствующая оценка сложности зависит от двойного логарифма желаемой точности: ln ln 1/ǫ . Эта скорость сходимости чрезвычайно велика: каждая итерация удваивает число правильных цифр в ответе. Константа c важна только для определения начального момента квадратичной сходимости (crk < 1). § .. Методы первого порядка в нелинейной оптимизации Градиентный метод и метод Ньютона: в чем разница? Идея переменной метрики. Методы переменной метрики. Методы сопряженных градиентов. Условная минимизация. Штрафные функции и методы штрафных функций. Барьерные функции и методы барьерных функций. ... Градиентный метод и метод Ньютона: в чем разница? В предыдущем параграфе были представлены локальных метода поиска локального минимума в простейшей задаче минимизации minn f (x), x ∈R где f ∈ C L2,2 (Rn ). Это градиентный метод: и метод Ньютона: xk+1 = xk − hk f ′ (xk ), hk > 0, xk+1 = xk − [ f ′′ (xk )]−1 f ′ (xk ). Вспомним, что локальная скорость сходимости этих методов существенно различается. Градиентный метод имеет линейную скорость сходимости, а метод Ньютона сходится квадратично. Какова причина этого различия? “Nesterov-final” — // — : — page — # § .. Методы первого порядка в нелинейной оптимизации Если посмотреть на аналитическую форму двух методов, то можно увидеть по крайней мере следующие формальные отличия: в градиентном методе направление одномерного поиска совпадает с антиградиентом, тогда как в методе Ньютона мы умножаем антиградиент на некоторую матрицу, равную обратной к гессиану. Попытаемся определить эти направления, используя некие «общие» соображения. Зафиксируем точку x̄ ∈ Rn . Рассмотрим следующую аппроксимацию функции f (x): ϕ1 (x) = f ( x̄) + 〈 f ′ ( x̄), x − x̄ 〉 + 1 k x − x̄ k2 , 2h где параметр h положителен. Условие оптимальности первого порядка дает следующее уравнение для точки x1∗ , являющейся точкой безусловного минимума функции ϕ1 (x): 1 h ϕ1′ (x1∗ ) = f ′ ( x̄) + (x1∗ − x̄) = 0. Таким образом, x1∗ = x̄ − hf ′ ( x̄), что в точности совпадает с итерацией градиентного метода. Отметим, что если h ∈ (0, 1/ L], то функция ϕ1 (x) представляет собой глобальную верхнюю аппроксимацию функции f (x): f (x) ¶ ϕ1 (x) ∀ x ∈ Rn (см. лемму ..). Это обстоятельство предопределяет глобальную сходимость градиентного метода. Далее, рассмотрим квадратичное приближение функции f (x): ϕ2 (x) = f ( x̄) + f ′ ( x̄), x − x̄ + 1 ′′ f ( x̄)(x − x̄), x − x̄ . 2 Минимум этой функции достигается в точке −1 ′ x2∗ = x̄ − f ′′ ( x̄) f ( x̄), что в точности совпадает с итерацией в методе Ньютона. Исходя из этого можно попытаться использовать другие аппроксимации функции f (x), более точные, чем ϕ1 (x), но менее сложные, чем ϕ2 (x). Пусть G –– положительно определенная (n × n)-матрица. Введем обозначение ϕG (x) = f ( x̄) + f ′ ( x̄), x − x̄ + 1 G(x − x̄), x − x̄ . 2 “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Вычисляя минимум этой функции с помощью уравнения ϕG′ xG∗ = f ′ ( x̄) + G xG∗ − x̄ = 0, получаем xG∗ = x̄ − G −1 f ′ ( x̄). (.) Методы первого порядка, формирующие последовательность матриц {Gk }: Gk → f ′′ (x ∗ ) −1 (или {Hk }: Hk ≡ Gk−1 → f ′′ (x ∗ ) ), называются методами переменной метрики; их иногда называют также квазиньютоновскими методами. Для генерации последовательностей {Gk } и {Hk } в этих методах используются только градиенты целевой функции. Правило движения (.) является весьма распространенным в теории оптимизации. Приведем для него еще одну интерпретацию. Заметим, что вектор градиента и матрица гессиана нелинейной функции f (x) обычно определяются относительно стандартного евклидова скалярного произведения на Rn : 〈 x, y 〉 = n P i =1 x (i) y (i) , x, y ∈ Rn , k x k = 〈 x, x 〉1/2 . В самом деле, определение градиента дается выражением f (x + h) = f (x) + 〈 f ′ (x), h〉 + o k h k , и из этого уравнения выводится его покоординатное представление: ∂ f (x) ∂ f (x) T f ′ (x) = , …, . (1) (n) ∂x ∂x Введем теперь новое скалярное произведение. Рассмотрим симметрическую положительно определенную (n × n)-матрицу A. Для x, y ∈ Rn введем обозначения 〈 x, y 〉 A = 〈 Ax, y 〉, k x k A = 〈 Ax, x 〉1/2 . Функция k x k A задает новую норму на Rn (метрику). Заметим, что топологически эта новая метрика эквивалентна старой: λn (A)1/2 k x k ¶ k x k A ¶ λ1 (A)1/2 k x k, “Nesterov-final” — // — : — page — # § .. Методы первого порядка в нелинейной оптимизации где λn (A) и λ1 (A) –– соответственно наименьшее и наибольшее собственные значения матрицы A. Однако градиент и гессиан, вычисленные относительно нового скалярного произведения, изменяются: 1 ′′ f (x)h, h + o k h k = 2 1 −1 ′′ = f (x) + A−1 f ′ (x), h A + A f (x)h, h 2 f (x + h) = f (x) + f ′ (x), h + A + o khkA . Отсюда следует, что f A′ (x) = A−1 f ′ (x) –– новый градиент, а f A′′ (x) = = A−1 f ′′ (x) –– новый гессиан. Таким образом, направление, используемое в методе Ньютона, можно рассматривать как градиент, вычисленный относительно метрики, определяемой матрицей A = f ′′ (x). Заметим, что гессиан функции f (x) в точке x, вычисленный в метрике A = f ′′ (x), равен In . Пример ... Рассмотрим квадратичную функцию 1 2 f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉, где A = AT ≻ 0. Заметим, что f ′ (x) = Ax + a, f ′′ (x) = A и f ′ (x ∗ ) = Ax ∗ + a = 0 для x ∗ = − A−1 a. Вычислим ньютоновское направление в некоторой точке x ∈ Rn : −1 ′ d N (x) = f ′′ (x) f (x) = A−1 (Ax + a) = x + A−1 a. Поэтому для любого x ∈ Rn верно равенство x − d N (x) = − A−1 a = x ∗ . Таким образом, для квадратичной функции метод Ньютона сходится за одну итерацию. Отметим также, что 1 2 f (x) = α + 〈 A−1 a, x 〉 A + k x k2A , f A′ (x) = A−1 f ′ (x) = d N (x), f A′′ (x) = A−1 f ′′ (x) = In . Выпишем общую схему методов переменной метрики. “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Метод переменной метрики . Выберем x0 ∈ Rn . Положим H0 = In . Вычислим f (x0 ) и f ′ (x0 ). . k-я итерация (k ¾ 0). a) Положим pk = Hk f ′ (xk ). б) Найдем xk+1 = xk − hk pk (выбор правила длины шага см. в п. ..). c) Вычислим f (xk+1) и f ′ (xk+1). d) Обновим матрицу Hk : Hk → Hk+1 . Схемы переменной метрики различаются друг от друга только реализацией шага d, на котором обновляется матрица Hk . Для этого используется новая информация в виде значения градиента f ′ (xk+1), вычисленного на шаге c. Возможность «улучшения» матрицы Hk вытекает из следующего свойства квадратичной функции. Пусть 1 f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉, f ′ (x) = Ax + a. 2 Тогда для любых x, y ∈ Rn имеем f ′ (x) − f ′ ( y) = A(x − y). Это тождество объясняет происхождение так называемого квазиньютоновского правила. Квазиньютоновское правило Выберем Hk+1 так, чтобы выполнялось равенство Hk+1 ( f ′ (xk+1) − f ′ (xk )) = xk+1 − xk . Нетрудно видеть, что существует много способов удовлетворить это соотношение. Ниже приводится несколько наиболее популярных версий. Пример ... Обозначим ∆ H k = H k +1 − H k , γk = f ′ (xk+1) − f ′ (xk ), δ k = x k +1 − x k . Тогда квазиньютоновское соотношение обеспечивается следующими правилами пересчета. . Правило одноранговой коррекции: ∆ Hk = (δk − Hk γk )(δk − Hk γk )T . 〈δk − Hk γk , γk 〉 “Nesterov-final” — // — : — page — # § .. Методы первого порядка в нелинейной оптимизации . Правило Давидона––Флетчера––Пауэла (ДФП): ∆ Hk = δk δkT 〈γk , δk 〉 − Hk γk γTk Hk . 〈 Hk γk , γk 〉 . Правило Бройдена––Флетчера––Гольдфарба––Шенно (БФГШ): ∆ Hk = Hk γk δkT + δk γTk Hk Hk γk γTk Hk − βk , 〈 Hk γk , γk 〉 〈 Hk γk , γk 〉 где βk = 1 + 〈γk , δk 〉/〈 Hk γk , γk 〉. Очевидно, что существует и много других возможностей. Третье правило (БФГШ) обычно упоминается как наиболее устойчивое к вычислительным погрешностям. Отметим, что для квадратичных функций методы переменной метрики завершают работу не позже чем за n итераций. В окрестности точки строгого минимума эти методы имеют сверхлинейную скорость сходимости: для любого x0 ∈ Rn существует такое число N, что при всех k ¾ N выполняется неравенство k xk+1 − x ∗ k ¶ const · k xk − x ∗ k · k xk−n − x ∗ k (строгое доказательство этого факта довольно громоздко). Глобальная же сходимость этих методов не лучше, чем у градиентного метода (по крайней мере, с теоретической точки зрения). Заметим, что в схемах переменной метрики необходимо постоянно держать в памяти и обновлять симметрическую (n × n)-матрицу. Поэтому каждая итерация требует O(n2 ) вспомогательных арифметических операций, что рассматривалось в течение многих лет как один из основных недостатков квазиньютоновских методов. Это стимулировало интерес к так называемым схемам сопряженных градиентов, которые имеют заметно меньшую трудоемкость каждой итерации (см. п. ..). Однако ввиду резкого роста вычислительных мощностей в последние десятилетия приведенные возражения больше не представляются существенными. ... Сопряженные градиенты Методы сопряженных градиентов были изначально предложены для минимизации квадратичных функций. Рассмотрим задачу minn f (x), x ∈R (.) “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация где f (x) = α + 〈a, x 〉 + 1/2〈 Ax, x 〉 и A = AT ≻ 0. Как известно, решение этой задачи есть x ∗ = − A−1 a. Поэтому нашу целевую функцию можно переписать в следующем виде: 1 2 1 2 f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉 = α − 〈 Ax ∗ , x 〉 + 〈 Ax, x 〉 = 1 2 1 2 = α − 〈 Ax ∗ , x ∗ 〉 + 〈 A(x − x ∗ ), x − x ∗ 〉. Таким образом, f ∗ = α − 1/2〈 Ax ∗ , x ∗ 〉 и f ′ (x) = A(x − x ∗ ). Предположим, что нам задана начальная точка x0 . Рассмотрим линейные подпространства Крылова Lk = Lin{A(x0 − x ∗ ), …, Ak (x0 − x ∗ )}, k ¾ 1, где Ak –– k-я степень матрицы A. Последовательность точек {xk }, образованная методом сопряженных градиентов, определяется следующим образом: xk = arg min f (x) | x ∈ x0 + Lk , k ¾ 1. (.) Это определение выглядит достаточно искусственным. Однако мы скоро увидим, что такой метод можно записать в чисто «алгоритмической» форме. Представление (.) нам понадобится только для теоретического анализа. Лемма ... Для любого k ¾ 1 имеет место равенство Lk = Lin f ′ (x0 ), …, f ′ (xk−1) . Доказательство. Для k = 1 утверждение верно: f ′ (x0 ) = A(x0 − x ∗ ). Предположим, что оно также выполняется для некоторого k ¾ 1. Тогда x k = x0 + k P i =1 λ(i) Ai (x0 − x ∗ ) с некоторыми множителями λ ∈ Rk . Поэтому f ′ (xk ) = A(x0 − x ∗ ) + k P i =1 λ(i) Ai+1 (x0 − x ∗ ) = y + λ(k) Ak+1 (x0 − x ∗ ), для некоторой точки y из Lk . Таким образом, Lk+1 ≡ Lin Lk , Ak+1 (x0 − x ∗ ) = Lin Lk , f ′ (xk ) = = Lin f ′ (x0 ), …, f ′ (xk ) . “Nesterov-final” — // — : — page — # § .. Методы первого порядка в нелинейной оптимизации Следующая лемма помогает понять поведение последовательности {xk }. Лемма ... Для любых k, i ¾ 0, k 6= i имеет место равенство 〈 f ′ (xk ), f ′ (xi )〉 = 0. Доказательство. Пусть k > i. Рассмотрим функцию k P ϕ (λ) = f x 0 + λ( j) f ′ (x j −1) , λ ∈ Rk . j =1 Pk ( j) В силу леммы .. для некоторого λ∗ имеем xk = x0 + j =1 λ∗ f ′ (x j −1 ). Однако по определению xk есть точка минимума функции f (x) на Lk . Поэтому ϕ ′ (λ∗ ) = 0. Остается вычислить компоненты этого вектора: 0= ∂ϕ (λ∗ ) = f ′ (xk ), f ′ (xi ) . ∂λ(i) Следствие ... Последовательность, образованная методом сопряженных градиентов для задачи (.), конечна. Доказательство. Количество ортогональных направлений в Rn не превышает n. Следствие ... Для любого p ∈ Lk верно равенство f ′ (xk ), p = 0. Последний вспомогательный результат объясняет название метода. Обозначим δi = xi+1 − xi . Очевидно, что Lk = Lin{δ0 , …, δk−1 }. Лемма ... Для любого k 6= i верно равенство 〈 Aδk , δi 〉 = 0. (Такие направления называются сопряженными относительно матрицы A.) Доказательство. Без потери общности можно предположить, что k > i. Тогда 〈 Aδk , δi 〉 = 〈 A(xk+1 − xk ), δi 〉 = 〈 f ′ (xk+1) − f ′ (xk ), δi 〉 = 0, поскольку δi = xi+1 − xi ∈ Li+1 ⊆ Lk . Попытаемся переписать метод сопряженных градиентов в алгоритмической форме. Так как Lk = Lin{δ0 , …, δk−1 }, можно представить xk+1 в виде kP −1 xk+1 = xk − hk f ′ (xk ) + λ( j) δ j . j =0 “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация В наших обозначениях это есть δk = −hk f ′ (xk ) + kP −1 λ( j) δ j . (.) j =0 Вычислим коэффициенты этого представления. Умножая соотношение (.) на A и δi , 0 ¶ i ¶ k − 1, и используя лемму .., получим 0 = 〈 Aδk , δi 〉 = −hk 〈 Af ′ (xk ), δi 〉 + kP −1 j =0 λ( j) 〈 Aδ j , δi 〉 = = −hk 〈 Af (xk ), δi 〉 + λ(i) 〈 Aδi , δi 〉 = ′ = −hk 〈 f ′ (xk ), f ′ (xi+1) − f ′ (xi )〉 + λ(i) 〈 Aδi , δi 〉. Отсюда, следуя лемме .., получаем что λi = 0 при i < k − 1. Для i = k − 1 имеем λ(k−1) = hk k f ′ (xk ) k2 hk k f ′ (xk ) k2 = ′ . 〈 Aδk−1 , δk−1 〉 〈 f (xk ) − f ′ (xk−1 ), δk−1 〉 Таким образом, xk+1 = xk − hk pk , где pk = f ′ (xk ) − k f ′ (xk ) k2 δk−1 k f ′ (xk ) k2 pk−1 = f ′ (xk ) − ′ , ′ 〈 f (xk ) − f (xk−1 ), δk−1 〉 〈 f (xk ) − f ′ (xk−1 ), pk−1 〉 ′ так как δk−1 = −hk−1 pk−1 в силу определения последовательности {pk }. Заметим, что нам удалось записать метод сопряженных градиентов в терминах градиентов целевой функции f (x). Это дает возможность формально применить метод к общей задаче минимизации нелинейной функции. Конечно, это обобщение ликвидирует все специфические свойства процесса, характерные для квадратичных функций. Однако можно ожидать, что в окрестности точки строгого локального минимума целевая функция будет близка к квадратичной. Поэтому асимптотически этот метод должен сходиться быстро. Приведем общую схему метода сопряженных градиентов для задачи минимизации нелинейной функции. “Nesterov-final” — // — : — page — # § .. Методы первого порядка в нелинейной оптимизации Метод сопряженных градиентов . Пусть x0 ∈ Rn . Вычислим f (x0 ), f ′ (x0 ). Положим p0 = f ′ (x0 ). . k-я итерация (k ¾ 0). a) Найдем xk+1 = xk + hk pk (с помощью «точного» одномерного поиска). б) Вычислим f (xk+1) и f ′ (xk+1). в) Вычислим коэффициент βk . г) Положим pk+1 = f ′ (xk+1) − βk pk . В этой схеме мы пока не определили, как вычислять коэффициент βk . В действительности существует множество формул для этого параметра. Все они дают одинаковый результат на квадратичных функциях, но в общем нелинейном случае образуют разные последовательности. Представим здесь три наиболее распространенные версии: . βk = k f ′ (xk+1 ) k2 ; 〈 f (xk+1 ) − f ′ (xk ), pk 〉 ′ k f ′ (xk+1 ) k2 ; k f ′ (xk ) k2 ′ ′ 〈 f (xk+1 ), f (xk+1 ) − f ′ (xk )〉 . формула Полака––Рибьера: βk = − . k f ′ (xk ) k2 . формула Флетчера––Ривса: βk = − Напомним, что в квадратичном случае метод сопряженных градиентов завершает работу за n итераций (или быстрее). Алгоритмически это означает, что pn+1 = 0. В нелинейном случае это не так. После n итераций квадратичная интерпретация теряет смысл. Поэтому на практике часто используется стратегия обновления, которая в определенный момент устанавливает βk = 0 (обычно после каждой n-й итерации). Это обеспечивает глобальную сходимость данной схемы (так как сразу после обновления идет обычная градиентная итерация, а все остальные итерации только уменьшают значение функции). В окрестности точки строгого минимума схемы сопряженных градиентов имеют локальную n-шаговую квадратичную сходимость: k xn+1 − x ∗ k ¶ const · k x0 − x ∗ k2 . “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Отметим, что асимптотическая скорость этой локальной сходимости меньше, чем скорость сходимости методов переменной метрики. Однако схемы сопряженных градиентов имеют преимущество малой вычислительной сложности каждой итерации. Глобальная же сходимость метода сопряженных градиентов в общем случае не лучше, чем у градиентного метода. ... Условная минимизация Кратко обсудим основные идеи, лежащие в основе методов задач условной минимизации общего вида. Рассмотрим следующую задачу: min f0 (x), fi (x) ¶ 0, i = 1, …, m, (.) где fi (x) –– гладкие функции. Например, можно взять fi (x) ∈ C L1,1 (Rn ). Так как в задаче (.) присутствуют нелинейные функции общего вида, мы не можем ожидать, что она окажется проще, чем задача безусловной минимизации. В самом деле, даже стандартные трудности со стационарными точками, имеющиеся в задаче безусловной минимизации, проявляются в задаче (.) в намного более сильной форме. Заметим, что стационарная точка этой задачи (как бы мы ее ни определили) может не удовлетворять системе функциональных ограничений. Отсюда следует, что любой метод минимизации может не сойтись к допустимой точке задачи (.), даже если такая и существует. Поэтому следующие соображения выглядят весьма убедительными. . У нас есть эффективные методы решения задач безусловной минимизации. На самом деле это утверждение не является абсолютно верным. Мы увидим, что для использования методов безусловной минимизации при решении задач с ограничениями необходимо по крайней мере уметь находить строгий локальный минимум. А мы уже видели на примере .., что с этим могут возникнуть сложности. “Nesterov-final” — // — : — page — # § .. Методы первого порядка в нелинейной оптимизации . Задача без ограничений проще, чем задача с ограничениями. . Поэтому попытаемся приблизить решение задачи (.) последовательностью решений некоторых вспомогательных задач безусловной минимизации. Эта философия осуществляется в схемах последовательной безусловной минимизации. Существуют две основные группы таких методов: методы штрафных функций и барьерные методы. Опишем основные идеи, используемые в этих подходах. Начнем с методов штрафных функций. Определение ... Непрерывная функция Φ(x) называется штрафной функцией для замкнутого множества Q, если ◦ Φ(x) = 0 для любого x ∈ Q, ◦ Φ(x) > 0 для любого x ∈ / Q. Штрафную функцию иногда называют просто штрафом. Наиболее полезным свойством штрафной функции является следующее утверждение. Если Φ1 (x) –– штраф для Q1 , а Φ2 (x) –– штраф для Q2 , то Φ1 (x) + Φ2 (x) будет штрафом для пересечения Q1 ∩ Q2 . Приведем несколько примеров таких функций. Пример ... Введем обозначение (a)+ = max{a, 0}. Пусть Q = x ∈ Rn | fi (x) ¶ 0, i = 1, …, m . Тогда следующие функции являются штрафными для Q: Pm ) квадратичный штраф: Φ(x) = i=1 ( fi (x))2+; Pm ) негладкий штраф: Φ(x) = i=1 ( fi (x))+. Читатель с легкостью может продолжить этот список. Здесь имеется в виду «строгое неравенство». Мы не будем обсуждать корректность этого утверждения для нелинейных задач общего вида. Просто здесь хочется напомнить читателю об опасности «очевидных» истин. В следующей главе у нас будет возможность убедиться в том, что для подобного оптимизма нет достаточных оснований. “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Общая схема метода штрафных функций выглядит следующим образом. Метод штрафных функций . Выберем x0 ∈ Rn . Выберем последовательность штрафных коэффициентов: 0 < tk < tk+1 и tk → ∞. . k-я итерация (k ¾ 0). Найдем точку xk+1 = arg min x ∈Rn f0 (x) + tk Φ(x) , используя в качестве начальной точку xk . Легко доказать сходимость этой схемы, полагая, что xk+1 –– точка глобального минимума вспомогательной функции . Введем обозначения Ψk (x) = f0 (x) + tk Φ(x), Ψ∗k = minn Ψk (x) x ∈R (Ψ∗k –– глобальное оптимальное значение функции Ψk (x)). Обозначим через x ∗ глобальное решение задачи (.). Теорема ... Пусть существует такое число t̄ > 0, что множество S = x ∈ Rn | f0 (x) + t̄ Φ(x) ¶ f0 (x ∗ ) ограничено. Тогда lim f (xk ) = f0 (x ∗ ), k →∞ lim Φ(xk ) = 0. k →∞ Доказательство. Заметим, что Ψ∗k ¶ Ψk (x ∗ ) = f0 (x ∗ ). В то же время, для любого x ∈ Rn имеет место неравенство Ψk+1 (x) ¾ Ψk (x). Поэтому Ψ∗k+1 ¾ Ψ∗k . Таким образом, предел limk→∞ Ψ∗k ≡ Ψ∗ ¶ f ∗ существует. Если tk > t̄, то f0 (xk ) + t̄ Φ(xk ) ¶ f0 (xk ) + tk Φ(xk ) = Ψ∗k ¶ f0 (x ∗ ). Поэтому последовательность {xk } имеет предельные точки. Поскольку limk→∞ tk = +∞, для любой такой точки x∗ выполняются условия Φ(x∗ ) = 0 и f0 (x∗ ) ¶ f0 (x ∗ ). Таким образом, x∗ ∈ Q, и Ψ∗ = f0 (x∗ ) + Φ(x∗ ) = f0 (x∗ ) ¾ f0 (x ∗ ). Если предполагать, что это точка строгого локального минимума, то результат будет заметно слабее. “Nesterov-final” — // — : — page — # § .. Методы первого порядка в нелинейной оптимизации Хотя этот результат и является очень общим, но он малоинформативен. Остается еще много вопросов, требующих ответа. Например, нам неизвестно, функцию какого типа лучше всего использовать в качестве штрафной. Каковы должны быть правила выбора штрафных коэффициентов? Какова должна быть точность решения вспомогательных задач? Основной особенностью всех этих вопросов является то, что на них трудно ответить в рамках общей теории нелинейной оптимизации. Традиционно считается, что этим должна заниматься вычислительная практика. Рассмотрим теперь барьерные методы. Определение ... Пусть Q –– замкнутое множество, имеющее внутреннюю точку. Непрерывная функция F(x) называется барьерной функцией для Q, если множества F(·) → ∞ для точек, приближающихся к границе множества Q. Барьерную функцию иногда для краткости называют барьером. Аналогично штрафным функциям барьеры обладают следующим свойством. Если F1 (x) –– барьер для Q1 , а F2 (x) –– барьер для Q2 , то F1 (x) + F2 (x) является барьером для пересечения Q1 ∩ Q2 . Для того чтобы мы могли применять барьерные функции, задача (.) должна удовлетворять условию Слейтера: ∃ x̄ : fi ( x̄) < 0, i = 1, …, m. Приведем несколько примеров барьерных функций. Пример ... Пусть Q = x ∈ Rn | fi (x) ¶ 0, i = 1, …, m . Тогда все перечисленные ниже функции являются барьерами для Q: Pm 1 ) степенной барьер: F(x) = i=1 , p ¾ 1; (− fi (x)) p Pm ) логарифмический барьер: F(x) = − i=1 ln(− fi (x)); Pm 1 ) экспоненциальный барьер: F(x) = i=1 exp . − fi (x) Список можно продолжать до бесконечности. “Nesterov-final” — // — : — page — # Глава . Нелинейная оптимизация Схема барьерного метода выглядит следующим образом. Метод барьерных функций . Выберем x0 ∈ int Q. Выберем последовательность штрафных коэффициентов: 0 < tk < tk+1 и tk → ∞. . k-я итерация (k ¾ 0). Найдем точку ª § xk+1 = arg min f0 (x) + x ∈Q 1 F(x) , tk используя в качестве начальной точку xk . Докажем сходимость этого метода, полагая, что xk+1 есть точка глобального минимума вспомогательной функции. Обозначим Ψk (x) = f0 (x) + 1 F(x), tk Ψ∗k = min Ψk (x) x ∈Q (Ψ∗k –– глобальное оптимальное значение функции Ψk (x)). Пусть f ∗ является оптимальным значением для задачи (.). Теорема ... Пусть барьер F(x) ограничен снизу на множестве Q. Тогда lim Ψ∗k = f ∗ . k →∞ Доказательство. Пусть F(x) ¾ F ∗ для всех x ∈ Q. Для произвольного x̄ ∈ int Q имеет место неравенство 1 sup lim Ψ∗k ¶ lim f0 ( x̄) + F( x̄) = f0 ( x̄). k →∞ tk k →∞ Поэтому sup lim Ψ∗k ¶ f ∗ . С другой стороны, k →∞ § ª § ª 1 1 1 Ψ∗k = min f0 (x) + F(x) ¾ min f0 (x) + F ∗ = f ∗ + F ∗ . x ∈Q tk x ∈Q tk tk Таким образом, limk→∞ Ψ∗k = f ∗ . Аналогично методу штрафных функций здесь также имеется много открытых вопросов. Например, мы не знаем, как искать начальную точку x0 и как выбирать наилучшую барьерную функцию. Нам также неизвестны теоретически обоснованные правила пересчета “Nesterov-final” — // — : — page — # § .. Методы первого порядка в нелинейной оптимизации штрафных коэффициентов и необходимая точность решения вспомогательных задач. Наконец, у нас нет никакого представления об оценках эффективности этого процесса. Причина всех этих пробелов заключается не в отсутствии желания разработать соответствующую теорию. Наша задача (.) просто слишком сложна. В дальнейшем мы увидим, что все приведенные здесь вопросы получают точные ответы в рамках теории выпуклой оптимизации. На этом мы завершаем краткое изучение общей теории нелинейной оптимизации. Наше изложение было действительно очень кратким, и оно не затронуло много интересных теоретических тем. Однако основной целью данной книги является описание тех областей теории оптимизации, в которых мы можем получить ясные и завершенные результаты о поведении численных методов. К сожалению, общая задача нелинейной оптимизации оказывается для этого слишком сложной. Тем не менее, было бы неправильно совсем опустить эту область, поскольку много фундаментальных идей, лежащих в основе методов выпуклой оптимизации, имеют свои истоки в общей теории нелинейной оптимизации. Градиентный метод и метод Ньютона, алгоритмы последовательной безусловной минимизации и барьерные функции были изначально разработаны и использованы для решения общих задач. Но только рамки теории выпуклой оптимизации позволяют по-настоящему раскрыть потенциал и силу этих подходов. В последующих главах мы не раз встретимся с примерами второго рождения старых идей и концепций. “Nesterov-final” — // — : — page — # “Nesterov-final” — // — : — page — # Глава Гладкая выпуклая оптимизация § .. Минимизация гладких функций Гладкие выпуклые функции. Нижние границы аналитической сложности для класса F L∞,1 (Rn ). Сильно выпуклые функции. Нижние границы аналитической n сложности для класса Sµ∞,1 ,L (R ). Градиентный метод. ... Гладкие выпуклые функции В этом пункте мы будем рассматривать задачу безусловной минимизации minn f (x) (.) x ∈R с достаточно гладкой функцией f (x). Вспомним, что в предыдущей главе такая задача уже ставилась при слабых предположениях о свойствах функции f . При этом было показано, что в такой общей постановке нельзя достичь многого. Например, невозможно гарантировать сходимость методов даже к точке локального минимума, невозможно получить приемлемые границы вычислительной эффективности алгоритмов минимизации и т. д. В связи с этим мы попытаемся ввести некоторые разумные предположения о функции f , упрощающие нашу задачу. Иначе говоря, попытаемся определить, какими минимальными свойствами должен обладать интересующий нас класс дифференцируемых функций F . Результаты предыдущей главы могут создать впечатление, что основной причиной всех неприятностей является слабость условий оптимальности первого порядка (теорема ..). В самом деле, градиентный метод в общем случае сходится только к стационарной точке функции f (см. неравенство . и пример ..). Поэтому в первую очередь потребуем выполнения следующего дополнительного свойства. “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Предположение ... Для любой функции f ∈ F условие оптимальности первого порядка является достаточной характеристикой глобального решения задачи (.). Далее, важной особенностью искомого класса функций F должна быть возможность простой проверки включения f ∈ F . Это может быть обеспечено заданием множества базисных элементов данного класса и набором всевозможных операций с элементами класса F , которые не выводят результат за рамки этого класса (такие операции называются инвариантными). Прекрасным примером здесь может служить класс дифференцируемых функций: для того чтобы проверить, дифференцируема ли функция, достаточно просто взглянуть на ее аналитическое выражение. С другой стороны, нам не хотелось бы слишком сужать класс функций F . Поэтому введем в рассмотрение только одну инвариантную операцию на этом классе. Предположение ... Если f1 , f2 ∈ F и α, β ¾ 0, то α f1 + β f2 ∈ F . Ограничение на знак коэффициентов α и β в данном предположении является очевидным, поскольку, например, функция x 2 принадлежит классу F , тогда как − x 2 –– нет. Наконец, добавим в F некоторые базисные элементы. Предположение ... Любая линейная функция f (x) = α + 〈a, x 〉 принадлежит классу F . Заметим, что линейная функция f (x) удовлетворяет предположению ... Действительно, из равенства f ′ (x) = 0 следует, что функция f –– константа и любая точка в Rn есть точка ее глобального минимума. Сделанных предположений оказывается достаточно для выведения требуемого класса функций. Рассмотрим f ∈ F . Зафиксируем некоторое x0 ∈ Rn и сформируем функцию ϕ ( y) = f ( y) − f ′ (x0 ), y . Данное предположение не является описанием всех базисных элементов рассматриваемого класса. Мы просто хотим иметь семейство линейных функций в классе F . “Nesterov-final” — // — : — page — # § .. Минимизация гладких функций Тогда в силу предположений .. и .. справедливо предположить ϕ ∈ F . Заметим, что ϕ ′ ( y) | y = x0 = f ′ (x0 ) − f ′ (x0 ) = 0. Поэтому, принимая во внимание предположение .., заключаем что точка x0 оказывается точкой глобального минимума функции ϕ и для любого y ∈ Rn имеет место соотношение ϕ ( y) ¾ ϕ (x0 ) = f (x0 ) − f ′ (x0 ), x0 . Отсюда следует неравенство f ( y) ¾ f (x0 ) + f ′ (x0 ), y − x0 . Это неравенство хорошо известно в теории оптимизации. Оно определяет класс дифференцируемых выпуклых функций. Определение ... Непрерывно дифференцируемая функция f (x) называется выпуклой в Rn (обозначение: f ∈ F 1 (Rn )), если для любых x, y ∈ Rn выполнено неравенство f ( y) ¾ f (x) + f ′ (x), y − x . (.) Если функция − f (x) выпукла, то функция f (x) называется вогнутой. В дальнейшем мы будем рассматривать также и классы выпуклых функций F Lk,l (Q); здесь индексы имеют тот же смысл, что и для C Lk,l (Q). Подтвердим справедливость наших предположений, которые становятся теперь свойствами рассматриваемого функционального класса. Теорема ... Если f ∈ F 1 (Rn ) и f ′ (x ∗ ) = 0, то x ∗ есть точка глобального минимума функции f (x) на Rn . Доказательство. В силу неравенства (.) для любого x ∈ Rn имеем f (x) ¾ f (x ∗ ) + f ′ (x ∗ ), x − x ∗ = f (x ∗ ). Таким образом, предположение .. выполнено. Проверим предположение ... Лемма ... Для f1 и f2 из класса F 1 (Rn ) функция f = α f1 + β f2 , α, β ¾ 0 также принадлежит классу F 1 (Rn ). “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Доказательство. Для любых x, y ∈ Rn имеют место неравенства f1 ( y) ¾ f1 (x) + f1′ (x), y − x , f2 ( y) ¾ f2 (x) + f2′ (x), y − x . Остается домножить первое неравенство на α, второе на β и сложить результаты. Таким образом, для дифференцируемых функций наш гипотетический класс совпадает с классом выпуклых функций. Представим их основные свойства. Следующее утверждение существенно увеличивает наши возможности в построении выпуклых функций. Лемма ... Если f ∈ F 1 (Rm ), b ∈ Rm и A : Rn → Rm , то ϕ (x) = f (Ax + b) ∈ F 1 (Rn ). Доказательство. В самом деле, пусть x, y ∈ Rn . Введем обозначения x̄ = Ax + b, ȳ = Ay + b. Так как ϕ ′ (x) = AT f ′ (Ax + b), мы получаем ϕ ( y) = f ( ȳ) ¾ f ( x̄) + f ′ ( x̄), ȳ − x̄ = = ϕ (x) + f ′ ( x̄), A( y − x) = ϕ (x) + AT f ′ ( x̄), y − x = = ϕ (x) + ϕ ′ (x), y − x . Для того чтобы упростить проверку включения f ∈ F 1 (Rn ), дадим этому классу несколько эквивалентных определений. Теорема ... Непрерывно дифференцируемая функция f принадлежит классу F 1 (Rn ) тогда и только тогда, когда для любых x, y ∈ Rn и α ∈ [0, 1] выполняется неравенство f (α x + (1 − α) y) ¶ α f (x) + (1 − α) f ( y). (.) Заметим, что неравенство (.) без предположения о дифференцируемости функции f представляет собой определение общих выпуклых функций. Мы будем детально изучать эти функции в следующей главе. “Nesterov-final” — // — : — page — # § .. Минимизация гладких функций Доказательство. Введем обозначение xα = α x + (1 − α) y. Пусть f ∈ F 1 (Rn ). Тогда f (xα ) ¶ f ( y) − f ′ (xα ), y − xα = f ( y) − α f ′ (xα ), y − x , f (xα ) ¶ f (x) − f ′ (xα ), x − xα = f (x) + (1 − α) f ′ (xα ), y − x . Домножив первое неравенство на 1 − α, а второе –– на α и сложив результаты, получим неравенство (.). Пусть неравенство (.) верно для всех x, y ∈ Rn и α ∈ [0, 1]. Выберем некоторое α ∈ [0, 1). Тогда f ( y) ¾ 1 1 [ f (xα ) − f (x)] = f (xα ) − α f (x) = f (x) + 1−α 1−α 1 f (x + (1 − α)( y − x)) − f (x) . = f (x) + 1−α Переходя к пределу α → 1, получаем неравенство (.). Теорема ... Непрерывно дифференцируемая функция f принадлежит классу F 1 (Rn ) тогда и только тогда, когда для любых x, y ∈ Rn выполнено неравенство f ′ (x) − f ′ ( y), x − y ¾ 0. (.) Доказательство. Пусть f есть выпуклая непрерывно дифференцируемая функция. Тогда f (x) ¾ f ( y) + f ′ ( y), x − y , f ( y) ¾ f (x) + f ′ (x), y − x . Складывая эти неравенства, получаем неравенство (.). Пусть (.) верно для всех x, y ∈ Rn . Введем обозначение xτ = x + + τ( y − x). Тогда f ( y) = f (x) + R1 0 f ′ (x + τ( y − x)), y − x dτ = = f (x) + 〈 f ′ (x), y − x 〉 + = f (x) + f ′ (x), y − x + R1 0 R1 1 0 τ f ′ (xτ ) − f ′ (x), y − x dτ = f ′ (xτ ) − f ′ (x), xτ − x dτ ¶ ¾ f (x) + f ′ (x), y − x . “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Иногда удобнее работать с функциями из класса F 2 (Rn ) ⊂ F 1 (Rn ). Теорема ... Дважды непрерывно дифференцируемая функция f принадлежит классу F 2 (Rn ) тогда и только тогда, когда для любого x ∈ Rn выполнено условие (.) f (x) 0. Доказательство. Пусть функция f ∈ C 2 (Rn ) выпукла. Обозначим xτ = x + τs, τ > 0. Тогда, исходя из неравенства (.) имеем 0¶ 1 ′ 1 ′ f (xτ ) − f ′ (x), xτ − x = f (xτ ) − f ′ (x), s = τ τ = τ 1 R f (x + λs)s, s d λ, τ 0 откуда, перейдя к пределу τ → 0, получаем условие (.). Пусть условие (.) выполнено для всех x ∈ Rn . Тогда f ( y) = f (x) + f ′ (x), y − x + + R1 Rτ 0 0 f (x + λ( y − x))( y − x), y − x d λ dτ ¶ ¾ f (x) + f ′ (x), y − x . Приведем несколько примеров дифференцируемых выпуклых функций. Пример ... . Линейная функция f (x) = α + 〈a, x 〉 выпукла. . Если матрица A симметрическая и неотрицательно определенная, то квадратичная функция 1 2 f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉 выпукла (поскольку f ′′ (x) = A 0). . Следующие функции одной переменной лежат в классе F 1 (R): f (x) = e x , f (x) = | x | p , p > 1, 2 f (x) = x , 1 − |x| f (x) = | x | − ln 1 + | x | . “Nesterov-final” — // — : — page — # § .. Минимизация гладких функций Это можно легко проверить, используя теорему ... Поэтому, например, функция m P f (x) = eαi +〈ai ,x 〉 , i =1 возникающая в геометрическом программировании, выпукла (см. лемму ..). Аналогично функция f (x) = m P i =1 |〈ai , x 〉 − bi | p , возникающая в задачах аппроксимации в l p -нормах, также выпукла. Как и в случае с нелинейными функциями общего вида, дифференцируемость сама по себе не способна обеспечить хороших топологических свойств выпуклых функций. Потому необходимо рассматривать класс задач с липшицевыми производными определенного порядка. Наиболее важным из них является класс F L1,1 (Rn ) –– класс выпуклых функций с липшицевым градиентом. Дадим несколько необходимых и достаточных условий для этого класса. Теорема ... Все приведенные ниже условия, выполняющиеся для всех x, y ∈ Rn и α ∈ [0, 1], эквивалентны включению f ∈ F L1,1 (Rn ): L 2 0 ¶ f ( y) − f (x) − f ′ (x), y − x ¶ k x − y k2 , f (x) + f ′ (x), y − x + 1 k f ′ (x) − f ′ ( y) k2 ¶ f ( y), 2L (.) (.) 1 ′ k f (x) − f ′ ( y) k2 ¶ f ′ (x) − f ′ ( y), x − y , L (.) 0 ¶ f ′ (x) − f ′ ( y), x − y ¶ Lk x − y k2 , (.) α f (x) + (1 − α) f ( y) ¾ f α x + (1 − α) y + + α(1 − α) ′ k f (x) − f ′ ( y) k2 , 2L 0 ¶ α f (x) + (1 − α) f ( y) − f α x + (1 − α) y ¶ L 2 ¶ α(1 − α) k x − y k2 . (.) (.) “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Доказательство. В самом деле, условие (.) следует из определения выпуклых функций и леммы ... Далее, зафиксируем x0 ∈ Rn . Рассмотрим функцию ϕ ( y) = f ( y) − f ′ (x0 ), y . Заметим, что ϕ принадлежит классу F L1,1 (Rn ), а ее точка оптимума есть y ∗ = x0 . Поэтому из условия (.) следует, что 1 1 ϕ ( y ∗ ) ¶ ϕ y − ϕ ′ ( y) ¶ ϕ ( y) − kϕ ′ ( y) k2 . L 2L Так как ϕ ′ ( y) = f ′ ( y) − f ′ (x0 ), неравенство (.) доказано. Условие (.) получается напрямую из неравенства (.) путем сложения двух записей (.) с переставленными x и y. Применяя теперь неравенство Коши––Буняковского к неравенству (.), получим k f ′ (x) − f ′ ( y) k ¶ Lk x − y k. Таким же способом можно получить неравенство (.) из (.). Для того чтобы получить неравенство (.) из (.), применим интегрирование: f ( y) − f (x) − f ′ (x), y − x = = R1 0 1 2 f ′ (x + τ( y − x)) − f ′ (x), y − x dτ ¶ Lk y − x k2 . Докажем два последних неравенства. Введем обозначение xα = α x + + (1 − α) y. Тогда, используя неравенство (.), получаем f (x) ¾ f (xα ) + f ′ (xα ), (1 − α)(x − y) + f ( y) ¾ f (xα ) + f ′ (xα ), α( y − x) + 1 k f ′ (x) − f ′ (xα ) k2 , 2L 1 k f ′ ( y) − f ′ (xα ) k2 . 2L Складывая эти неравенства, домноженные на α и 1 − α соответственно, и используя неравенство αk g1 − u k2 + (1 − α)k g2 − u k2 ¾ α(1 − α)k g1 − g2 k2 , получаем неравенство (.). Легко проверить, что неравенство (.) следует из (.), если перейти к пределу при α → 1. Аналогичным образом из неравенства (.) получаем L 2 f (x) ¶ f (xα ) + f ′ (xα ), (1 − α)(x − y) + k (1 − α)(x − y) k2 , L 2 f ( y) ¶ f (xα ) + f ′ (xα ), α( y − x) + kα( y − x) k2 . “Nesterov-final” — // — : — page — # § .. Минимизация гладких функций Складывая эти неравенства, домноженные на α и 1 − α соответственно, получаем неравенство (.). Утверждение в обратную сторону доказывается переходом к пределу при α → 1. В заключение опишем класс функций F L2,1 (Rn ). Теорема ... Дважды непрерывно дифференцируемая функция f (x) лежит в классе F L2,1 (Rn ) тогда и только тогда, когда для любого x ∈ Rn выполнено условие 0 f ′′ (x) LIn . (.) Доказательство. Утверждение следует из теоремы .. и неравенства (.). ... Нижние границы аналитической сложности для класса F L∞,1 (Rn ) Прежде чем перейти к методам оптимизации, определим потенциальные возможности задач минимизации гладких выпуклых функций. В этом пункте мы получим нижние границы аналитической сложности для задач оптимизации, в которых целевые функции принадлежат классу F L∞,1 (Rn ) (и, соответственно, классу F L1,1 (Rn )). Напомним, что мы рассматриваем следующий класс задач. Модель: minn f (x), x ∈R f ∈ F L1,1 (Rn ). Оракул: локальный черный ящик первого порядка. Приближенное решение: x̄ ∈ Rn , f ( x̄) − f ∗ ¶ ǫ . Для того чтобы упростить наши рассуждения, введем следующее предположение об итеративном процессе. Предположение ... Итеративный метод M образует последовательность тестовых таких точек {xk }, что xk ∈ x0 + Lin f ′ (x0 ), …, f ′ (xk−1 ) , k ¾ 1. Это предположение не носит обязательного характера и в определенных случаях может быть опущено. Однако оно выполняется для большинства практических методов. Можно указать нижнюю границу сложности для нашего класса задач, не прибегая к построению сопротивляющегося оракула. Вместо этого мы построим «наихудшую функцию» из класса F L∞,1 (Rn ). “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Эта функция оказывается сложной для всех методов, удовлетворяющих предположению ... Зафиксируем константу L > 0. Рассмотрим следующее семейство квадратичных функций: fk (x) = § ª kP −1 L 1 (x (1) )2 + (x (i) − x (i+1) )2 + (x (k) )2 − x (1) 4 2 i =1 при k = 1, …, n. Заметим, что для всех s ∈ Rn имеют место неравенства kP −1 2 L fk′′ (x)s, s = (s(1) )2 + s(i) − s(i+1) + (s(k) )2 ¾ 0 4 i =1 и fk′′ (x)s, s ¶ kP −1 L (s(1) )2 + 2 (s(i) )2 + (s(i+1) )2 + (s(k) )2 ¶ 4 i =1 ¶L n P (s(i) )2 . i =1 fk (x) ∈ F L∞,1 (Rn ), Таким образом, 0 fk′′ (x) LIn . Поэтому 1 ¶ k ¶ n. Вычислим минимум функции fk . Легко увидеть, что fk′′ (x) = = (L/4)Ak с матрицей 2 − 1 −1 2 −1 0 −1 2 −1 .. .. .. k строк 0n−k,k . . . Ak = −1 2 −1 0 −1 2 −1 −1 2 0n−k,k 0n−k,n−k где 0k,p –– нулевая матрица размера k × p. Поэтому уравнение fk′ (x) = Ak x − e1 = 0 “Nesterov-final” — // — : — page — # § .. Минимизация гладких функций имеет единственное решение ( i 1− , (i) k+1 x̄k = 0, i = 1, …, k, k + 1 ¶ i ¶ n. Следовательно, оптимальное значение функции fk равно L 1 L L 1 〈 Ak x̄k , x̄k 〉 − 〈e1 , x̄k 〉 = − 〈e1 , x̄k 〉 = −1 + fk∗ = . (.) 4 2 8 8 k+1 Заметим также, что k P i2 = i =1 k(k + 1)(2k + 1) (k + 1)3 ¶ . 6 3 (.) Поэтому k x̄k k2 = n P i =1 x̄k(i) 2 = k P i =1 1− =k− ¶k− i k+1 2 = k k P 2 P 1 i+ i2 ¶ 2 k + 1 i =1 (k + 1) i =1 k(k + 1) (k + 1)3 1 1 2 · + · = (k + 1). 2 2 3 3 k+1 (k + 1) (.) Обозначим Rk,n = {x ∈ Rn | x (i) = 0, k + 1 ¶ i ¶ n}. Таким образом, R есть подпространство в Rn , в точках которого только первые k компонент не равны нулю. Из аналитической записи функций { fk } легко увидеть, что для всех x ∈ Rk,n верно равенство k,n fp (x) = fk (x), p = k, …, n. Зафиксируем такое p, что 1 ¶ p ¶ n. Лемма ... Пусть x0 = 0. Тогда для любой последовательности p {xk }k=0 , удовлетворяющей условию def xk ∈ Lk = Lin fp′ (x0 ), …, fp′ , имеет место включение Lk ⊆ Rk,n . Доказательство. Так как x0 = 0, мы имеем fp′ (x0 ) = − L/4e1 ∈ R1,n . Отсюда следует, что L1 ≡ R1,n . “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Пусть Lk ⊆ Rk,n для некоторого k < p. Поскольку матрица A p трехдиагональна, для любого x ∈ Rk,n выполняется включение fp′ (x) ∈ ∈ Rk+1,n . Таким образом, Lk+1 ⊆ Rk+1,n , и лемма доказана по индукции. Следствие ... Для любой такой последовательности точек p {xk }k=0 , что x0 = 0 и xk ∈ Lk , имеет место неравенство fp (xk ) ¾ fk∗ . Доказательство. Действительно, xk ∈ Lk ⊆ Rk,n . Поэтому fp (xk ) = = fk (xk ) ¾ fk∗ . Теперь мы можем доказать основное утверждение этого пункта. Теорема ... Для любого k, 1 ¶ k ¶ 1/2(n − 1), и любого x0 ∈ Rn найдется такая функция f ∈ F L∞,1 (Rn ), что для любого метода первого порядка M , удовлетворяющего предположению .., выполняются неравенства 3Lk x0 − x ∗ k2 , 32(k + 1)2 1 k xk − x ∗ k2 ¾ k x0 − x ∗ k2 , 8 f (xk ) − f ∗ ¾ где x ∗ –– точка минимума функции f (x), а f ∗ = f (x ∗ ). Доказательство. Очевидно, что методы этого типа инвариантны по отношению к преобразованию сдвига в пространстве переменных. Поэтому последовательность точек, которая формируется таким методом для функции f (x) начиная с произвольного x0 , представляет собой не что иное, как сдвиг последовательности, получаемой для f¯(x) = f (x + x0 ) при старте из начала координат. Таким образом, можно предположить, что x0 = 0. Докажем первое неравенство. Для этого зафиксируем k и применим метод M для минимизации функции f (x) = f2k+1 (x). Тогда ∗ x ∗ = x̄2k+1 и f ∗ = f2k . Используя следствие .., заключаем, что +1 f (xk ) ≡ f2k+1 (xk ) = fk (xk ) ¾ fk∗ . “Nesterov-final” — // — : — page — # § .. Минимизация гладких функций Так как x0 = 0, в силу соотношений (.) и (.) получаем оценку L 1 1 − 1 + + 1 − f (xk ) − f 3 1 8 k+1 2k + 2 ¾ = L· . 1 8 k x0 − x ∗ k2 4(k + 1)2 (2k + 2) 3 ∗ Докажем второе неравенство. Поскольку xk ∈ Rk,n и x0 = 0, мы получаем 2 2k +1 2k +1 P P i (i) 2 k xk − x ∗ k2 ¾ x̄2k = 1 − = +1 i = k +1 i = k +1 2k + 2 =k+1− 2k +1 P 1 1 i+ k + 1 i = k +1 4(k + 1)2 2k +1 P i2. i = k +1 Из неравенства (.) следует, что 2k +1 P i = k +1 i2 = 1 (2k + 1)(2k + 2)(4k + 3) − k(k + 1)(2k + 1) = 6 1 6 = (k + 1)(2k + 1)(7k + 6). Поэтому, используя соотношение (.), мы получаем (3k + 2)(k + 1) (2k + 1)(7k + 6) 1 · + = 2 k+1 24(k + 1) 2 (2k + 1)(7k + 6) k 2k + 7k + 6 = − = ¾ 2 24(k + 1) 24(k + 1) 2 2k + 7k + 6 1 ¾ k x0 − x̄2k+1 k2 ¾ k x0 − x ∗ k2 . 8 16(k + 1)2 k xk − x ∗ k2 ¾ k + 1 − Приведенная теорема верна только в предположении, что число шагов метода не слишком велико по сравнению с размерностью пространства (k ¶ (1/2)(n − 1)). Границы сложности такого типа называются равномерными по размерности пространства переменных. Очевидно, что они информативны для очень больших задач, в которых нет возможности ждать даже до завершения n-й итерации метода. Однако для задач с небольшой размерностью эти границы также дают некоторую дополнительную информацию. Во-первых, они описывают потенциальную эффективность численных методов на начальном этапе процесса минимизации. И во-вторых, они “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация предупреждают нас о том, что без прямого использования конечномерных свойств выпуклых множеств мы не сможем улучшить границы сложности для любой мыслимой численной схемы. Заканчивая пункт, отметим, что полученная нижняя граница для значения целевой функции представляется довольно оптимистичной. В самом деле, после выполнения ста итераций мы можем уменьшить ошибку начального приближения по функции в 104 раз. Однако возможное поведение точек минимизирующей последовательности разочаровывает: сходимость к оптимальному решению может оказаться сколь угодно медленной. Так как это нижняя граница сложности, данная неприятность неустранима для рассматриваемого класса задач. Единственное, что можно попытаться сделать, это найти другие классы, в которых ситуация окажется лучше. Следующий пункт и посвящен этой цели. ... Сильно выпуклые функции Итак, мы ищем некое сужение функционального класса F L1,1 (Rn ), при котором можно гарантировать приемлемую скорость сходимости к единственному решению задачи минимизации minn f (x), x ∈R f ∈ F 1 (Rn ). Вспомним, что в п. .. была доказана линейная скорость сходимости градиентного метода для некой малой окрестности точки невырожденного локального минимума. Попытаемся придать предположению о невырожденности глобальный характер. А именно, предположим, что существует такая константа µ > 0, что для любого x̄, f ′ ( x̄) = 0, и любого x ∈ Rn выполнено неравенство 1 2 f (x) ¾ f ( x̄) + µk x − x̄ k2 . Пользуясь теми же рассуждениями, что и в п. .., мы получаем класс сильно выпуклых функций. Определение ... Непрерывно дифференцируемая функция f (x) называется сильно выпуклой в Rn (обозначение: f ∈ Sµ1 (Rn )), если найдется такая константа µ > 0, что для любых x, y ∈ Rn выполнено неравенство 1 2 f ( y) ¾ f (x) + f ′ (x), y − x + µk y − x k2 . (.) “Nesterov-final” — // — : — page — # § .. Минимизация гладких функций Константа µ называется параметром сильной выпуклости функции f . Мы будем также рассматривать классы функций Sµk,l ,L (Q); здесь индексы k, l и L имеют тот же смысл, что и для класса C Lk,l (Q). Выпишем некоторые свойства сильно выпуклых функций. Теорема ... Если f ∈ Sµ1 (Rn ), и f ′ (x ∗ ) = 0, то 1 2 f (x) ¾ f (x ∗ ) + µk x − x ∗ k2 для всех x ∈ Rn . Доказательство. Так как f ′ (x ∗ ) = 0, в силу неравенства (.) для любого x ∈ Rn имеет место соотношение 1 2 f (x) ¾ f (x ∗ ) + f ′ (x ∗ ), x − x ∗ + µk x − x ∗ k2 = 1 2 = f (x ∗ ) + µk x − x ∗ k2 . Посмотрим, что происходит с суммой сильно выпуклых функций. Лемма ... Если f1 ∈ Sµ11 (Rn ), f2 ∈ Sµ12 (Rn ) и α, β ¾ 0, то 1 f = α f1 + β f2 ∈ Sαµ (Rn ). 1 +βµ2 Доказательство. Для любого x, y ∈ Rn имеем 1 2 1 ′ f2 ( y) ¾ f2 (x) + f2 (x), y − x + µ2 k y − x k2 . 2 f1 ( y) ¾ f1 (x) + f1′ (x), y − x + µ1 k y − x k2 , Остается сложить эти равенства, умножив их соответственно на α и β. Заметим, что класс S01 (Rn ) совпадает с F 1 (Rn ). Поэтому сумма выпуклой функции с сильно выпуклой есть сильно выпуклая функция с тем же параметром выпуклости. Приведем несколько эквивалентных определений сильно выпуклых функций. “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Теорема ... Пусть функция f непрерывно дифференцируема. Тогда оба приведенных ниже условия, выполненные при всех x, y ∈ Rn и α ∈ [0, 1], эквивалентны включению f ∈ Sµ1 (Rn ): f ′ (x) − f ′ ( y), x − y ¾ µk x − y k2 , (.) µ 2 α f (x) + (1 − α) f ( y) ¾ f (α x + (1 − α) y) + α(1 − α) k x − y k2 . (.) Доказательство этого утверждения проводится аналогично доказательству теоремы .., и мы оставляем его читателю в качестве упражнения. Весьма полезным представляется следующее утверждение. Теорема ... Если f ∈ Sµ1 (Rn ), то для любых x и y из Rn выполняются неравенства f ( y) ¶ f (x) + f ′ (x), y − x + 1 k f ′ (x) − f ′ ( y) k2 , 2µ 1 µ f ′ (x) − f ′ ( y), x − y ¶ k f ′ (x) − f ′ ( y) k2 . (.) (.) Доказательство. Зафиксируем некоторую точку x ∈ Rn . Рассмотрим функцию ϕ ( y) = f ( y) − f ′ (x), y ∈ Sµ1 (Rn ). Поскольку ϕ ′ (x) = 0, в силу неравенства (.) для любого y ∈ Rn получаем h i 1 ϕ (x) = min ϕ (υ) ¾ min ϕ ( y) + ϕ ′ ( y), υ − y + µkυ − y k2 = υ υ 2 = ϕ ( y) − 1 kϕ ′ ( y) k2 , 2µ а это есть в точности неравенство (.). Складывая две записи неравенства (.) с переставленными x и y, получаем неравенство (.). В заключение приведем условие второго порядка для класса Sµ1 (Rn ). Теорема ... Дважды непрерывно дифференцируемая функция f лежит в классе Sµ2 (Rn ) тогда и только тогда, когда для любого “Nesterov-final” — // — : — page — # § .. Минимизация гладких функций x ∈ Rn выполняется условие f ′′ (x) µIn . (.) Доказательство. легко провести, применяя неравенство (.). Рассмотрим два примера сильно выпуклых функций. Пример ... . f (x) = 1/2k x k2 принадлежит классу S12 (Rn ), так как f ′′ (x) = In . . Пусть симметрическая матрица A удовлетворяет условию µIn A LIn . Тогда 1 2 1,1 n n f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉 ∈ Sµ∞,1 ,L (R ) ⊂ Sµ,L (R ), поскольку f ′′ (x) = A. Другие примеры можно получить как сумму выпуклых и сильно выпуклых функций. Наиболее интересным функциональным классом для нас служит 1,1 Sµ,L (Rn ). Этот класс описывается следующими неравенствами: f ′ (x) − f ′ ( y), x − y ¾ µk x − y k2 , ′ ′ k f (x) − f ( y) k ¶ Lk x − y k. (.) (.) Значение Q f = L/µ ¾ 1 называется числом обусловленности функции f . Оказывается, неравенство (.) можно усилить, используя дополнительную информацию (.). n n Теорема ... Если f ∈ Sµ1,1 ,L (R ), то для любых x, y ∈ R выполняется неравенство f ′ (x) − f ′ ( y), x − y ¾ µL k x − y k2 + µ+L =+ 1 k f ′ (x) − f ′ ( y) k2 . µ+ L (.) Доказательство. Обозначим ϕ (x) = f (x) − 1/2µk x k2 . Тогда ϕ ′ (x) = = f ′ (x) − µ x; отсюда в силу неравенств (.) и (.) получаем вклюn чение ϕ ∈ F L1,1 −µ (R ). Если µ = L, то неравенство (.) доказано. Если µ < L, то из неравенства (.) получаем ϕ ′ (x) − ϕ ′ ( y), y − x ¾ 1 kϕ ′ (x) − ϕ ′ ( y) k2 , L−µ “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация что в точности эквивалентно неравенству (.). ... Нижние границы аналитической сложности n для класса Sµ∞,1 ,L (R ) Получим нижние границы аналитической сложности для задач 1,1 n n безусловной минимизации функций из класса Sµ∞,1 ,L (R ) ⊂ Sµ,L (R ). Рассмотрим следующий класс задач. n Модель: f (x) → min x ∈Rn , f ∈ Sµ∞,1 ,L (R ), µ > 0. Оракул: локальный черный ящик первого порядка. Приближенное решение: x̄ : f ( x̄) − f ∗ ¶ ǫ , k x̄ − x ∗ k2 ¶ ǫ . Как и в предыдущем пункте, мы рассматриваем методы, удовлетворяющие предположению ... Будем искать нижние границы сложности через число обусловленности Q f = L/µ нашей задачи. Заметим, что в описании нашего класса задач ничего не сказано о размерности пространства переменных. Поэтому формально мы считаем, что этот класс также включает в себя бесконечномерные задачи. Мы собираемся привести пример некоторой плохой функции, определенной в бесконечномерном пространстве. Можно было бы провести доказательство и в конечномерном пространстве, но соответствующие рассуждения оказались бы более сложными. Рассмотрим пространство R∞ ≡ l2 –– пространство всех последовательностей x = {x (i) }∞ i =1 с конечной нормой k x k2 = ∞ P x (i) 2 < ∞. i =1 Выберем некоторые параметры µ > 0 и Q f > 1, определяющие следующую функцию: fµ,Q f (x) = µ(Q f − 1) 8 § (x (1) )2 + ∞ P i =1 x (i) − x (i+1) 2 ª µ − 2x (1) + k x k2 . 2 “Nesterov-final” — // — : — page — # § .. Минимизация гладких функций Введем матрицу 2 −1 A= 0 0 −1 2 −1 0 0 −1 2 .. . 0 0 .. . .. . Тогда f ′′ (x) = ((µ(Q f − 1))/4)A + µI, где I –– единичный оператор в R∞ . В предыдущем пункте было установлено, что 0 A 4I. Поэтому µ I f ′′ (x) (µ(Q f − 1) + µ)I = µQ f I. ∞ Это означает, что fµ,Q f ∈ Sµ∞,1 ,µQ f (R ). Заметим, что число обусловленности функции fµ,Q f равно Q fµ,Q = f µQ f µ = Qf. Найдем минимум функции fµ,µQ f . Условия оптимальности первого порядка µ(Q − 1) µ(Q f − 1) f fµ′,µQ f (x) ≡ A + µI x − e1 = 0 4 4 можно записать как A+ 4 x = e1 . Qf − 1 Координатная форма этого уравнения выглядит так: Q f + 1 (1) x − x (2) = 1, Qf − 1 Q f + 1 (k) x (k+1) − 2 x + x (k−1) = 0, Qf − 1 2 (.) k = 2, … Пусть q есть наименьший корень уравнения q2 − 2 p который равен q = p Qf − 1 Qf + 1 Qf + 1 q + 1 = 0, Qf − 1 . Тогда последовательность (x ∗ )(k) = q k , k = 1, 2, … , удовлетворяет системе (.). Таким образом, мы приходим к следующему результату. “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Теорема ... Для любого x0 ∈ R∞ и произвольных констант ∞,1 µ > 0 и Q f > 1 найдется такая функция f ∈ Sµ,µQ (R∞ ), что для f любого метода первого порядка M , удовлетворяющего предположению .., верны оценки p 2k k xk − x ∗ k2 ¾ Qf − 1 p k x0 − x ∗ k2 , Qf + 1 2k p Qf − 1 µ ∗ f (xk ) − f ¾ k x0 − x ∗ k2 , p 2 Qf + 1 где x ∗ –– точка минимума функции f и f ∗ = f (x ∗ ). Доказательство. В самом деле, предположим, что x0 = 0. Выберем f (x) = fµ,µQ f (x). Тогда ∞ ∞ P P q2 k x0 − x ∗ k2 = [(x ∗ )(i) ]2 = q 2i = . 2 i =1 Поскольку fµ′′,µQ f (x) 1−q i =1 –– трехдиагональный оператор, а fµ′,µQ f (0) = e1 , мы заключаем, что xk ∈ Rk,∞ . Поэтому ∞ ∞ P P q2(k+1) k xk − x ∗ k2 ¾ [(x ∗ )(i) ]2 = q 2i = = q 2k k x0 − x ∗ k2 . 2 i = k +1 i = k +1 1−q Вторая оценка в утверждении теоремы следует из первой и из теоремы ... ... Градиентный метод Проверим, как работает градиентный метод, на задаче minn f (x) 1,1 ∈ F L (Rn ). x ∈R с функцией f Вспомним, что схема градиентного метода выглядит следующим образом. Градиентный метод . Выберем x0 ∈ Rn . . k-я итерация (k ¾ 0). a) Вычислим f (xk ) и f ′ (xk ). б) Найдем xk+1 = xk − hk f ′ (xk ) (см. в § . выбор правила длины шага). “Nesterov-final” — // — : — page — # § .. Минимизация гладких функций В этом пункте мы изучим простейший вариант градиентной схемы с hk = h > 0. Можно показать, что для всех других приемлемых правил длины шага скорость сходимости метода такая же. Обозначим через x ∗ точку оптимума нашей задачи, и пусть f ∗ = f (x ∗ ). Теорема ... Пусть f ∈ F L1,1 (Rn ) и 0 < h < 2/ L. Тогда градиентный метод образует последовательность {xk }, которая сходится как f (xk ) − f ∗ ¶ 2 f (x0 ) − f ∗ k x0 − x ∗ k2 . 2k x0 − x ∗ k2 + k · h(2 − Lh) · f (x0 ) − f ∗ Доказательство. Введем обозначение rk = k xk − x ∗ k. Тогда rk2+1 = k xk − x ∗ − hf ′ (xk ) k2 = = rk2 − 2h f ′ (xk ), xk − x ∗ + h2 k f ′ (xk ) k2 ¶ 2 ¶ rk2 − h − h k f ′ (xk ) k2 L (здесь мы использовали неравенство (.) и условие f ′ (x ∗ ) = 0). Поэтому rk ¶ r0 . В силу неравенства (.) получаем L 2 f (xk+1) ¶ f (xk ) + f ′ (xk ), xk+1 − xk + k xk+1 − xk k2 = = f (xk ) − ωk f ′ (xk ) k2 , где ω = h(1 − (L/2)hr). Обозначим ∆k = f (xk ) − f ∗ . Тогда ∆k ¶ f ′ (xk ), xk − x ∗ ¶ r0 k f ′ (xk ) k. Отсюда следует, что ∆k+1 ¶ ∆k − (ω/r02 )∆2k . Таким образом, 1 ω ∆ ω 1 1 ¾ + 2· k ¾ + 2. ∆k+1 ∆k ∆k r0 ∆k+1 r0 Складывая эти неравенства, получаем 1 1 ω ¾ + 2 (k + 1). ∆k+1 ∆0 r0 Для того чтобы выбрать оптимальную длину шага, нужно максимизировать ϕ (h) = h(2 − Lh) как функцию от h. Из условия оптимальности первого порядка ϕ ′ (h) = 2 − 2Lh = 0 находим значение “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация h∗ = 1/ L. В этом случае мы получаем следующую оценку эффективности градиентного метода: f (xk ) − f ∗ ¶ 2L( f (x0 ) − f ∗ )k x0 − x ∗ k2 . 2Lk x0 − x ∗ k2 + k · ( f (x0 ) − f ∗ ) (.) Далее, в силу неравенства (.) имеет место соотношение f (x0 ) ¶ f ∗ + f ′ (x ∗ ), x0 − x ∗ + L L k x − x ∗ k2 = f ∗ + k x0 − x ∗ k2 . 2 0 2 Поскольку правая часть неравенства (.) возрастает с ростом f (x0 ) − f ∗ , мы получаем следующий результат. Следствие ... Если h = 1/ L и f ∈ F L1,1 (Rn ), то f (xk ) − f ∗ ¶ 2Lk x0 − x ∗ k2 . k+4 (.) Оценим эффективность градиентного метода на классе сильно выпуклых функций. n Теорема ... Если f ∈ Sµ1,1 ,L (R ) и 0 < h ¶ 2/(µ + L), то градиентный метод образует такую последовательность {xk }, что 2hµ L k k xk − x ∗ k2 ¶ 1 − k x0 − x ∗ k2 . µ+L Если h = 2/(µ + L), то ∗ k xk − x k ¶ f (xk ) − f ∗ ¶ Q − 1 k f Qf + 1 L 2 k x0 − x ∗ k, Q − 1 2k f Qf + 1 k x0 − x ∗ k2 , где Q f = L/µ. Доказательство. Введем обозначение rk = k xk − x ∗ k. Тогда rk2+1 = k xk − x ∗ − hf ′ (xk ) k2 = = rk2 − 2h f ′ (xk ), xk − x ∗ + h2 k f ′ (xk ) k2 ¶ 2hµ L 2 2 ¶ 1− rk + h h − k f ′ (xk ) k2 µ+L µ+ L (здесь мы использовали неравенство (.) и условие f ′ (x ∗ ) = 0). Последнее неравенство в утверждении теоремы следует из предыдущего и из неравенства (.). “Nesterov-final” — // — : — page — # § .. Оптимальные методы Вспомним, что в п. .. (теорема ..) мы уже рассматривали длину шага h = 2/(µ + L) и установили линейную скорость сходимости градиентного метода. Но это был только локальный результат. Сравнивая скорость сходимости градиентного метода с нижними границами сложности (теоремы .. и ..), можно увидеть, что они далеки от наших нижних оценок сложности для классов 1,1 1,1 F L (Rn ) и Sµ,L (Rn ). Также следует отметить, что на этих классах задач стандартные методы безусловной минимизации (методы сопряженных градиентов, методы переменной метрики) также имеют плохую оценку глобальной эффективности. Оптимальные методы минимизации гладких выпуклых и сильно выпуклых функций будут рассмотрены в следующем параграфе. § .. Оптимальные методы Оптимальные методы. Выпуклые множества. Задача условной минимизации. Градиентное отображение. Методы минимизации на простых множествах. ... Оптимальные методы Рассмотрим задачу безусловной оптимизации minn f (x), x ∈R n где f –– сильно выпуклая функция: f ∈ Sµ1,1 ,L (R ), µ ¾ 0. Формально это семейство классов содержит также класс выпуклых функций с 1,1 (Rn ) ≡ F L1,1 (Rn )). липшицевым градиентом (S0,L В предыдущем параграфе были доказаны следующие оценки эффективности градиентного метода: 1,1 F L (R n ) : 1,1 Sµ,L (Rn ) : 2Lk x0 − x ∗ k2 ; k+4 2k L L−µ f (xk ) − f ∗ ¶ k x0 − x ∗ k2 . 2 L+µ f (xk ) − f ∗ ¶ Эти оценки на порядок хуже нижних границ сложности (см. теоремы .. и ..). Разумеется, это не означает, что градиентный метод в общей ситуации не является оптимальным, поскольку нижние границы могут быть слишком оптимистичными. Однако мы увидим, что в нашем случае нижние границы являются точными (с точностью до постоянного множителя). Мы докажем это “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация построением метода, который имеет соответствующие границы эффективности. Вспомним, что градиентный метод формирует релаксационную последовательность: f (xk+1) ¶ f (xk ). Это обстоятельство является ключевым для обоснования его скорости сходимости (теорема ..). Однако в теории выпуклой оптимизации оптимальные методы никогда не основываются на релаксации. Во-первых, для некоторых классов задач это свойство оказывается слишком дорогим. Во-вторых, схемы оптимальных методов и их оценки эффективности выводятся из некоторых глобальных топологических свойств выпуклых функций. С этой точки зрения, принцип релаксации оказывается малоинтересным по причине своей локальности. Схемы оптимальных методов и их оценки эффективности основываются на понятии оценивающих последовательностей. ∞ Определение ... Последовательности {ϕk (x)}∞ k =0 и {λk }k =0 , λk ¾ ¾ 0, называются оценивающими последовательностями функции f (x), если λk → 0 и для любого x ∈ Rn и всех k ¾ 0 верно неравенство ϕk (x) ¶ (1 − λk ) f (x) + λk ϕ0 (x). (.) Следующее утверждение объясняет, зачем это нужно. Лемма ... Если для некоторой последовательности {xk } выполняется неравенство f (xk ) ¶ ϕk∗ ≡ minn ϕk (x), x ∈R (.) то f (xk ) − f ∗ ¶ λk ϕ0 (x ∗ ) − f ∗ → 0. Доказательство. Действительно, f (xk ) ¶ ϕk∗ = minn ϕk (x) ¶ minn (1 − λk ) f (x) + λk ϕ0 (x) ¶ x ∈R x ∈R ¶ (1 − λk ) f (x ∗ ) + λk ϕ0 (x ∗ ). “Nesterov-final” — // — : — page — # § .. Оптимальные методы Таким образом, для любой последовательности {xk }, удовлетворяющей условию (.), можно получить ее скорость сходимости непосредственно из скорости сходимости последовательности {λk }. Однако на данном этапе у нас имеется два серьезных вопроса. Первый заключается в том, как строить оценивающие последовательности. А второй –– как обеспечить выполнение условия (.). Ответим на первый, более простой вопрос. Лемма ... Предположим, что ) ) ) ) ) n f ∈ Sµ1,1 ,L (R ), ϕ0 (x) произвольная функция на Rn , { yk }∞ произвольная последовательность в Rn , k =0 P∞ ∞ {αk }k=0 : αk ∈ (0, 1), k =0 αk = ∞, λ0 = 1. ∞ Тогда последовательности {ϕk (x)}∞ k =0 и {λk }k =0 , рекуррентно определяемые соотношениями λk+1 = (1 − αk )λk , ϕk+1 (x) = (1 − αk )ϕk (x) + + αk [ f ( yk ) + 〈 f ′ ( yk ), x − yk 〉 + µ k x − yk k2 ], 2 (.) являются оценивающими последовательностями. Доказательство. В самом деле, ϕ0 (x) ¶ (1 − λ0 ) f (x) + λ0 ϕ0 (x) ≡ ≡ ϕ0 (x). Далее, пусть неравенство (.) верно для некоторого k ¾ 0. Тогда ϕk+1 (x) ¶ (1 − αk )ϕk (x) + αk f (x) = = (1 − (1 − αk )λk ) f (x) + (1 − αk )(ϕk (x) − (1 − λk ) f (x)) ¶ ¶ (1 − (1 − αk )λk ) f (x) + (1 − αk )λk ϕ0 (x) = = (1 − λk+1 ) f (x) + λk+1 ϕ0 (x). Остается отметить, что условие обеспечивает выполнение условия λk → 0. Таким образом, данное утверждение предоставляет некие правила для построения оценивающих последовательностей. Теперь у нас имеются две управляющие последовательности, которые помогают “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация добиться выполнения неравенства (.). Заметим, что начальную функцию ϕ0 (x) можно также выбирать произвольно. Возьмем в качестве ϕ0 (x) простую квадратичную функцию. Тогда можно получить точное описание динамики изменения ϕk∗ . γ Лемма ... Пусть ϕ0 (x) = ϕ0∗ + 0 k x − υ0 k2 . Тогда процесс (.) 2 сохраняет каноническую форму функций {ϕk (x)}: ϕk (x) ≡ ϕk∗ + γk k x − υk k2 , 2 (.) где последовательности {γk }, {υk } и {ϕk∗ } определяются следующим образом: γk+1 = (1 − αk )γk + αk µ, 1 (1 − αk )γk υk + αk µ yk − αk f ′ ( yk ) , υ k +1 = γk+1 α2k k f ′ ( yk ) k2 + 2γk+1 α (1 − αk )γk µ + k k yk − υk k2 + f ′ ( yk ), υk − yk . γk+1 2 ϕk∗+1 = (1 − αk )ϕk + αk f ( yk ) − Доказательство. Заметим, что ϕ0′′ (x) = γ0 In . Докажем, что ϕk′′ (x) = = γk In для всех k ¾ 0. Действительно, если это условие выполнено при некотором k, то ϕk′′+1 (x) = (1 − αk )ϕk′′ (x) + αk µ In = (1 − αk )γk + αk µ In ≡ γk+1 In , откуда и следует каноническая форма (.) функций ϕk (x). Далее, ϕk+1 (x) = (1 − αk ) ϕk∗ + γk k x − υk k2 + 2 + αk [ f ( yk ) + f ′ ( yk ), x − yk + µ k x − yk k2 ]. 2 Поэтому уравнение ϕk′ +1 (x) = 0, которое является условием оптимальности первого порядка для функции ϕk+1 (x), переписывается в виде (1 − αk )γk (x − υk ) + αk f ′ ( yk ) + αk µ(x − yk ) = 0. Отсюда получаем уравнение для точки минимума υk+1 функции ϕk+1 (x). “Nesterov-final” — // — : — page — # § .. Оптимальные методы Наконец, вычислим ϕk∗+1 . Принимая во внимание правило рекурсии для последовательности {ϕk (x)}, имеем ϕk∗+1 + γk+1 k yk − υk+1 k2 = ϕk+1 ( yk ) = 2 γ = (1 − αk ) ϕk∗ + k k yk − υk k2 + αk f ( yk ). 2 (.) Заметим, что в силу соотношения для υk+1 справедливо равенство υk+1 − yk = 1 γk+1 (1 − αk )γk (υk − yk ) − αk f ′ ( yk ) . Поэтому γk+1 1 kυk+1 − yk k2 = (1 − αk )2 γ2k kυk − yk k2 − 2 2γk+1 h i − 2αk (1 − αk )γk f ′ ( yk ), υk − yk + α2k k f ′ ( yk ) k2 . Остается подставить это соотношение в формулу (.), обратив внимание на то, что множитель при k yk − υk k2 в этом выражении равен γ γ (1 − αk )γk 1 (1 − αk )2 γ2k = (1 − αk ) k 1 − = (1 − αk ) k − 2 2γk+1 2 γk αk µ = (1 − αk ) · . 2 γk+1 γk+1 Теперь ситуация прояснилась, и мы близки к тому, чтобы выписать алгоритмическую схему. В самом деле, предположим, что у нас уже имеется такое xk , что ϕk∗ ¾ f (xk ). Тогда из предыдущей леммы следует, что ϕk∗+1 ¾ (1 − αk ) f (xk ) + αk f ( yk ) − α2k k f ′ ( yk ) k2 + 2γk+1 α (1 − αk )γk + k f ′ ( yk ), υk − yk . γk+1 “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Поскольку f (xk ) ¾ f ( yk ) + 〈 f ′ ( yk ), xk − yk 〉, получаем следующую оценку: ϕk∗+1 ¾ f ( yk ) − α2k k f ′ ( yk ) k2 + 2γk+1 + (1 − αk ) f ′ ( yk ), αk γk (υk − yk ) + xk − yk . γk+1 Посмотрим на это неравенство. Мы хотим, чтобы выполнялось условие ϕk∗+1 ¾ f (xk+1). Напомним, что мы можем обеспечить выполнение неравенства f ( yk ) − 1 k f ′ ( yk ) k2 ¾ f (xk+1) 2L разными способами. Самым простым будет сделать один градиентный шаг: xk+1 = yk − hk f ′ (xk ), hk = 1/ L (см. неравенство (.)). Определим αk ∈ (0, 1) из уравнения Lα2k = (1 − αk )γk + αk µ (= γk+1 ). Тогда α2k /2γk+1 = 1/2L и можно заменить предыдущее неравенство следующим: ϕk∗+1 ¾ f (xk+1) + (1 − αk ) f ′ ( yk ), αk γk (υk − yk ) + xk − yk . γk+1 Теперь можно использовать свободу выбора yk . Найдем его из уравнения αk γk (υk − yk ) + xk − yk = 0. γk+1 Мы получим yk = αk γk υk + γk+1 xk . γk + αk µ Таким образом, мы приходим к следующему методу. “Nesterov-final” — // — : — page — # § .. Оптимальные методы Общая схема оптимального метода (.) . Выберем x0 ∈ Rn и γ0 > 0. Положим υ0 = x0 . . k-я итерация (k ¾ 0). а) Вычислим αk ∈ (0, 1) из уравнения Lα2k = (1 − αk )γk + αk µ. Положим γk+1 = (1 − αk )γk + αk µ. б) Выберем yk = αk γk υk + γk+1 xk γk + αk µ и вычислим f ( yk ) и f ′ ( yk ). в) Найдем такое xk+1 , что f (xk+1 ) ¶ f ( yk ) − 1 k f ′ ( yk ) k2 2L (выбор правила длины шага см. в п. ..). г) Положим υk+1 = (1 − αk )γk υk + αk µ yk − αk f ′ ( yk ) . γk+1 Отметим, что на шаге в) этой схемы можно выбирать любую точку xk+1 , удовлетворяющую неравенству f (xk+1) ¶ f ( yk ) − ω ′ k f ( yk ) k2 2 с некоторым ω > 0. Тогда константа 1/ω заменяет L в уравнении из шага а). Теорема ... Схема (.) формирует такую последовательность {xk }∞ , что k =0 f (xk ) − f ∗ ¶ λk f (x0 ) − f ∗ + где λ0 = 1 и λk = γ0 k x0 − x ∗ k2 , 2 Q k −1 i =0 (1 − αi ). Доказательство. Действительно, выберем ϕ0 (x) = f (x0 ) + γ0 /2k x − υ0 k2 . Тогда f (x0 ) = ϕ0∗ , и получаем f (xk ) ¶ ϕk∗ по построению данной схемы. Остается использовать лемму ... Таким образом, для того чтобы оценить скорость сходимости схемы (.), нужно понять, насколько быстро λk стремится к нулю. “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Лемма ... Если в схеме (.) γ0 ¾ µ, то ¨ q k µ 4L λk ¶ min 1 − , p p L « (2 L + k γ0 )2 . (.) Доказательство. В самом деле, если γk ¾ µ, то γk+1 = Lα2k = (1 − αk )γk + αk µ ¾ µ. Так как γ0 ¾ µ, мы заключаем, чтоpэто неравенство выполняется для всех γk . Отсюда следует, что αk ¾ µ/ L, и первое неравенство в формуле (.) доказано. Далее, докажем, что γk ¾ γ0 λk . Поскольку γ0 = γ0 λ0 , по индукции получаем, что γk+1 ¾ (1 − αk )γk ¾ (1 − αk )γ0 λk = γ0 λk+1 . Поэтому Lα2k = γk+1 ¾ γ0 λk+1 . p Введем обозначение ak = 1/ λk . Так как последовательность {λk } убывающая, мы имеем p p λk − λk +1 λk − λk +1 a k +1 − a k = p ¾ =p p p λk λk +1 λk λk +1 ( λk + λk +1 ) ¾ λk − λk +1 λ − (1 − αk )λk α 1 p p = k = pk ¾ 2 2λk λk +1 2λk λk +1 2 λk +1 q γ0 . L p Таким образом, ak ¾ 1 + k /2 γ0 / L, и лемма доказана. Приведем точное утверждение об оптимальности схемы (.). Теорема ... Пусть в схеме (.) выполняется условие γ0 = L. Тогда эта схема генерирует такую последовательность {xk }∞ k =0 , что ¨ « q f (xk ) − f ∗ ¶ L min 1− µ k 4 , L (k + 2)2 k x0 − x ∗ k2 . Это означает, что схема (.) оптимальна для задачи безусловной n минимизации функций из класса Sµ1,1 ,L (R ), µ ¾ 0. Доказательство. Приведенное неравенство выводится из соотношения f (x0 ) − f ∗ ¶ L/2k x0 − x ∗ k2 , а также из теоремы .. и леммы ... “Nesterov-final” — // — : — page — # § .. Оптимальные методы Пусть µ > 0. Из нижних границ сложности для рассматриваемого класса функций (см. теорему ..) получаем p 2k f (xk ) − f ∗ ¾ µ 2 Qf − 1 p R2 ¾ Qf + 1 µ 4k exp − p 2 Qf − 1 R2 , где Q f = L/µ и R = k x0 − x ∗ k. Поэтому нижняя граница числа итераций для построения точки xk , удовлетворяющей неравенству f (xk ) − f ∗ ¶ ǫ , не может быть больше чем p k¾ Qf − 1h 4 ln µ 1 + ln + 2 ln R . ǫ 2 i Для нашей схемы имеет место оценка q k µ k 2 ∗ 2 ¶ LR exp − p . f (xk ) − f ¶ LR 1 − L Поэтому мы гарантируем, что k ¶ Qf p Q f ln(1/ǫ ) + ln L + 2 ln R . Таp ким образом, основной член в этой оценке Q f ln(1/ǫ ) пропорционален нижней границе. Аналогичное рассуждение можно исполь1,1 зовать для класса S0,L (Rn ). Рассмотрим один их вариантов схемы (.), в котором используется градиентный шаг для нахождения точки xk+1 . Схема с постоянным шагом, I (.) . Выберем x0 ∈ Rn и γ0 > 0. Положим υ0 = x0 . . k-я итерация (k ¾ 0). а) Вычислим αk ∈ (0, 1) из уравнения Lα2k = (1 − αk )γk + αk µ. Установим γk+1 = (1 − αk )γk + αk µ. б) Выберем yk = αk γk υk + γk+1 xk . γk + αk µ Вычислим f ( yk ) и f ′ ( yk ). в) Положим xk+1 = yk − 1/ Lf ′ ( yk ) и 1 υ k +1 = (1 − αk )γk υk + αk µ yk − αk f ′ ( yk ) . γk+1 “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Покажем, что эту схему можно переписать в более простой форме. Для этого заметим, что 1 (α γ υ + γk+1 xk ), γk + αk µ k k k 1 xk+1 = yk − f ′ ( yk ), L 1 (1 − αk )γk υk + αk µ yk − αk f ′ ( yk ) . υ k +1 = γk+1 yk = Поэтому § ª (1 − αk ) (γk + αk µ) yk − γk+1 xk + αk µ yk − αk f ′ ( yk ) = γk+1 αk § ª (1 − αk )γk 1 − αk α 1 = yk + µ yk − xk − k f ′ ( yk ) = γk+1 αk αk γk+1 1 1 ′ = xk + ( yk − xk ) − f ( yk ) = αk αk L 1 = xk + (xk+1 − xk ). αk υ k +1 = 1 Отсюда получаем 1 (α γ υ + γ k +2 x k +1 ) = γk+1 + αk+1 µ k +1 k +1 k +1 α γ (υ − x k +1 ) = xk+1 + βk (xk+1 − xk ), = x k +1 + k + 1 k + 1 k + 1 γk+1 + αk+1 µ yk+1 = где βk = αk+1 γk+1 (1 − αk ) . αk (γk+1 + αk+1 µ) Таким образом, нам удалось избавиться от {υk }. Можно также исключить и γk . Итак, α2k L = (1 − αk )γk + µαk ≡ γk+1 . Поэтому βk = = αk+1 γk+1 (1 − αk ) αk+1 γk+1 (1 − αk ) = = αk (γk+1 + αk+1 µ) αk (γk+1 + α2k+1 L − (1 − αk+1 )γk+1 ) γk+1 (1 − αk ) α (1 − αk ) = k2 . αk (γk+1 + αk+1 L) αk + αk + 1 Заметим также, что α2k+1 = (1 − αk+1 )α2k + q αk+1 , где q = µ/ L, и α20 L = (1 − α0 )γ0 + µα0 . “Nesterov-final” — // — : — page — # § .. Оптимальные методы Последнее соотношение означает, что γ0 можно рассматривать как функцию от α0 . Таким образом, можно полностью исключить последовательность {γk }. Выпишем соответствующую схему. Схема с постоянным шагом, II (.) . Выберем x0 ∈ Rn и α0 ∈ (0, 1). Положим y0 = x0 и q = µ/ L. . k-я итерация (k ¾ 0). a) Вычислим f ( yk ) и f ′ ( yk ). Положим xk+1 = yk − 1 ′ f ( yk ). L б) Вычислим αk+1 ∈ (0, 1) из уравнения α2k+1 = (1 − αk+1 )α2k + q αk+1 и положим βk = αk (1 − αk ) α2k + αk+1 , yk+1 = xk+1 + βk (xk+1 − xk ). Скорость сходимости данной схемы можно вывести из теоремы .. и леммы ... Выпишем соответствующее утверждение, используя α0 в качестве основного параметра. Теорема ... Если в схеме (.) выполняется условие q µ α0 ¾ , L (.) то q k ¨ ∗ f (xk ) − f ¶ min 1− µ L « 4L , p × p (2 L + k γ0 )2 γ × f (x0 ) − f ∗ + 0 k x0 − x ∗ k2 , 2 где γ0 = α0 (α0 L − µ) . 1 − α0 Нет необходимости доказывать эту теорему, поскольку первоначальная схема не изменилась. Поменялись только обозначения. В теореме .. условие (.) эквивалентно неравенству γ0 ¾ µ. “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Схема (.) становится еще проще, если выбрать α0 = соответствует γ0 = µ). Тогда p q p L− µ µ αk = , βk = p p L L+ p µ/ L (это µ для всех k ¾ 0. Таким образом, мы приходим к следующему алгоритму. Схема с постоянным шагом, III (.) . Выберем y0 = x0 ∈ Rn . . k-я итерация (k ¾ 0): 1 ′ f ( yk ), L p p L− µ yk+1 = xk+1 + p p (x k +1 − x k ). L+ µ xk+1 = yk − Однако отметим, что эта схема не работает при µ = 0. С этой точки зрения, выбор γ0 = L (который изменяет соответствующее значение α0 ) является более надежным. ... Выпуклые множества Попытаемся понять, какие задачи условной минимизации мы можем эффективно решать. Начнем с простейшей задачи, в которой нет функциональных ограничений: min f (x), x ∈Q где Q –– некоторое множество в пространстве Rn . Возможность решения этой задачи зависит как от свойств целевой функции, так и от свойств множества Q. Прежде всего ответим на такой вопрос: какие множества наиболее естественно соответствуют классу выпуклых функций? Из определения выпуклой функции f (α x + (1 − α) y) ¶ α f (x) + (1 − α) f ( y) ∀ x, y ∈ Rn , α ∈ [0, 1] неявным образом следует, что можно проверять это неравенство в любой точке сегмента [x, y]: [x, y] = z = α x + (1 − α) y, α ∈ [0, 1] . “Nesterov-final” — // — : — page — # § .. Оптимальные методы Таким образом, было бы естественным рассмотреть множество, которое полностью содержит сегмент [x, y] при условии, что конечные точки x и y тоже принадлежат этому множеству. Такие множества называются выпуклыми. Определение ... Множество Q называется выпуклым, если для любых x, y ∈ Q и α из [0, 1] выполнено включение α x + (1 − α) y ∈ Q. Точка α x + (1 − α) y, где α ∈ [0, 1], называется выпуклой комбинацией двух рассматриваемых точек. По сути мы уже встречались с некоторыми выпуклыми множествами. Лемма ... Если f (x) –– выпуклая функция, то для любого β ∈ R1 соответствующие множества уровней L f (β ) = x ∈ Rn | f (x) ¶ β являются либо выпуклыми, либо пустыми. Доказательство. Действительно, пусть x и y лежат в L f (β ). Тогда f (x) ¶ β и f ( y) ¶ β . Поэтому f (α x + (1 − α) y) ¶ α f (x) + (1 − α) f ( y) ¶ β . Лемма ... Пусть функция f (x) выпукла. Тогда ее надграфик E f = (x, τ) ∈ Rn+1 | f (x) ¶ τ есть выпуклое множество. Доказательство. Пусть z1 = (x1 , τ1 ) ∈ E f и z2 = (x2 , τ2 ) ∈ E f . Тогда для любого α ∈ [0, 1] имеем zα ≡ αz1 + (1 − α)z2 = (α x1 + (1 − α)x2 , ατ1 + (1 − α)τ2 ), f (α x1 + (1 − α)x2 ) ¶ α f (x1 ) + (1 − α) f (x2 ) ¶ ατ1 + (1 − α)τ2 . Таким образом, zα ∈ E f . Рассмотрим некоторые свойства выпуклых множеств. “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Теорема ... Пусть Q1 ⊆ Rn и Q2 ⊆ Rm –– выпуклые множества и A (x) –– линейный оператор, A (x) = Ax + b : Rn → Rm . Тогда все множества, приведенные ниже, являются выпуклыми: ) пересечение (m = n): Q1 ∩ Q2 = x ∈ Rn | x ∈ Q1 , x ∈ Q2 ; ) сумма (m = n): Q1 + Q2 = z = x + y | x ∈ Q1 , y ∈ Q2 ; ) прямая сумма: Q1 × Q2 = (x, y) ∈ Rn+m | x ∈ Q1 , y ∈ Q2 ; ) коническая оболочка: K (Q1 ) = z ∈ Rn | z = β x, x ∈ Q1 , β ¾ 0 ; ) выпуклая оболочка: Conv(Q1 , Q2 ) = z ∈ Rn |z = α x + (1 − α), y, x ∈ Q1 , y ∈ Q2 , α ∈ [0, 1] ; ) аффинный образ: A (Q1 ) = y ∈ Rm | y = A (x), x ∈ Q1 ; ) аффинный прообраз: A −1 (Q2 ) = {x ∈ Rn | A (x) ∈ Q2 }. Доказательство. . Если x1 ∈ Q1 ∩ Q2 , x2 ∈ Q1 ∩ Q2 , то [x1 , x2 ] ⊂ Q1 и [x1 , x2 ] ⊂ Q2 . Поэтому [x1 , x2 ] ⊂ Q1 ∩ Q2 . . Если z1 = x1 + x2 , x1 ∈ Q1 , x2 ∈ Q2 , и z2 = y1 + y2 , y1 ∈ Q1 , y2 ∈ Q2 , то αz1 + (1 − α)z2 = (α x1 + (1 − α) y1 )1 + (α x2 + (1 − α) y2 )2 , где (·)1 ∈ Q1 и (·)2 ∈ Q2 . . Если z1 = (x1 , x2 ), x1 ∈ Q1 , x2 ∈ Q2 , и z2 = ( y1 , y2 ), y1 ∈ Q1 , y2 ∈ Q2 , то αz1 + (1 − α)z2 = ((α x1 + (1 − α) y1 )1 , (α x2 + (1 − α) y2 )2 ), где (·)1 ∈ Q1 и (·)2 ∈ Q2 . . Если z1 = β1 x1 , x1 ∈ Q1 , β1 ¾ 0, и z2 = β2 x2 , x2 ∈ Q1 , β2 ¾ 0, то для любого α ∈ [0, 1] имеем αz1 + (1 − α)z2 = αβ1 x1 + (1 − α)β2 x2 = γ(ᾱ x1 + (1 − ᾱ)x2 ), где γ = αβ1 + (1 − α)β2 и ᾱ = αβ1 /γ ∈ [0, 1]. . Если z1 = β1 x1 + (1 − β1 )x2 , x1 ∈ Q1 , x2 ∈ Q2 , β1 ∈ [0, 1], и z2 = = β2 y1 + (1 − β2 ) y2 , y1 ∈ Q1 , y2 ∈ Q2 , β2 ∈ [0, 1], то для любого α ∈ ∈ [0, 1] имеем αz1 + (1 − α)z2 = α(β1 x1 + (1 − β1 )x2 ) + + (1 − α)(β2 y1 + (1 − β2 ) y2 ) = ᾱ(β̄1 x1 + (1 − β̄1 ) y1 ) + + (1 − ᾱ)(β̄2 x2 + (1 − β̄2 ) y2 ), “Nesterov-final” — // — : — page — # § .. Оптимальные методы где ᾱ = αβ1 + (1 − α)β2 и β̄1 = αβ1 /ᾱ, β̄2 = α(1 − β1 )/(1 − ᾱ). . Если y1 , y2 ∈ A (Q1 ), то y1 = Ax1 + b и y2 = Ax2 + b для некоторых x1 , x2 ∈ Q1 . Поэтому для y(α) = α y1 + (1 − α) y2 , 0 ¶ α ¶ 1, выполнено соотношение y(α) = α(Ax1 + b) + (1 − α)(Ax2 + b) = A(α x1 + (1 − α)x2 ) + b. Таким образом, y(α) ∈ A (Q1 ). . Если x1 , x2 ∈ A −1 (Q2 ), то Ax1 + b = y1 и Ax2 + b = y2 для некоторых y1 , y2 ∈ Q2 . Поэтому для x(α) = α x1 + (1 − α)x2 , 0 ¶ α ¶ 1, имеем A (x(α)) = A(α x1 + (1 − α)x2 ) + b = = α(Ax1 + b) + (1 − α)(Ax2 + b) = α y1 + (1 − α) y2 ∈ Q2 . Приведем несколько примеров выпуклых множеств. Пример ... . Полупространство x ∈ Rn | 〈a, x 〉 ¶ β –– выпуклое множество, поскольку линейная функция выпукла. . Многогранник x ∈ Rn | 〈ai , x 〉 ¶ bi , i = 1, …, m является выпуклым как пересечение выпуклых множеств. . Эллипсоид. Пусть A = AT 0. Тогда множество x ∈ Rn | 〈 Ax, x 〉 ¶ ¶ r 2 является выпуклым, поскольку функция 〈 Ax, x 〉 выпукла. Выпишем условия оптимальности для задачи min f (x), x ∈Q f ∈ F 1 (Rn ), (.) где Q –– выпуклое замкнутое множество. Очевидно, что прежнее условие f ′ (x) = 0 здесь не работает. Пример ... Рассмотрим одномерную задачу: x → min. x ¾0 1 Здесь x ∈ R , Q = {x | x ¾ 0} и f (x) = x. Заметим, что x ∗ = 0, но f ′ (x ∗ ) = 1 > 0. “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Теорема ... Пусть f ∈ F 1 (Rn ) и Q есть выпуклое замкнутое множество. Точка x ∗ является решением задачи (.) тогда и только тогда, когда f ′ (x ∗ ), x − x ∗ ¾ 0 (.) для всех x ∈ Q. Доказательство. В самом деле, если верно неравенство (.), то f (x) ¾ f (x ∗ ) + f ′ (x ∗ ), x − x ∗ ¾ f (x ∗ ) при всех x ∈ Q. Пусть x ∗ является решением задачи (.). Предположим, что существует такая точка x ∈ Q, что f ′ (x ∗ ), x − x ∗ < 0. Рассмотрим функцию ϕ (α) = f (x ∗ + α(x − x ∗ )), α ∈ [0, 1]. Заметим, что ϕ (0) = f (x ∗ ), ϕ ′ (0) = f ′ (x ∗ ), x − x ∗ < 0. Поэтому при достаточно малых α имеем f (x ∗ + α(x − x ∗ )) = ϕ (α) < ϕ (0) = f (x ∗ ). Получили противоречие. Теорема доказана. Теорема ... Пусть f ∈ Sµ1 (Rn ) и Q есть выпуклое замкнутое множество. Тогда решение x ∗ задачи (.) существует и единственно. Доказательство. Пусть x0 ∈ Q. Рассмотрим множество ¯Q̄ = x ∈ Q | | f (x) ¶ f (x0 ) . Заметим, что задача (.) эквивалентна следующей (.) min f (x). x ∈¯Q̄ Однако множество ¯Q̄ ограничено: для всех x ∈ ¯Q̄ имеем µ 2 f (x0 ) ¾ f (x) ¾ f (x0 ) + f ′ (x0 ), x − x0 + k x − x0 k2 . Отсюда следует, что k x − x0 k ¶ 2/µk f ′ (x0 ) k. Таким образом, решение x ∗ задачи (.) (≡ (.)) существует. Докажем, что оно единственно. Действительно, если x1∗ также есть “Nesterov-final” — // — : — page — # § .. Оптимальные методы оптимальное решение задачи (.), то µ 2 f ∗ = f (x1∗ ) ¾ f (x ∗ ) + f ′ (x ∗ ), x1∗ − x ∗ + k x1∗ − x ∗ k2 ¾ ¾ f∗ + µ ∗ k x − x ∗ k2 2 1 (здесь мы использовали теорему ..). Отсюда следует, что x1∗ = x ∗ . ... Градиентное отображение В задачах условной минимизации градиент целевой функции интерпретируется не так, как в задачах без ограничений. В предыдущем параграфе уже упоминалось об изменении роли градиента в условиях оптимальности. Кроме того, из-за возможности получения недопустимой точки здесь больше нельзя использовать градиентный шаг. Среди свойств градиента функции f ∈ F L1,1 (Rn ) можно выделить два основных. Первое заключается в том, что градиентный шаг уменьшает значение функции на величину, сравнимую с квадратом нормы градиента: 1 1 f x − f ′ (x) ¶ f (x) − k f ′ (x) k2 . L 2L Второе свойство выражается неравенством 1 L f ′ (x), x − x ∗ ¾ k f ′ (x) k2 . Оказывается, для задач условной минимизации можно ввести новое понятие, которое унаследует наиболее важные свойства градиента. Определение ... Зафиксируем некоторое γ > 0. Обозначим h i γ xQ ( x̄; γ) = arg min f ( x̄) + f ′ ( x̄), x − x̄ + k x − x̄ k2 , 2 x ∈Q gQ ( x̄; γ) = γ( x̄ − xQ ( x̄; γ)). Тогда gQ (γ, x) называется градиентным отображением функции f , определенной на множестве Q. Для Q ≡ Rn имеем xQ ( x̄; γ) = x̄ − 1 ′ f ( x̄), γ gQ ( x̄; γ) = f ′ ( x̄). “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Таким образом, значение 1/γ можно рассматривать как длину «градиентного» шага x̄ → xQ ( x̄; γ). Заметим, что определение градиентного отображения корректно (это следует из теоремы ..). Более того, направление gQ ( x̄; γ) определено при всех x̄ ∈ Rn , не обязательно принадлежащих Q. Представим основное свойство градиентного отображения. n n Теорема ... Пусть f ∈ Sµ1,1 ,L (R ), γ ¾ L и x̄ ∈ R . Тогда для любого x ∈ Q верно неравенство f (x) ¾ f (xQ ( x̄; γ)) + gQ ( x̄; γ), x − x̄ + + µ 1 k g ( x̄; γ) k2 + k x − x̄ k2 . 2γ Q 2 (.) Доказательство. Введем обознвчения xQ = xQ (γ, x̄), gQ = gQ (γ, x̄), и пусть γ ϕ (x) = f ( x̄) + f ′ ( x̄), x − x̄ + k x − x̄ k2 . 2 ′ ′ Тогда ϕ (x) = f ( x̄) + γ(x − x̄) и для любого x ∈ Q выполняется условие f ′ ( x̄) − gQ , x − xQ = ϕ ′ (xQ ), x − xQ ¾ 0. Поэтому µ 2 f (x) − k x − x̄ k2 ¾ f ( x̄) + f ′ ( x̄), x − x̄ = = f ( x̄) + f ′ ( x̄), xQ − x̄ + f ′ ( x̄), x − xQ ¾ ¾ f ( x̄) + f ′ ( x̄), xQ − x̄ + gQ , x − xQ = γ 2 1 = ϕ (xQ ) − k gQ k2 + gQ , x − xQ = 2γ 1 = ϕ (xQ ) + k gQ k2 + gQ , x − x̄ 2γ = ϕ (xQ ) − k xQ − x̄ k2 + gQ , x − xQ = и ϕ (xQ ) ¾ f (xQ ), так как γ ¾ L. n n Следствие ... Пусть f ∈ Sµ1,1 ,L (R ), γ ¾ L и x̄ ∈ R . Тогда f (xQ ( x̄; γ)) ¶ f ( x̄) − 1 k g ( x̄; γ) k2 , 2γ Q (.) “Nesterov-final” — // — : — page — # § .. Оптимальные методы gQ ( x̄; γ), x̄ − x ∗ ¾ µ 1 k g ( x̄; γ) k2 + k x − x̄ k2 . 2γ Q 2 (.) Доказательство. В самом деле, используя неравенство (.) с x = x̄, получаем оценку (.). С другой стороны, используя неравенство (.) с x = x ∗ , получаем оценку (.), поскольку f (xQ ( x̄; γ)) ¾ ¾ f (x ∗ ). ... Методы минимизации на простых множествах Покажем, как можно использовать градиентное отображение для решения следующей задачи: min f (x), x ∈Q 1,1 Sµ,L (Rn ) где f ∈ и Q –– выпуклое замкнутое множество. Предположим, что множество Q устроено достаточно просто, так что для него явным образом можно вычислить градиентное отображение. Это предположение верно, например, для положительного ортанта, для n-мерного прямоугольного параллелепипеда, для симплекса, для евклидова шара и некоторых других множеств. Начнем с градиентного метода. Градиентный метод для простых множеств (.) . Выберем x0 ∈ Q. . k-я итерация (k ¾ 0): xk+1 = xk − hgQ (xk ; L). Анализ эффективности этой схемы схож с анализом ее варианта для задачи без ограничений. Приведем пример этих рассуждений. n Теорема ... Пусть f ∈ Sµ1,1 ,L (R ). Если в схеме (.) h = 1/ L, то µ k k xk − x ∗ k2 ¶ 1 − k x0 − x ∗ k2 . L Доказательство. Обозначим rk = k xk − x ∗ k, gQ = gQ (xk ; L). Тогда, используя неравенство (.), получим rk2+1 = k xk − x ∗ − hgQ k2 = rk2 − 2h gQ , xk − x ∗ +h2 k gQ k2 ¶ µ 2 1 k gG k = 1 − rk . ¶ (1 − hµ)rk2 + h h − L L “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Заметим, что для шага h = 1/ L выполняется равенство 1 L xk+1 = xk − gQ (xk ; L) = xQ (xk ; L). Рассмотрим теперь оптимальные методы. Опишем рассуждения в общих чертах, поскольку они очень схожи с изложенными в п. ... Прежде всего определим оценивающую последовательность. Предположим, что x0 ∈ Q. Определим ϕ0 (x) = f (x0 ) + γ0 k x − x0 k2 , 2 h 1 ϕk+1 (x) = (1 − αk )ϕk (x) + αk f (xQ ( yk ; L)) + k gQ ( yk ; L) k2 + 2L µ k x − yk k2 . 2 i + 〈 gQ ( yk ; L), x − yk 〉 + Поскольку вместо неравенства (.) мы используем теперь (.), рекуррентные формулы для ϕk (x) выглядят по-другому. Однако аналитическая структура этих функций остается неизменной. Поэтому все результаты о сходимости, описанные в п. .., сохраняются. Легко увидеть, что оценивающую последовательность {ϕk (x)} можно переписать как ϕk (x) = ϕk∗ + γk k x − υk k2 2 со следующими рекуррентными правилами для γk , υk и ϕk∗ : γk+1 =(1 − αk )γk + αk µ, 1 υ k +1 = (1 − αk )γk υk + αk µ yk − αk gQ ( yk ; L) , γk+1 α α2k k ϕk∗+1 = (1 − αk )ϕk + αk f (xQ ( yk ; L)) + k gQ ( yk ; L) k2 + − 2L 2γk+1 α (1 − αk )γk µ + k k yk − υk k2 + gQ ( yk ; L), υk − yk . γk+1 Далее, предполагая, что ϕk∗ 2 ¾ f (xk ), и используя неравенство f (xk ) ¾ f (xQ ( yk ; L)) + gQ ( yk ; L), xk − yk + + µ 1 k g ( y ; L) k2 + k xk − yk k2 , 2L Q k 2 “Nesterov-final” — // — : — page — # § .. Оптимальные методы приходим к следующей нижней границе: ϕk∗+1 ¾ (1 − αk ) f (xk ) + αk f (xQ ( yk ; L)) + α α2k α (1 − αk )γk k + k gQ ( yk ; L) k2 + k gQ ( yk ; L), υk − yk ¾ − 2L 2γk+1 γk+1 2 αk 1 − k gQ ( yk ; L) k2 + 2L 2γk+1 α γ + (1 − αk ) gQ ( yk ; L), k k (υk − yk ) + xk − yk . γk+1 ¾ f (xQ ( yk ; L)) + Таким образом, снова можно выбрать xk+1 = xQ ( yk ; L), Lα2k = (1 − αk )γk + αk µ ≡ γk+1 , yk = 1 (α γ υ + γk+1 xk ). γk + αk µ k k k Выпишем соответствующий вариант схемы (.). Схема с постоянным шагом, II. Простые множества (.) . Выберем x0 ∈ Rn и α0 ∈ (0, 1). Положим y0 = x0 и q = µ/ L. . k-я итерация (k ¾ 0). a) Вычислим f ( yk ) и f ′ ( yk ). Положим xk+1 = xQ ( yk ; L). б) Вычислим αk+1 ∈ (0, 1) из уравнения α2k+1 = (1 − αk+1 )α2k + q αk+1 и положим βk = αk (1 − αk ) α2k + αk+1 , yk+1 = xk+1 + βk (xk+1 − xk ). Очевидно, что скорость сходимости этого метода определяется теоремой ... В данной схеме только точки {xk } являются допустимыми для Q, в то время как точки последовательности { yk }, которые используются для вычисления градиентного отображения, могут и не быть допустимыми. “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация § .. Задача минимизации функций с гладкими компонентами Минимаксная задача: градиентное отображение, градиентный метод, оптимальные методы. Задачи при функциональных ограничениях. Методы условной минимизации. ... Минимаксная задача Зачастую целевая функция в задачах оптимизации состоит из нескольких компонент. Например, надежность сложных системы обычно определяется как минимальная надежность ее составных частей. Задача минимизации при функциональных ограничениях представляет собой другой пример взаимосвязи нескольких нелинейных функций и т. д. Простейшей задачей такого типа является минимаксная задача. В этом пункте мы будем рассматривать гладкую минимаксную задачу: min f (x) = max fi (x), (.) x ∈Q 1¶i ¶m n где fi ∈ Sµ1,1 ,L (R ), i = 1, …, m, и Q –– выпуклое замкнутое множество. Назовем функцию f (x) функцией типа максимума, если она сформирована компонентами fi (x) (см. задачу (.)). Включение n f ∈ Sµ1,1 ,L (R ) означает, что все компоненты функции f принадлежат этому классу. Заметим, что в общем случае функция f (x) не является дифференцируемой. Однако при условии, что все fi –– дифференцируемые функции, можно ввести в рассмотрение объект, который ведет себя в точности как линейная аппроксимация гладкой функции. Определение ... Пусть f является функцией типа максимума: f (x) = max fi (x). 1¶i ¶m Кусочнолинейная функция f ( x̄; x) = max fi ( x̄) + 〈 fi′ ( x̄), x − x̄ 〉 1¶i ¶m называется линеаризацией функции f (x) в точке x̄. Сравним следующий результат с неравенствами (.) и (.). “Nesterov-final” — // — : — page — # § .. Задача минимизации функций с гладкими компонентами Лемма ... Для любого x ∈ Rn имеют место неравенства µ 2 L f (x) ¶ f ( x̄; x) + k x − x̄ k2 . 2 f (x) ¾ f ( x̄; x) + k x − x̄ k2 , (.) (.) Доказательство. В самом деле, µ 2 fi (x) ¾ fi ( x̄) + fi′ ( x̄), x − x̄ + k x − x̄ k2 (см. неравенство (.)). Взяв максимум по i, получим оценку (.). Для доказательства неравенства (.) используем оценку L 2 fi (x) ¶ fi ( x̄) + fi′ ( x̄), x − x̄ + k x − x̄ k2 (см. неравенство (.)). Запишем условия оптимальности для задачи (.) (ср. с теоремой ..). Теорема ... Точка x ∗ ∈ Q является решением задачи (.) тогда и только тогда, когда для любого x ∈ Q выполняется неравенство f (x ∗ ; x) ¾ f (x ∗ ; x ∗ ) = f (x ∗ ). (.) Доказательство. Действительно, если выполнено неравенство (.), то f (x) ¾ f (x ∗ ; x) ¾ f (x ∗ ; x ∗ ) = f (x ∗ ) при всех x ∈ Q. Пусть x ∗ есть решение задачи (.). Предположим, что существует такая точка x ∈ Q, что f (x ∗ ; x) < f (x ∗ ). Рассмотрим функции ϕi (α) = fi (x ∗ + α(x − x ∗ )), i = 1, …, m. Заметим, что для всех i, 1 ¶ i ¶ m, выполнено неравенство fi (x ∗ ) + fi′ (x ∗ ), x − x ∗ < f (x ∗ ) = max fi (x ∗ ). 1¶i ¶m Поэтому либо ϕi (0) ≡ fi (x ∗ ) < f (x ∗ ), либо ϕi (0) = f (x ∗ ), ϕi′ (0) = fi′ (x ∗ ), x − x ∗ < 0. Значит, при достаточно малом α получаем fi (x ∗ + α(x − x ∗ )) = ϕi (α) < f (x ∗ ) для всех i, 1 ¶ i ¶ m. Приходим к противоречию. “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Следствие ... Пусть x ∗ есть минимум функции типа максимума f (x) на множестве Q. Если f принадлежит Sµ1 (Rn ), то µ 2 f (x) ¾ f (x ∗ ) + k x − x ∗ k2 при всех x ∈ Q. Доказательство. В силу неравенства (.) и теоремы .. для любого x ∈ Q получаем µ 2 f (x) ¾ f (x ∗ ; x) + k x − x ∗ k2 ¾ ¾ f (x ∗ ; x ∗ ) + µ µ k x − x ∗ k2 = f (x ∗ ) + k x − x ∗ k2 . 2 2 Наконец, докажем теорему существования. Теорема ... Пусть функция типа максимума f (x) принадлежит классу Sµ1 (Rn ), µ > 0, и пусть Q есть выпуклое замкнутое множество. Тогда оптимальное решение x ∗ задачи (.) существует и единственно. Доказательство. Пусть x̄ ∈ Q. Рассмотрим множество ¯Q̄ = x ∈ Q | | f (x) ¶ f ( x̄) . Заметим, что задача (.) эквивалентна следующей задаче min f (x) | x ∈ ¯Q̄ . (.) Но ¯Q̄ ограничено: для любого x ∈ ¯Q̄ выполняется неравенство µ 2 f ( x̄) ¾ fi (x) ¾ fi ( x̄) + fi′ ( x̄), x − x̄ + k x − x̄ k2 , следовательно, µ k x − x̄ k2 ¶ k f ′ ( x̄) k · k x − x̄ k + f ( x̄) − fi ( x̄). 2 Таким образом, решение x ∗ задачи (.) (и задачи (.)) существует. Если x1∗ является другим решением задачи (.), то µ 2 µ 2 f (x ∗ ) = f (x1∗ ) ¾ f (x ∗ ; x1∗ ) + k x1∗ − x ∗ k2 ¾ f (x ∗ ) + k x1∗ − x ∗ k2 (ввиду неравенства (.)). Поэтому x1∗ = x ∗ . “Nesterov-final” — // — : — page — # § .. Задача минимизации функций с гладкими компонентами ... Градиентное отображение В п. .. было введено градиентное отображение, которое играет роль градиента в задачах условной минимизации на простых множествах. Так как линеаризация функции типа максимума ведет себя так же, как и линеаризация гладкой функции, можно попытаться адаптировать понятие градиентного отображения к нашей ситуации. Зафиксируем некоторые γ > 0 и x̄ ∈ Rn . Рассмотрим функцию типа максимума f (x). Введем обозначение γ 2 fγ ( x̄; x) = f ( x̄; x) + k x − x̄ k2 . Следующее определение является обобщением определения ... Определение ... Пусть f ∗ ( x̄; γ) = min fγ ( x̄; x), x ∈Q x f ( x̄; γ) = arg min fγ ( x̄; x), x ∈Q g f ( x̄; γ) = γ( x̄ − x f ( x̄; γ)). Функция g f (x; γ) называется градиентным отображением функции типа максимума f на Q. Для m = 1 это определение эквивалентно определению ... Аналогично точка x̄, в которой проводится линеаризация, не обязательно должна принадлежать множеству Q. Очевидно, что fγ ( x̄; x) есть функция типа максимума, составленная из компонент γ 2 n fi ( x̄) + fi′ ( x̄), x − x̄ + k x − x̄ k2 ∈ Sγ1,1 ,γ (R ), i = 0, …, m. Поэтому градиентное отображение определено корректно (теорема ..). Докажем основной результат этого пункта, который подчеркивает сходство между свойствами градиентного отображения и свойствами градиента (ср. с теоремой ..). n Теорема ... Пусть f ∈ Sµ1,1 ,L (R ). Тогда для всех x ∈ Q имеет место неравенство f ( x̄; x) ¾ f ∗ ( x̄; γ) + g f ( x̄; γ), x − x̄ + 1 k g ( x̄; γ) k2 . 2γ f (.) “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Доказательство. Введем обозначения x f = x f ( x̄; γ), g f = g f ( x̄; γ). n Очевидно, что fγ ( x̄; x) ∈ Sγ1,1 ,γ (R ) и что fγ ( x̄; x) –– функция типа максимума. Поэтому все результаты предыдущего пункта можно также применить и к fγ . Поскольку x f = arg min fγ ( x̄; x), в силу следствия .. и теоремы .. получаем x ∈Q γ 2 γ fγ ( x̄; x f ) + k x − x f k2 − k x − x̄ k2 ¾ 2 γ f ∗ ( x̄; γ) + 〈 x̄ − x f , 2x − x f − x̄ 〉 = 2 γ ∗ f ( x̄; γ) + x̄ − x f , 2(x − x̄) + x̄ − x f = 2 1 ∗ f ( x̄; γ) + 〈 g f , x − x̄ 〉 + k g f k2 . 2γ f ( x̄; x) = fγ ( x̄; x) − k x − x̄ k2 ¾ ¾ ¾ = = В дальнейшем нам понадобится такое следствие из теоремы ... n Следствие ... Пусть f ∈ Sµ1,1 ,L (R ) и γ ¾ L. Тогда n . для любого x ∈ Q и x̄ ∈ R имеет место неравенство f (x) ¾ f (x f ( x̄; γ)) + 〈 g f ( x̄; γ), x − x̄ 〉 + + µ 1 k g ( x̄; γ) k2 + k x − x̄ k2 ; 2γ f 2 (.) . если x̄ ∈ Q, то f (x f ( x̄; γ)) ¶ f ( x̄) − 1 k g ( x̄; γ) k2 ; 2γ f (.) . для любого x̄ ∈ Rn верно неравенство 〈 g f ( x̄; γ), x̄ − x ∗ 〉 ¾ µ 1 k g ( x̄; γ) k2 + k x ∗ − x̄ k2 . 2γ f 2 (.) Доказательство. Предположение γ ¾ L обеспечивает неравенство f ∗ ( x̄; γ) ¾ f (x f ( x̄; γ)). Поэтому оценка (.) следует из неравенства (.), поскольку µ 2 f (x) ¾ f ( x̄; x) + k x − x̄ k2 при всех x ∈ Rn (см. лемму ..). “Nesterov-final” — // — : — page — # § .. Задача минимизации функций с гладкими компонентами Используя неравенство (.) с x = x̄, получим оценку (.). Используя неравенство (.) с x = x ∗ , получим оценку (.) ввиду неравенства f (x f ( x̄; γ)) − f (x ∗ ) ¾ 0. Наконец, оценим изменение величины f ∗ ( x̄; γ) в зависимости от параметра γ. Лемма ... Для любых γ1 , γ2 > 0 и x̄ ∈ Rn выполняется неравенство γ − γ1 k g f ( x̄; γ1 ) k2 . f ∗ ( x̄; γ2 ) ¾ f ∗ ( x̄; γ1 ) + 2 2γ1 γ2 Доказательство. Введем обозначения xi = x f ( x̄; γi ), gi = g f ( x̄; γi ), i = 1, 2. Из неравенства (.) следует, что f ( x̄; x) + γ2 k x − x̄ k2 ¾ f ∗ ( x̄; γ1 ) + 〈 g1 , x − x̄ 〉 + 2 γ 1 + k g k2 + 2 k x − x̄ k2 2γ1 1 2 (.) для всех x ∈ Q. В частности, для x = x2 получаем f ∗ ( x̄; γ2 ) = f ( x̄; x2 ) + γ2 k x2 − x̄ k2 ¾ 2 γ 1 k g k2 + 2 k x2 − x̄ k2 = 2γ1 1 2 1 1 1 = f ∗ ( x̄; γ1 ) + k g k2 − 〈 g1 , g2 〉 + k g k2 ¾ 2γ1 1 γ2 2γ2 2 1 1 ¾ f ∗ ( x̄; γ1 ) + k g k2 − k g k2 . 2γ1 1 2γ2 1 ¾ f ∗ ( x̄; γ1 ) + 〈 g1 , x2 − x̄ 〉 + ... Методы минимизации для минимаксной задачи Начнем изучение численных методов решения задачи (.) с «градиентного» метода с постоянным шагом. Градиентный метод для минимаксной задачи (.) . Выберем x0 ∈ Q и h > 0: . k-я итерация (k ¾ 0). xk+1 = xk − h g f (xk ; L). “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация n Теорема ... Пусть f ∈ Sµ1,1 ,L (R ). Если в схеме (.) выбрать h ¶ 1/ L, то k xk − x ∗ k2 ¶ (1 − µh)k k x0 − x ∗ k2 . Доказательство. Введем обозначения rk = k xk − x ∗ k, g = g f (xk ; L). Тогда в силу неравенства (.) получим rk2+1 = k xk − x ∗ − hgQ k2 = rk2 − 2h〈 g, xk − x ∗ 〉 + h2 k g k2 ¶ 1 ¶ (1 − hµ)rk2 + h h − k g k2 ¶ (1 − µh)rk2 . L Заметим, что при h = 1/ L выполняется равенство 1 L xk+1 = xk − g f (xk ; L) = x f (xk ; L). Скорость сходимости схемы (.) с такой длиной шага дается неравенством µ k k xk − x ∗ k2 ¶ 1 − k x0 − x ∗ k2 . L Сравнивая этот результат с теоремой .., можно увидеть, что в минимаксной задаче градиентный метод имеет ту же скорость сходимости, что и в случае минимизации гладкой функции. Проверим, как ведут себя здесь оптимальные методы. Вспомним, что для построения оптимального метода необходимо ввести оценивающие последовательности с некими правилами рекуррентного обновления. Формально говоря, минимаксная задача отличается от задачи безусловной минимизации только видом нижней аппроксимации целевой функции. Для задачи без ограничений для пересчета оценивающей последовательности использовалось неравенство (.). Теперь же его необходимо заменить на неравенство (.). Введем оценивающую последовательность для задачи (.). Зафиксируем некоторые x0 ∈ Q и γ0 > 0. Рассмотрим последовательно “Nesterov-final” — // — : — page — # § .. Задача минимизации функций с гладкими компонентами сти { yk } ⊂ Rn и {αk } ⊂ (0, 1). Определим ϕ0 (x) = f (x0 ) + γ0 k x − x0 k2 , 2 ϕk+1 (x) = (1 − αk )ϕk (x) + + αk f (x f ( yk ; L)) + 1 k g ( y ; L) k2 + 2L f k µ + 〈 g f ( yk ; L), x − yk 〉 + k x − yk k2 . 2 При сравнении этих соотношений с формулой (.) разница обнаруживается только в постоянной компоненте, обведенной рамкой. В формуле (.) на этом месте стоит f ( yk ). Это отличие приводит к тривиальной модификации утверждений леммы ..: все компоненты f ( yk ) надо формально заменить на выражение, расположенное в рамке, а f ′ ( yk ) надо заменить на g f ( yk ; L). Таким образом, приходим к следующей лемме. Лемма ... При всех k ¾ 0 имеет место соотношение ϕk (x) ≡ ϕk∗ + γk k x − υk k2 , 2 где последовательности {γk }, {υk } и {ϕk∗ } определены следующим образом: υ0 = x0 , ϕ0∗ = f (x0 ) и γk+1 = (1 − αk )γk + αk µ, 1 υ k +1 = (1 − αk )γk υk + αk µ yk − αk g f ( yk ; L) , γk+1 1 ϕk∗+1 = (1 − αk )ϕk + αk f (x f ( yk ; L)) + k g f ( yk ; L) k2 + 2L α2k + k g ( y ; L) k2 + 2γk+1 f k α (1 − αk )γk µ + k k yk − υk k2 + g f ( yk ; L), υk − yk . γk+1 2 Продолжим рассуждения, аналогичные приведенным в § .. Предположим, что ϕk∗ ¾ f (xk ). Неравенство (.) с x = xk и x̄ = yk “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация запишется как f (xk ) ¾ f (x f ( yk ; L)) + g f ( yk ; L), xk − yk + + µ 1 k g ( y ; L) k2 + k xk − yk k2 . 2L f k 2 Отсюда следует, что ϕk∗+1 ¾ (1 − αk ) f (xk ) + αk f (x f ( yk ; L)) + α α2k α (1 − αk )γk k + − k g f ( yk ; L) k2 + k g f ( yk ; L), υk − yk ¾ 2L 2γk+1 γk+1 α2k 1 k g f ( yk ; L) k2 + ¾ f (x f ( yk ; L)) + − 2L 2γk+1 E D α γ + (1 − αk ) g f ( yk ; L), k k (υk − yk ) + xk − yk . γk+1 Таким образом, снова можно выбрать xk+1 = x f ( yk ; L), Lα2k = (1 − αk )γk + αk µ ≡ γk+1 , yk = 1 (α γ υ + γk+1 xk ). γk + αk µ k k k Выпишем получившийся метод в форме (.), исключив из него последовательности {υk } и {γk }. Метод с постоянным шагом, II. Минимаксная задача . Выберем x0 ∈ Rn и α0 ∈ (0, 1). Положим y0 = x0 и q = µ/ L. . k-я итерация (k ¾ 0). a) Вычислим { fi ( yk )} и { fi′ ( yk )}. Положим xk+1 = x f ( yk ; L). б) Вычислим αk+1 ∈ (0, 1) из уравнения α2k+1 = (1 − αk+1 )α2k + q αk+1 и положим βk = αk (1 − αk ) , α2k + αk+1 yk+1 = xk+1 + βk (xk+1 − xk ). (.) “Nesterov-final” — // — : — page — # § .. Задача минимизации функций с гладкими компонентами Так как анализ сходимости этого метода ничем не отличается от обоснования метода (.), мы приводим лишь конечный результат. Теорема ... Пусть функция типа максимума f лежит в классе p 1,1 Sµ,L (Rn ). Если в схеме (.) взять α0 ¾ µ/ L, то ¨ « q µ k 4L ∗ f (xk ) − f ¶ min 1 − , p p 2 × L (2 L + k γ0 ) h i γ × f (x0 ) − f ∗ + 0 k x0 − x ∗ k2 , 2 где γ0 = (α0 (α0 L − µ))/(1 − α0 ). Заметим, что метод (.) работает при всех µ ¾ 0. Приведем метод решения задачи (.) со строго выпуклыми компонентами. n Метод для f ∈ Sµ1,1 ,L (R ) (.) . Выберем x0 ∈ Q. Положим y0 = x0 , p β=p L− L+ p µ p . µ . k-я итерация (k ¾ 0): Вычислим fi ( yk ) и fi′ ( yk ) . Положим xk+1 = x f ( yk ; L), yk+1 = xk+1 + β (xk+1 − xk ). Теорема ... Для метода (.) справедлива оценка q k µ ∗ f (xk ) − f ¶ 2 1 − f (x0 ) − f ∗ . (.) L Доказательство. p Метод (.) является одним из вариантов метода (.) с α0 = µ/ L. При таком выборе имеем γ0 = µ и получаем оценку (.) из теоремы .., поскольку в силу следствия .. имеет место неравенство µ/2k x0 − x ∗ k2 ¶ f (x0 ) − f ∗ . В завершении этого пункта рассмотрим вспомогательную задачу, которую приходится решать при вычислении градиентного отображения минимаксной задачи: γ max fi (x0 ) + fi′ (x0 ), x − x0 + k x − x0 k2 → min . 1¶i ¶m 2 x ∈Q “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Вводя дополнительную переменную t ∈ R, эту задачу можно переписать следующим образом: γ 2 t + k x − x0 k2 → min при fi (x0 ) + fi′ (x0 ), x − x0 ¶ t, x ∈ Q, t ∈ R, i = 1…m, (.) Заметим, что если Q является многогранником, то задача (.) есть задача квадратичной оптимизации. Она может быть решена с помощью некоторых специальных конечных методов (алгоритмов типа симплекс-метода). Эта задача также может быть решена и методами внутренней точки; при этом мы можем работать с множеством Q, имеющим более сложную нелинейную структуру. ... Оптимизация при функциональных ограничениях Покажем, что методы, описанные в предыдущем пункте, могут быть использованы для решения задачи минимизации с ограничениями в виде гладких функций. Напомним, что аналитическая форма такой задачи выглядит так: f0 (x) → min при fi (x) ¶ 0, i = 1, …, m, (.) x ∈ Q, где функции fi выпуклые и гладкие, а Q есть выпуклое замкнуn тое множество. В этом пункте мы предполагаем, что fi ∈ Sµ1,1 ,L (R ), i = 0, …, m, с некоторым µ > 0. Взаимосвязь между задачей (.) и минимаксными задачами устанавливается специальной функцией от одной переменной. Рассмотрим параметрическую функцию типа максимума f (t; x) = max f0 (x) − t, fi (x), i = 1, …, m , t ∈ R1 , x ∈ Q. Введем функцию f ∗ (t) = min f (t; x). x ∈Q (.) Заметим, что компоненты функции типа максимума f (t; ·) сильно выпуклы по x. Поэтому для любого t ∈ R решение задачи (.), которое мы обозначим x ∗ (t), существует и единственно (см. теорему ..). “Nesterov-final” — // — : — page — # § .. Задача минимизации функций с гладкими компонентами Попытаемся приблизиться к решению задачи (.), используя процедуру, основанную на приближенных значениях функции f ∗ (t). Этот подход является одним из вариантов последовательной квадратичной оптимизации. Его можно также применять к невыпуклым задачам. Установим некоторые свойства функции f ∗ (t). Лемма ... Пусть t ∗ есть оптимальное значение задачи (.). Тогда f ∗ (t) ¶ 0 для всех t ¾ t ∗ , f ∗ (t) > 0 для всех t < t ∗ . Доказательство. Пусть x ∗ является решением задачи (.). Если t ¾ t ∗ , то f ∗ (t) ¶ f (t; x ∗ ) = max f0 (x ∗ ) − t; fi (x ∗ ) ¶ max t ∗ − t; fi (x ∗ ) ¶ 0. Предположим, что t < t ∗ и f ∗ (t) ¶ 0. Тогда существует такая точка y ∈ Q, что f0 ( y) ¶ t < t ∗ , fi ( y) ¶ 0, i = 1, …, m. Значит, t ∗ не может быть оптимальным значением для задачи (.). Таким образом, наименьший корень функции f ∗ (t) соответствует оптимальному значению задачи (.). Отметим также, что, используя методы из предыдущего параграфа, можно вычислить приближенное значение функции f ∗ (t). Основываясь на этом, мы построим процедуру нахождения этого корня. Нам потребуются некоторые свойства функции f ∗ (t). Лемма ... Для любого ∆ ¾ 0 выполняется неравенство f ∗ (t) − ∆ ¶ f ∗ (t + ∆) ¶ f ∗ (t). “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Доказательство. В самом деле, f ∗ (t + ∆) = min max f0 (x) − t − ∆; fi (x) ¶ x ∈Q 1¶i ¶m ¶ min max f0 (x) − t; fi (x) = f ∗ (t), x ∈Q 1¶i ¶m f ∗ (t + ∆) = min max f0 (x) − t; fi (x) + ∆ − ∆ ¾ x ∈Q 1¶i ¶m ¾ min max f0 (x) − t; fi (x) − ∆ = f ∗ (t) − ∆. x ∈Q 1¶i ¶m Другими словами, функция f ∗ (t) убывает по t и удовлетворяет условию Липшица с константой, равной . Лемма ... Для любых t1 < t2 и ∆ ¾ 0 выполняется неравенство f ∗ (t1 − ∆) ¾ f ∗ (t1 ) + ∆ f ∗ (t1 ) − f ∗ (t2 ) . t2 − t1 (.) Доказательство. Введем обозначения t 0 = t 1 − ∆, α = ∆/(t2 − t0 ) ≡ ∆/(t2 − t1 + ∆) ∈ [0, 1]. Тогда t1 = (1 − α)t0 + αt2 и неравенство (.) можно записать в виде f ∗ (t1 ) ¶ (1 − α) f ∗ (t0 ) + α f ∗ (t2 ). (.) Положим xα = (1 − α)x ∗ (t0 ) + α x ∗ (t2 ). Тогда f ∗ (t1 ) ¶ max f0 (xα ) − t1 ; fi (xα ) ¶ 1¶i ¶m ¶ max (1 − α)( f0 (x ∗ (t0 )) − t0 ) + α( f0 (x ∗ (t2 )) − t2 ); 1¶i ¶m ∗ (1 − α) fi (x (t0 )) + α fi (x ∗ (t2 )) ¶ ¶ (1 − α) max f0 (x ∗ (t0 )) − t0 ; fi (x ∗ (t0 )) + 1¶i ¶m + α max f0 (x ∗ (t2 )) − t2 ; fi (x ∗ (t2 )) = 1¶i ¶m = (1 − α) f ∗ (t0 ) + α f ∗ (t2 ), и мы получаем оценку (.). Заметим, что леммы .. и .. выполняются для любых параметрических функций типа максимума, а не только для тех, которые образованы функциональными компонентами задачи (.). “Nesterov-final” — // — : — page — # § .. Задача минимизации функций с гладкими компонентами Перейдем теперь к изучению свойств градиентного отображения для параметрических функций типа максимума f (t; x). Для этого сначала введем линеаризацию для f (t; x): f (t; x̄; x) = max f0 ( x̄) + 〈 f0′ ( x̄), x − x̄ 〉 − t; fi ( x̄) + 〈 fi′ ( x̄), x − x̄ 〉 . 1¶i ¶m Теперь можно записать градиентное отображение стандартным образом. Зафиксируем некоторое γ > 0. Введем обозначения γ 2 fγ (t; x̄; x) = f (t; x̄; x) + k x − x̄ k2 , f ∗ (t; x̄; γ) = min fγ (t; x̄; x), x ∈Q x f (t; x̄; γ) = arg min fγ (t; x̄; x), x ∈Q g f (t; x̄; γ) = γ( x̄ − x f (t; x̄; γ)). Назовем функцию g f (t; x̄; γ) условным градиентным отображением задачи (.). При этом точка линеаризации x̄ не обязательно должна является допустимой для множества Q. Отметим, что сама функция fγ (t; x̄; x) есть функция типа максимума, образованная компонентами γ 2 f0 ( x̄) + f0′ ( x̄), x − x̄ − t + k x − x̄ k2 , γ 2 fi ( x̄) + fi′ ( x̄), x − x̄ + k x − x̄ k2 , i = 1, …, m. n Более того, fγ (t; x̄; x) ∈ Sγ1,1 ,γ (R ). Поэтому в силу теоремы .. для 1 любого t ∈ R условное градиентное отображение определено корректно. n Поскольку f (t; x) ∈ Sµ1,1 ,L (R ), мы имеем fµ (t; x̄; x) ¶ f (t; x) ¶ fL (t; x̄; x) n при всех x ∈ R . Тогда f ∗ (t; x̄; µ) ¶ f ∗ (t) ¶ f ∗ (t; x̄; L). Кроме того, используя лемму .., получаем следующий результат. Для любых x̄ ∈ Rn , γ > 0, ∆ ¾ 0 и t1 < t2 выполняется неравенство f ∗ (t1 − ∆; x̄; γ) ¾ ¾ f ∗ (t1 ; x̄; γ) + ∆ ( f ∗ (t1 ; x̄; γ) − f ∗ (t2 ; x̄; γ)). t2 − t1 (.) Для нас важными являются два значения γ: γ = L и γ = µ. Применяя лемму .. к функции типа максимума fγ (t; x̄; x) с γ1 = L и “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация γ2 = µ, получаем следующее неравенство: f ∗ (t; x̄; µ) ¾ f ∗ (t; x̄; L) − L−µ k g f (t; x̄; L) k2 . 2µ L (.) Так как нас интересует поиск корня функции f ∗ (t), опишем поведение корней функции f ∗ (t; x̄; γ), которую можно рассматривать как аппроксимацию для f ∗ (t). Введем обозначение t ∗ ( x̄) = root t ( f ∗ (t; x̄; µ)) (root t (·) есть корень по t соответствующей функции (·)). Лемма ... Пусть x̄ ∈ Rn и t̄ < t ∗ таковы, что f ∗ (t̄; x̄; µ) ¾ (1 − κ) f ∗ (t̄; x̄; L) для некоторого κ ∈ (0, 1). Тогда t̄ < t ∗ ( x̄) ¶ t ∗ . Кроме того, для любых t < t̄ и x ∈ Rn выполнено неравенство Ç t̄ − t ∗ ∗ f (t; x; L) ¾ 2(1 − κ) f (t̄; x̄; L) ∗ . t ( x̄) − t̄ Доказательство. Так как t̄ < t ∗ , мы имеем 0 < f ∗ (t̄) ¶ f ∗ (t̄; x̄; L) ¶ 1 f ∗ (t̄; x̄; µ). 1−κ Отсюда следует, что f ∗ (t̄; x̄; µ) > 0, и, поскольку f ∗ (t; x̄; µ) убывает по t, мы получаем t ∗ ( x̄) > t̄. Обозначим ∆ = t̄ − t. Тогда в силу неравенства (.) имеет место оценка ∆ f ∗ (t̄; x̄; µ) ¾ f ∗ (t; x; L) ¾ f ∗ (t) ¾ f ∗ (t; x̄; µ) ¾ f ∗ (t̄; x̄; µ) + ∗ t ( x̄) − t̄ ∗ ∆ ¾ (1 − κ) 1 + ∗ f (t̄; x̄; L) ¾ t ( x̄) − t̄ Ç ∆ ¾ 2(1 − κ) f ∗ (t̄; x̄; L) ∗ . t ( x̄) − t̄ ... Метод условной минимизации Рассмотрим следующий процесс. “Nesterov-final” — // — : — page — # § .. Задача минимизации функций с гладкими компонентами Метод условной минимизации (.) ∗ . Выберем x0 ∈ Q, κ ∈ (0, 1/2), t0 < t и параметр точности ǫ > 0. . k-я итерация (k ¾ 0). a) Генерируем последовательность {xk, j } с помощью метода (.), применяемого к функции f (tk ; x) с начальной точкой xk,0 = xk . Если f ∗ (tk ; xk, j ; µ) ¾ (1 − κ) f ∗ (tk ; xk, j ; L), то внутреннюю процедуру надо остановить, положив j(k) = j, j ∗ (k) = arg min 0¶ j ¶ j(k) f ∗ (tk ; xk, j ; L), xk+1 = x f (tk ; xk, j ∗(k) ; L). Глобальная остановка: если во время итерации внутренней процедуры оказывается выполнено условие f ∗ (tk ; xk, j ; L) ¶ ǫ . б) Положим tk+1 = t ∗ (xk, j(k)). Здесь мы впервые встретились с двухуровневым методом минимизации, анализ которого, разумеется, потребует некоторых усилий. Сначала нам необходимо оценить скорость сходимости процесса верхнего уровня в схеме (.) (назовем его главным процессом). Затем надо будет оценивать общую вычислительную сложность процессов нижнего уровня на шаге a). Поскольку нам интересна аналитическая сложность этого метода, арифметические затраты на вычисление t ∗ (x) и f ∗ (t; x, γ) мы в расчет не берем. Охарактеризуем сходимость главного процесса. Лемма ... Справедливо неравенство t ∗ − t0 h f ∗ (tk ; xk+1 ; L) ¶ 1−κ 1 2(1 − κ) ik . Доказательство. Введем обозначение β = 1/(2(1 − κ)) (< 1) и δk = f ∗ (tk ; xk, j(k) ; L) p . t k +1 − t k “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Поскольку tk+1 = t ∗ (xk, j(k)), в силу леммы .. при k ¾ 1 получим 2(1 − κ) f ∗ (tk ; xk, j(k) ; L) f ∗ (tk−1 ; xk−1, j(k−1); L)) p p ¶ . t k +1 − t k t k − t k −1 Значит, δk ¶ β δk−1 , и p t k +1 − t k ¶ β k δ 0 t k +1 − t k = Ç t k +1 − t k k ∗ = β f (t0 ; x0, j(0) ; L) . f ∗ (tk ; xk, j(k); L) = δk p t1 − t0 Далее, в силу леммы .. мы имеем: t1 − t0 ¾ f ∗ (t0 ; x0, j(0) ; µ). Отсюда следует, что Ç t k +1 − t k f ∗ (tk ; xk, j(k); L) ¶ β k f ∗ (t0 ; x0, j(0) ; L) ¶ ∗ f (t0 ; x0, j(0); µ) βk p ∗ ¶ f (t0 ; x0, j(0) ; µ)(tk+1 − tk ) ¶ 1−κ p βk ¶ f ∗ (t0 )(t ∗ − t0 ). 1−κ Остается отметить, что f ∗ (t0 ) ¶ t ∗ − t0 ∗ (лемма ..) и f ∗ (tk ; xk+1 ; L) ≡ f ∗ (tk ; xk, j ∗(k) ; L) ¶ f ∗ (tk ; xk, j(k); L). Приведенный результат дает оценку числа итераций главного процесса, которые необходимы для нахождения ǫ -решения задачи (.). Действительно, пусть f ∗ (tk ; xk, j ; L) ¶ ǫ . Тогда для x∗ = x f (tk ; xk, j ; L) имеет место соотношение f (tk ; x∗ ) = max f0 (x∗ ) − tk ; fi (x∗ ) ¶ f ∗ (tk ; xk, j ; L) ¶ ǫ . 1¶i ¶m ∗ Поскольку tk ¶ t , мы делаем вывод, что f0 (x∗ ) ¶ t ∗ + ǫ , fi (x∗ ) ¶ ǫ , i = 1, …, m. (.) В силу леммы .. мы можем получить условия (.) не более чем за t ∗ − t0 1 N(ǫ ) = ln (.) ln[2(1 − κ)] (1 − κ)ǫ полных итераций главного процесса (последняя итерация процесса в общем случае не осуществляется полностью, так как процесс за “Nesterov-final” — // — : — page — # § .. Задача минимизации функций с гладкими компонентами канчивается правилом глобальной остановки). Заметим, что в этой оценке κ –– положительная постоянная (например, κ = 1/4). Проанализируем сложность процесса нижнего уровня. Пусть последовательность {xk, j } образована схемой (.) с начальной точкой xk,0 = xk . Из теоремы .. получаем q j µ f (tk ; xk, j ) − f ∗ (tk ) ¶ 2 1 − ( f (tk ; xk ) − f ∗ (tk )) ¶ L ¶ 2e−σ· j ( f (tk ; xk ) − f ∗ (tk )) ¶ 2e−σ· j f (tk ; xk ), p где σ = µ/ L. Обозначим через N число полных итераций процесса (.) (N ¶ ¶ N(ǫ )). Тогда j(k) определено при всех таких k, что 0 ¶ k ¶ N. Отметим, что tk = t ∗ (xk−1, j(k−1)) > tk−1. Поэтому f (tk ; xk ) ¶ f (tk−1; xk ) ¶ f ∗ (tk−1 ; xk−1, j ∗(k−1) , L). Введем обозначения ∆k = f ∗ (tk−1; xk−1, j ∗(k−1) , L), k ¾ 1, ∆0 = f (t0 ; x0 ). Тогда при всех k ¾ 0 имеет место неравенство f (tk ; xk ) − f ∗ (tk ) ¶ ∆k . Лемма ... Для всех таких k, что 0 ¶ k ¶ N, процесс нижнего уровня будет продолжаться до тех пор, пока не выполнится условие f (tk ; xk, j ) − f ∗ (tk ) ¶ µκ · f ∗ (tk ; xk, j ; L). L−µ (.) Доказательство. Предположим, что выполнено условие (.). Тогда из неравенства (.) следует, что 1 k g (t ; x ; L k2 ¶ f (tk ; xk, j ) − f (tk ; x f (tk ; xk, j ; L)) ¶ 2L f k k, j ¶ f (tk ; xk, j ) − f ∗ (tk ). Поэтому, используя оценку (.), получаем L−µ k g f (tk ; xk, j ; L k2 ¾ 2µ L L−µ ¾ f ∗ (tk ; xk, j ; L) − f (tk ; xk, j ) − f ∗ (tk ) ¾ µ f ∗ (tk ; xk, j ; µ) ¾ f ∗ (tk ; xk, j ; L) − ¾ (1 − κ) f ∗ (tk ; xk, j ; L), “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация что и является критерием остановки процесса нижнего уровня на шаге a) в схеме (.). Следующий результат позволяет получить общую оценку сложности всех завершенных процессов нижнего уровня в рассматриваемой схеме условной минимизации. Лемма ... Для всех таких k, что 0 ¶ k ¶ N, выполняется неравенство Ç 2(L − µ)∆k L j(k) ¶ 1 + · ln . µ κµ∆k+1 Доказательство. Предположим, что 2(L − µ)∆k 1 ln , σ κµ∆k+1 j(k) − 1 > p где σ = µ/ L. Напомним, что ∆k+1 = min0¶ j ¶ j(k) f ∗ (tk ; xk, j ; L). Поскольку критерий остановки процесса нижнего уровня не выполняется при j = j(k) − 1, в силу леммы .. имеет место оценка L−µ L − µ −σ· j f ∗ (tk ; xk, j ; L) ¶ e ∆ k < ∆ k +1 . f (tk ; xk, j ) − f ∗ (tk ) ¶ 2 µκ µκ Получили противоречие с определением ∆k+1 . Следствие ... Справедливо неравенство q q N P ∆0 2(L − µ) L L · ln · ln . j(k) ¶ (N + 1) 1 + + k =0 µ κµ µ ∆ N +1 Остается оценить число итераций нижнего уровня для последнего шага главного процесса. Обозначим это число через j ∗ . Лемма ... Справедливо неравенство Ç 2(L − µ)∆N +1 L ∗ j ¶1+ · ln . µ κµǫ Доказательство. Обоснование утверждения этой леммы похоже на доказательство леммы ... Предположим, что Ç 2(L − µ)∆N +1 L ∗ j −1> · ln . µ κµǫ “Nesterov-final” — // — : — page — # § .. Задача минимизации функций с гладкими компонентами Заметим, что при j = j ∗ − 1 выполняются неравенства ǫ ¶ f ∗ (t N +1 ; x N +1, j ; L) ¶ ¶2 L−µ f (t N +1 ; x N +1, j ) − f ∗ (t N +1 ) ¶ µκ L − µ −σ· j e ∆ N +1 < ǫ . µκ Получили противоречие. Следствие ... Справедливо неравенство q q N P ∆ 2(L − µ) L L · ln · ln 0 . j∗ + j(k) ¶ (N + 2) 1 + + µ k =0 κµ µ ǫ Подытожим полученные результаты. Подставляя оценку (.) числа полных итераций N в оценку из следствия .., приходим к следующей границе для общего числа внутренних итераций процесса (.): Ç t ∗ − t0 2(L − µ) 1 L ln +2 · 1+ · ln + µ κµ (1 − κ)ǫ ln[2(1 − κ)] Ç L 1 + · ln · max f0 (x0 ) − t0 ; fi (x0 ) . (.) µ ǫ 1¶i ¶m Заметим, что метод (.), реализующий процесс нижнего уровня в методе (.), обращается к оракулу задачи (.) на каждой итерации только один раз. Поэтому оценка (.) является верхней границей аналитической сложности получения ǫ -решения задачи (.), определяемого условием (.). Проверим, насколько эта оценка далека от нижних границ. Основная составляющая в оценке (.) имеет порядок Ç t ∗ − t0 L L · · ln . ln ǫ µ µ Данное значение отличается от нижней границы для задачи безусловной минимизации на множитель ln L/µ. Это означает, что для задачи условной минимизации метод (.) является по крайней мере субоптимальным. Большего здесь сказать нельзя из-за отсутствия точных результатов о нижней границе аналитической сложности рассматриваемого класса задач. В заключение ответим на два технических вопроса. Во-первых, в методе (.) предполагается известной некоторая оценка t0 < t ∗ . “Nesterov-final” — // — : — page — # Глава . Гладкая выпуклая оптимизация Это предположение не является обременительным, так как можно выбрать t0 равным оптимальному значению задачи h i µ f (x0 ) + f ′ (x0 ), x − x0 + k x − x0 k2 → min . 2 x ∈Q ∗ Очевидно, что это значение не больше t . Далее, предполагалось, что мы умеем вычислять корень t ∗ ( x̄) функции f ∗ (t; x̄; µ) = min fµ (t; x̄; x), x ∈Q где fµ (t; x̄; x) –– функция типа максимума, составленная из компонент µ 2 µ fi ( x̄) + fi′ ( x̄), x − x̄ + k x − x̄ k2 , 2 f0 ( x̄) + f0′ ( x̄), x − x̄ + k x − x̄ k2 − t, i = 1, …, m. Из леммы .. следует, что этот корень есть оптимальное значение следующей задачи минимизации: µ ′ 2 f0 ( x̄) + f0 ( x̄), x − x̄ + k x − x̄ k → min при fi ( x̄) + fi′ ( x̄), 2 µ x − x̄ + k x − x̄ k2 ¶ 0, 2 i = 1, …, m, x ∈ Q. Эта задача не является квадратичной, так как ограничения нелинейны. Однако ее можно решить за конечное время с помощью алгоритмов типа симплекс-метода, поскольку у целевой функции и ограничений одинаковый гессиан. Эту задачу можно также решить методами внутренней точки. “Nesterov-final” — // — : — page — # Глава Негладкая выпуклая оптимизация § .. Выпуклые функции общего вида Эквивалентные определения. Замкнутые функции. Непрерывность выпуклых функций. Теоремы отделимости. Субградиенты и правила их вычисления. Условия оптимальности. ... Мотивировка и определения Настоящая глава посвящена методам решения задачи выпуклой минимизации общего вида min f0 (x) при fi (x) ¶ 0, i = 1, …, m, x ∈ Q ⊆ Rn , (.) где Q –– замкнутое выпуклое множество, а fi (x), i = 0, …, m, –– выпуклые функции общего вида. Общий вид функций подразумевает, что они могут быть недифференцируемыми. Несомненно, такая задача представляется более сложной, чем гладкая. Заметим, что задачи негладкой минимизации часто возникают в различных приложениях. Зачастую некоторые компоненты модели могут быть составлены из функций типа максимума: f (x) = max ϕ j (x), 1¶ j ¶ p где функции ϕ j (x) выпуклы и дифференцируемы. В предыдущем параграфе было показано, что работать с такими функцией можно с помощью градиентного отображения. Однако если число гладких компонент p в этой функции оказывается очень большим, то вычисление градиентного отображения становится слишком трудоемким. В этом случае разумным является представление функции типа “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация максимума как выпуклой функции общего вида. Другим мощным источником возникновения недифференцируемых функций является ситуация, когда некоторые компоненты задачи (.) задаются в неявном виде через решение вспомогательных задач. Такие функции называются функциями с неявной структурой. Как правило, эти функции оказываются негладкими. Начнем с определения понятия выпуклой функции общего вида (в дальнейшем термин «общего вида» будем часто опускать). Обозначим через dom f = x ∈ Rn : | f (x) | < ∞ область определения функции f . Всегда полагаем, что dom f 6= ∅. Определение ... Функция f (x) называется выпуклой, если ее область определения является выпуклым множеством и при всех x, y ∈ dom f и α ∈ [0, 1] выполняется неравенство f (α x + (1 − α) y) ¶ α f (x) + (1 − α) f ( y). Функция f называется вогнутой, если функция − f выпукла. Прежде чем перейти к построению методов решения задачи (.), отметим следующее. В предыдущей главе мы рассматривали методы оптимизации, использующие градиенты гладких функций. Для негладких функций градиент не существует. По этой причине для негладкого случая необходимо разработать альтернативную технику поиска оптимального решения. Однако прежде всего нам нужно изучить свойства обобщенных выпуклых функций и наметить возможности для введения понятия обобщенного градиента. Достижение поставленной цели сопряжено со многими трудностями, однако нам необходимо их преодолеть. Из определения .. напрямую следует такой результат. Лемма ... (Неравенство Йенсена.) Для любых x1 , …, xm ∈ dom f и таких коэффициентов α1 , …, αm , что m P αi = 1, αi ¾ 0, i = 1, …, m, (.) i =1 выполнено неравенство P P m m f αi x i ¶ αi f (xi ). i =1 i =1 “Nesterov-final” — // — : — page — # § .. Выпуклые функции общего вида Доказательство. Покажем верность этого утверждения индукцией по m. Определение .. обеспечивает выполнение данного неравенства для m = 2. Предположим, что оно верно при некотором m ¾ 2. Для набора m + 1 точек имеет место представление mP +1 m P αi xi = α1 x1 + (1 − α1 ) βi x i , i =1 i =1 α где βi = i+1 . Очевидно, что 1 − α1 m P βi = 1, βi ¾ 0, i = 1, …, m. i =1 Поэтому, используя определение .. и индуктивное предположение, получаем mP +1 m P f αi xi = f α1 x1 + (1 − α1 ) βi x i ¶ i =1 i =1 ¶ α1 f (x1 ) + (1 − α1 ) f P m βi x i ¶ i =1 mP +1 αi f (xi ). i =1 Pm Точка x = i=1 αi xi с коэффициентами αi , удовлетворяющими условию (.), называется выпуклой комбинацией точек xi . Обратим внимание на два важных следствия из неравенства Йенсена. Следствие ... Пусть x есть выпуклая комбинация точек x1 , … … , xm . Тогда f (x) ¶ max f (xi ). 1¶i ¶m Доказательство. В самом деле, в силу неравенства Йенсена и соотm P ношений αi ¾ 0, αi = 1 получаем i =1 f (x) = f P m P m αi x i ¶ αi f (xi ) ¶ max f (xi ). i =1 1¶i ¶m i =1 Следствие ... Пусть § ª m m P P ∆ = Conv{x1 , …, xm } ≡ x = αi xi | αi ¾ 0, αi = 1 . i =1 i =1 Тогда max x ∈∆ f (x) = max f (xi ). 1¶i ¶n “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Приведем два эквивалентных определения выпуклых функций. Теорема ... Функция f является выпуклой тогда и только тогда, когда для всех таких x, y ∈ dom f и β ¾ 0, что y + β ( y − x) ∈ ∈ dom f , выполнено неравенство f ( y + β ( y − x)) ¾ f ( y) + β ( f ( y) − f (x)). (.) Доказательство. Пусть функция f выпукла. Введем обозначение α= β и u = y + β ( y − x). Тогда 1+β 1 y= (u + β x) = (1 − α)u + α x. 1+β Поэтому f ( y) ¶ (1 − α) f (u) + α f (x) = β 1 f (u) + f (x). 1+β 1+β Пусть верно неравенство (.). Зафиксируем α ∈ (0, 1] и x, y ∈ 1−α ∈ dom f . Введем обозначение β = и u = α x + (1 − α) y. Тогда α 1 x = (u − (1 − α) y) = u + β (u − y). α Поэтому f (x) ¾ f (u) + β ( f (u) − f ( y)) = 1 1−α f (u) − f ( y). α α Теорема ... Функция f является выпуклой тогда и только тогда, когда ее надграфик epi( f ) = (x, t) ∈ dom f × R | t ¾ f (x) есть выпуклое множество. Доказательство. Действительно, если (x1 , t1 ) и (x2 , t2 ) принадлежат надграфику функции f , то для любого α ∈ [0, 1] выполнено неравенство αt1 + (1 − α)t2 ¾ α f (x1 ) + (1 − α) f (x2 ) ¾ f (α x1 + (1 − α)x2 ). Таким образом, (α x1 + (1 − α)x2 , αt1 + (1 − α)t2 ) ∈ epi( f ). С другой стороны, пусть надграфик epi( f ) является выпуклым. Заметим, что для x1 , x2 ∈ dom f выполняются включения (x1 , f (x1 )) ∈ epi( f ), (x1 , f (x2 )) ∈ epi( f ). “Nesterov-final” — // — : — page — # § .. Выпуклые функции общего вида Поэтому (α x1 + (1 − α)x2 , α f (x1 ) + (1 − α) f (x2 )) ∈ epi( f ). Значит, f (α x1 + (1 − α)x2 ) ¶ α f (x1 ) + (1 − α) f (x2 ). Нам также понадобится следующее свойство множеств уровней выпуклых функций. Теорема ... Если функция f выпукла, то все ее множества уровней L f (β ) = x ∈ dom f | f (x) ¶ β являются либо выпуклыми, либо пустыми. Доказательство. В самом деле, если x1 ∈ L f (β ) и x2 ∈ L f (β ), то для любого α ∈ [0, 1] имеем f (α x1 + (1 − α)x2 ) ¶ α f (x1 ) + (1 − α) f (x2 ) ¶ αβ + (1 − α)β = β . В дальнейшем мы увидим, что поведение обобщенных выпуклых функций на границе областей определения иногда бывает непредсказуемым. По этой причине введем в рассмотрение следующее полезное понятие. Определение ... Выпуклая функция f называется замкнутой, если ее надграфик является замкнутым множеством. Непосредственно из этого определения вытекает следующая теорема. Теорема ... Если выпуклая функция f замкнута, то все ее множества уровней являются либо пустыми, либо замкнутыми. Доказательство. По определению (L f (β ), β ) = epi( f ) ∩ {(x, t) | t = = β }. Поэтому надграфик L f (β ) является выпуклым и замкнутым множеством, как пересечение двух выпуклых замкнутых множеств. Заметим, что если f –– выпуклая и непрерывная функция и ее область определения dom f –– замкнутое множество, то f является замкнутой функцией. Однако в общем случае выпуклая замкнутая функция не обязательно может быть непрерывной. Рассмотрим несколько примеров выпуклых функций. “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Пример ... . Линейная функция является замкнутой и выпуклой. . Функция f (x) = | x |, x ∈ R, замкнутая и выпуклая, поскольку ее надграфик (x, t) | t ¾ x, t ¾ − x , является пересечением двух замкнутых выпуклых множеств (см. теорему ..). . Все дифференцируемые и выпуклые на Rn функции принадлежат классу обобщенных замкнутых выпуклых функций. . Функция f (x) = 1/ x, x > 0, выпукла и замкнута. Однако ее область определения dom f = int R+ есть открытое множество. . Функция f (x) = k x k, где k · k –– любая норма в Rn , является замкнутой и выпуклой: f (α x1 + (1 − α)x2 ) = kα x1 + (1 − α)x2 k ¶ ¶ kα x1 k + k (1 − α)x2 k = = αk x1 k + (1 − α)k x2 k n для любых x1 , x2 ∈ R и α ∈ [0, 1]. Наиболее важными типами норм в численном анализе являются так называемые l p -нормы: P 1/ p n k x kp = | x (i) | p , p ¾ 1. i =1 Среди них обычно используются три следующие: hP i1/2 n (i) 2 , p = 2; ◦ евклидова норма: k x k = i =1 (x ) Pn ◦ l1 -норма: k x k1 = i=1 | x (i) |, p = 1; ◦ l∞ -норма (норма Чебышёва, равномерная норма, бесконечностьнорма): k x k∞ = max | x (i) |. 1¶i ¶n Любая норма определяет систему так называемых шаровых множеств Bk·k (x0 , r) = x ∈ Rn | k x − x0 k ¶ r , r ¾ 0, где r есть радиус шара, а x0 ∈ Rn –– его центр. Шар вида Bk·k (0, 1) назовем единичным шаром в норме k · k. Очевидно, что эти шаровые “Nesterov-final” — // — : — page — # § .. Выпуклые функции общего вида множества являются выпуклыми (см. теорему ..). Для l p -шара радиуса r будем использовать обозначение B p (x0 , r) = x ∈ Rn | k x − x0 k p ¶ r . Отметим следующие соотношения между евклидовым и l1 -шаром: p B1 (x0 , r) ⊂ B2 (x0 , r) ⊂ B1 (x0 , r n). Эти соотношения следуют из стандартных неравенств P 2 n n P (x (i))2 ¶ | x (i) | , i =1 n P 1 n i =1 i =1 2 n 1 P (i) 2 | x (i) | ¶ |x | . n i =1 . В предыдущих примерах нам не попадались выпуклые функции с необычными или нежелательными характеристиками. Однако посмотрим на следующую функцию двух переменных: ¨ 0, если x 2 + y 2 < 1, f (x, y) = ϕ (x, y), если x 2 + y 2 = 1, где ϕ (x, y) есть произвольная неотрицательная функция, определенная на единичной окружности. Областью определения этой функции является единичный евклидов круг (замкнутое и выпуклое множество). Кроме того, легко увидеть, что функция f выпукла. Однако она обладает плохими свойствами на границе своей области определения. Естественным образом возникает желание исключить такие функции из рассмотрения. Проще всего это сделать с помощью понятия замкнутой функции. Очевидно, что функция f (x, y) не является замкнутой, кроме случая ϕ (x, y) ≡ 0. ... Операции с выпуклыми функциями В предыдущем параграфе мы рассмотрели несколько примеров выпуклых функций общего вида. Определим теперь для этого класса функций некоторый набор инвариантных операций, который позволит перейти к рассмотрению более сложных объектов. Теорема ... Пусть функции f1 и f2 замкнуты и выпуклы, и пусть β ¾ 0. Тогда все нижеследующие функции также замкнуты и выпуклы: “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация ) f (x) = β f1 (x), dom f = dom f1 ; ) f (x) = f1 (x) + f2 (x), dom f = (dom f1 ) ∩ (dom f2 ); ) f (x) = max{ f1 (x), f2 (x)}, dom f = (dom f1 ) ∩ (dom f2 ). Доказательство. . Для первой функции утверждение очевидно: f (α x1 + (1 − α)x2 ) ¶ β (α f1 (x1 ) + (1 − α) f1 (x2 )). . Для всех x1 , x2 ∈ (dom f1 ) ∩ (dom f2 ) и α ∈ [0, 1] имеем f1 (α x1 + (1 − α)x2 ) + f2 (α x1 + (1 − α)x2 ) ¶ ¶ α f1 (x1 ) + (1 − α) f1 (x2 ) + α f2 (x1 ) + (1 − α) f2 (x2 ) = = α( f1 (x1 ) + f2 (x1 )) + (1 − α)( f1 (x2 ) + f2 (x2 )). Таким образом, функция f (x) выпукла. Докажем ее замкнутость. Рассмотрим последовательность {(xk , tk )} ⊂ epi( f ): tk ¾ f1 (xk ) + f2 (xk ), lim xk = x̄ ∈ dom f , k →∞ lim tk = t̄. k →∞ Поскольку f1 и f2 –– замкнутые функции, справедливо неравенство inf lim f1 (xk ) ¾ f1 ( x̄), k →∞ inf lim f2 (xk ) ¾ f2 ( x̄). k →∞ Поэтому t̄ = lim tk ¾ inf lim f1 (xk ) + inf lim f2 (xk ) ¾ f ( x̄). k →∞ k →∞ k →∞ Значит , ( x̄, t̄) ∈ epi f . . Надграфик функции f (x) запишется в виде epi f = (x, t) | t ¾ f1 (x)t ¾ f2 (x)x ∈ (dom f1 ) ∩ (dom f2 ) ≡ ≡ epi f1 ∩ epi f2 . Значит, epi f –– замкнутое и выпуклое множество как пересечение двух замкнутых и выпуклых множеств. Остается применить теорему ... Важно понимать, что в общем случае для неограниченных выпуклых множеств это свойство не выполняется. Например, для двумерного случая возьмем Q1 = {(x, y) | y ¾ 1/ x, x > 0}, а Q2 = {(x, y) | y = 0, x ¶ 0}. Оба эти множества замкнуты и выпуклы. Однако их сумма Q1 + Q2 = {(x, y) | y > 0} –– выпуклое, но открытое множество. “Nesterov-final” — // — : — page — # § .. Выпуклые функции общего вида Следующая теорема показывает, что выпуклость является аффинно-инвариантным свойством. Теорема ... Пусть функция ϕ ( y), y ∈ Rm , является выпуклой и замкнутой. Рассмотрим линейный оператор A (x) = Ax + b: Rn → Rm . Тогда f (x) = ϕ (A (x)) есть выпуклая и замкнутая функция с областью определения dom f = x ∈ Rn | A (x) ∈ dom ϕ . Доказательство. Для x1 и x2 из dom f определим y1 = A (x1 ), y2 = = A ( y2 ). Тогда для α ∈ [0, 1] имеем f (α x1 + (1 − α)x2 ) = ϕ (A (α x1 + (1 − α)x2 )) = = ϕ (α y1 + (1 − α) y2 ) ¶ ¶ αϕ ( y1 ) + (1 − α)ϕ ( y2 ) = = α f (x1 ) + (1 − α) f (x2 ). Таким образом, функция f (x) выпукла. Замкнутость ее надграфика следует из непрерывности линейного оператора A (x). Одним из основных поставщиков выпуклых функций с неявной структурой является следующее утверждение. Теорема ... Пусть ∆ есть некоторое множество и f (x) = sup ϕ ( y, x) | y ∈ ∆ . y Предположим, что для любого фиксированного y ∈ ∆ функция ϕ ( y, x) замкнута и выпукла по x. Тогда f (x) является замкнутой и выпуклой функцией с областью определения § ª \ dom f = x ∈ dom ϕ ( y, ·) | ∃γ : ϕ ( y, x) ¶ γ∀ y ∈ ∆ . (.) y ∈∆ Доказательство. Действительно, если x принадлежит множеству из правой части уравнения (.), то f (x) < ∞ и, следовательно, x ∈ dom f . Если x не лежит в этом множестве, то тогда найдется такая последовательность { yk }, что ϕ ( yk , x) → ∞. Поэтому x не принадлежит dom f . “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Наконец, очевидно, что (x, t) ∈ epi f тогда и только тогда, когда выполнены условия x ∈ dom ϕ ( y, ·), t ¾ ϕ ( y, x) при всех y ∈ ∆. Это означает, что \ epi f = epi ϕ ( y, ·). y ∈∆ Поэтому f является выпуклой и замкнутой функцией, так как каждый надграфик epi ϕ ( y, ·) является выпуклым и замкнутым. Перейдем теперь к рассмотрению более сложных примеров выпуклых функций. Пример ... . Функция f (x) = max {x (i) } выпукла и замкнута. 1¶i ¶n . Пусть λ = (λ функцию (1) , …, λ (m) m ), а ∆ –– множество в R+ . Рассмотрим f (x) = sup m P λ∈∆ i =1 λ(i) fi (x), где функции fi выпуклые и замкнутые. Из теоремы .. следует, что надграфики функций ϕλ (x) = m P λ(i) fi (x) i =1 есть выпуклые и замкнутые множества. Значит, функция f (x) выпукла и замкнута в силу теоремы ... Заметим, что мы не делали никаких предположений относительно структуры множества ∆. . Пусть Q –– выпуклое множество. Рассмотрим функцию ψQ (x) = sup 〈 g, x 〉 | g ∈ Q . Функция ψQ (x) называется опорной функцией множества Q. Из теоремы .. видно, что функция ψQ (x) замкнута и выпукла. Эта функция является однородной: ψQ (tx) = t ψQ (x), x ∈ dom Q, t ¾ 0. “Nesterov-final” — // — : — page — # § .. Выпуклые функции общего вида Если множество Q ограничено, то dom ψQ = Rn . . Пусть Q –– множество в Rn . Рассмотрим функцию ψ(g, γ) = = sup y ∈Q ϕ ( y, g, γ), где γ 2 ϕ ( y, g, γ) = 〈 g, y 〉 − k y k2 . Из теоремы .. следует, что функция ψ(g, γ) замкнутая и выпуклая по (g, γ). Изучим ее свойства. Если Q ограничено, то dom ψ = Rn+1 . Рассмотрим случай Q = Rn . Опишем область определения функции ψ. Если γ < 0, то для любого g 6= 0 можно взять yα = α g. Ясно, что для таких точек ϕ ( yα , g, γ) → ∞ при α → ∞. Таким образом, dom ψ содержит только такие точки, для которых γ ¾ 0. Если γ = 0, то единственное возможное значение g равно нулю, так как иначе функция ϕ ( y, g, 0) была бы неограничена. Наконец, если γ > 0, то точка, дающая минимум функции ϕ ( y, g, γ) по переменной y, равна y ∗ (g, γ) = 1/γ g. В этом случае получаем следующее выражение для ψ: ψ(g, γ) = k g k2 . 2γ Таким образом, ( ψ(g, γ) = 0, если g = 0, γ = 0, k g k2 , 2γ если γ > 0, с областью определения dom ψ = Rn × {γ > 0} ∪ (0, 0). Заметим, что эта область является выпуклой, но не замкнутой или открытой. Тем не менее, ψ есть замкнутая и выпуклая функция. В то же время эта функция разрывна в начале координат: p 1 ψ( γ g, γ) ≡ k g k2 , γ 6= 0. 2 ... Непрерывность и дифференцируемость В предыдущем пункте мы показали, что поведение выпуклых функций в граничных точках их областей определения может быть неудовлетворительным (см. примеры .. (), .. ()). Это, однако, единственный недостаток выпуклых функций. Продемонстрируем здесь, что структура выпуклых функций во внутренних точках их областей определения оказывается предельно простой. “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Лемма ... Пусть функция f выпукла и x0 ∈ int(dom f ). Тогда f ограничена сверху в окрестности точки x0 . Доказательство. Выберем такое ǫ > 0, что x0 ± ǫ ei ∈ int(dom f ), i = 1, …, n, где ei –– координатный вектор в Rn . Введем обозначение ∆ = Conv{x0 ± ǫ ei , i = 1, …, n}. p Покажем, что ∆ ⊃ B2 (x0 , ǭ ), где ǭ = ǫ/ n. Действительно, рассмотрим n n P P h i ei , (hi )2 ¶ ǭ . x = x0 + i =1 i =1 Можно предположить, что hi ¾ 0 (иначе в этом представлении можно выбрать −ei вместо ei ). Тогда β≡ n P hi ¶ n p P n (hi )2 ¶ ǫ . i =1 i =1 Поэтому для h̄i = (1/β )hi имеют место следующие соотношения: n P x = x0 + β h̄i ei = x0 + i =1 = β 1− ǫ x0 + n β P h̄ ǫ e = ǫ i =1 i i n β P h̄ (x + ǫ ei ) ∈ ∆. ǫ i =1 i 0 Таким образом, используя следствие .., получаем M ≡ max x ∈ B2 (x0 ,ǭ ) f (x) ¶ max f (x) ¶ max f (x0 ± ǫ ei ). x ∈∆ 1¶i ¶n Удивительно, что результат этой леммы обеспечивает непрерывность выпуклой функции внутри области определения. Теорема ... Пусть функция f выпукла и x0 ∈ int(dom f ). Тогда f локально липшицева в точке x0 . Доказательство. Пусть B2 (x0 , ǫ ) ⊆ dom f и sup{ f (x) | x ∈ B2 (x0 , ǫ )} не превосходит M (число M конечно в силу леммы ..). Рассмотрим y ∈ B2 (x0 , ǫ ), y 6= x0 . Введем обозначение 1 ǫ α = k y − x0 k, 1 α z = x0 + ( y − x0 ). “Nesterov-final” — // — : — page — # § .. Выпуклые функции общего вида Очевидно, что k z − x0 k = (1/α)k y − x0 k = ǫ . Поэтому α ¶ 1 и y = αz + + (1 − α)x0 . Отсюда следует, что f ( y) ¶ α f (z) + (1 − α) f (x0 ) ¶ f (x0 ) + α(M − f (x0 )) = = f (x0 ) + M − f (x0 ) k y − x0 k. ǫ Далее, пусть u = x0 + 1/α(x0 − y). Тогда k u − x0 k = ǫ и y = x0 + + α(x0 − u). Поэтому, принимая во внимание теорему .., получаем f ( y) ¾ f (x0 ) + α( f (x0 ) − f (u)) ¾ f (x0 ) − α(M − f (x0 )) = = f (x0 ) − M − f (x0 ) k y − x0 k. ǫ Таким образом, | f ( y) − f (x0 ) | ¶ M − f (x0 ) k y − x0 k. ǫ Покажем, что выпуклые функции обладают свойством, близким к дифференцируемости. Определение ... Пусть x ∈ dom f . Назовем функцию f дифференцируемой по направлению p в точке x, если существует следующий предел: 1 f (x + α p) − f (x) . (.) f ′ (x; p) = lim α↓0 α ′ Значение f (x; p) называется производной по направлению функции f в точке x. Теорема ... Выпуклая функция f дифференцируема по любому направлению внутри своей области определения. Доказательство. Пусть x ∈ int(dom f ). Рассмотрим функцию 1 ϕ (α) = f (x + α p) − f (x) , α > 0. α Выберем γ ∈ (0, 1] и α ∈ (0, ǫ ] достаточно малыми, чтобы выполнялось условие x + ǫ p ∈ dom f . Тогда f (x + αβ p) = f ((1 − β )x + β (x + α p)) ¶ (1 − β ) f (x) + β f (x + α p). Поэтому ϕ (αβ ) = 1 1 f (x + αβ p) − f (x0 ) ¶ f (x + α p) − f (x) = ϕ (α). αβ α “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Таким образом, ϕ (α) убывает при α ↓ 0. Выберем γ > 0 достаточно малым, чтобы выполнялось условие x − γ p ∈ dom f . Тогда из неравенства (.) следует, что 1 f (x) − f (x − γ p) . ϕ (α) ¾ γ Таким образом, предел в формуле (.) существует. Докажем, что для выпуклых функций производная по направлению является глобальной нижней аппроксмацией. Лемма ... Пусть функция f выпуклая и x ∈ int(dom f ). Тогда f ′ (x; p) –– выпуклая функция по p, которая является однородной степени 1. Для любого y ∈ dom f имеет место неравенство f ( y) ¾ f (x) + f ′ (x; y − x). (.) Доказательство. Покажем, что производная по направлению положительно однородна. Действительно, для p ∈ Rn и τ > 0 имеем 1 f ′ (x; τ p) = lim f (x + τα p) − f (x) = α↓0 α 1 f (x + β p) − f (x) = τ f ′ (x0 ; p). β β↓0 = τ lim Далее, для любых p1 , p2 ∈ Rn и β ∈ [0, 1] получаем 1 f ′ (x; β p1 + (1 − β )p2 ) = lim f (x + α(β p1 + (1 − β )p2 )) − f (x) ¶ α↓0 ¶ lim α↓0 α 1 β [ f (x + α p1 ) − f (x)]+ α + (1 − β )[ f (x + α p2 ) − f (x)] = =β f ′ (x; p1 ) + (1 − β ) f ′ (x; p2 ). Таким образом, функция f ′ (x; p) выпукла по p. Наконец, пусть α ∈ (0, 1], y ∈ dom f и yα = x + α( y − x). Тогда в силу теоремы .. выполняется неравенство 1 1 f ( y) = f ( yα + (1 − α)( yα − x)) ¾ f ( yα ) + (1 − α) f ( yα ) − f (x) , α α и мы получаем соотношение (.), перейдя к пределу при α ↓ 0. “Nesterov-final” — // — : — page — # § .. Выпуклые функции общего вида ... Теоремы отделимости До сих пор мы изучали свойства выпуклых функций, основываясь только на их значениях и при этом ничего не говоря о возможных направлениях убывания функции. Но такие направления могут оказаться полезными для построения алгоритмов минимизации. В выпуклом анализе они определяются посредством теорем отделимости, являющихся предметом изучения данного пункта. Определение ... Пусть Q –– выпуклое множество. Будем говорить, что гиперплоскость H (g, γ) = x ∈ Rn | 〈 g, x 〉 = γ , g 6= 0, является опорной для Q, если любая точка x ∈ Q удовлетворяет неравенству 〈 g, x 〉 ¶ γ. Будем также говорить, что гиперплоскость H (g, γ) отделяет точку x0 от множества Q, если 〈 g, x 〉 ¶ γ ¶ 〈 g, x0 〉 (.) при всех x ∈ Q. Если правое неравенство в формуле (.) строгое, то будем говорить о строгой отделимости. Теоремы отделимости можно вывести из свойств проекций. Определение ... Пусть Q –– замкнутое множество и x0 ∈ Rn . Введем обозначение πQ (x0 ) = arg min k x − x0 k : x ∈ Q . Назовем πQ (x0 ) проекцией точки x0 на множество Q. Теорема ... Если Q –– выпуклое множество, то существует проекция πQ (x0 ), причем единственная. Доказательство. В самом деле, πQ (x0 ) = arg min{ϕ (x) | x ∈ Q}, где 1,1 (Rn ). Поэтофункция ϕ (x) = 1/2k x − x0 k2 принадлежит классу S1,1 му проекция πQ (x0 ) единственна и корректно определена в силу теоремы ... Очевидно, что πQ (x0 ) = x0 тогда и только тогда, когда x0 ∈ Q. “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Лемма ... Пусть Q –– замкнутое выпуклое замкнутое множество и x0 ∈ / Q. Тогда для любого x ∈ Q выполняется неравенство πQ (x0 ) − x0 , x − πQ (x0 ) ¾ 0. (.) Доказательство. Заметим, что πQ (x0 ) есть решение задачи минимизации min ϕ (x) с функцией ϕ (x) = (1/2)k x − x0 k2 . Поэтому в силу x ∈Q теоремы .. имеет место неравенство ϕ ′ (πQ (x0 )), x − πQ (x0 ) ¾ 0 для всех x ∈ Q. Остается отметить, что ϕ ′ (x) = x − x0 . В заключение нам понадобится также обобщенное неравенства треугольника для проекций. Лемма ... Для любого x ∈ Q выполняется неравенство k x − πQ (x0 ) k2 + kπQ (x0 ) − x0 k2 ¶ k x − x0 k2 . Доказательство. Действительно, из неравенства (.) следует, что k x − πQ (x0 ) k2 − k x − x0 k2 = x0 − πQ (x0 ), 2x − πQ (x0 ) − x0 ¶ ¶ −k x0 − πQ (x0 ) k2 . Теперь можно перейти к доказательству теорем отделимости. Сформулируем две из них. Первая обеспечивает возможность строгой отделимости. Теорема ... Пусть Q является выпуклым замкнутым множеством и x0 ∈ / Q. Тогда найдется такая гиперплоскость H (g, γ), которая строго отделяет точку x0 от Q. А именно, можно взять g = x0 − πQ (x0 ) 6= 0, γ = x0 − πQ (x0 ), πQ (x0 ) . Доказательство. Действительно, из неравенства (.) вытекает, что для любого x ∈ Q выполняется неравенство x0 − πQ (x0 ), x ¶ x0 − πQ (x0 ), πQ (x0 ) = = x0 − πQ (x0 ), x0 − k x0 − πQ (x0 ) k2 . Приведем пример применения данной теоремы. “Nesterov-final” — // — : — page — # § .. Выпуклые функции общего вида Следствие ... Пусть Q1 и Q2 –– два выпуклых и замкнутых множества. . Если для любого g ∈ dom ψQ2 выполнено неравенство ψQ1 (g) ¶ ¶ ψQ2 (g), то Q1 ⊆ Q2 . . Пусть dom ψQ1 = dom ψQ2 и для любого g ∈ dom ψQ1 выполняется равенство ψQ1 (g) = ψQ2 (p). Тогда Q1 ≡ Q2 . Доказательство. . Предположим, что существует точка x0 ∈ Q1 , не принадлежащая множеству Q2 . Тогда в силу теоремы .. существует такое направление g, что 〈 g, x0 〉 > γ ¾ 〈 g, x 〉 при всех x ∈ Q2 . Отсюда следует, что g ∈ dom ψQ2 и ψQ1 (g) > ψQ2 (g). Получили противоречие. . Из первого пункта следует, что Q1 ⊆ Q2 и Q2 ⊆ Q1 . Поэтому Q1 ≡ Q2. Вторая теорема отделимости рассматривает граничные точки выпуклых множеств. Теорема ... Пусть Q –– выпуклое замкнутое множество, а точка x0 лежит на его границе. Тогда найдется гиперплоскость H (g, γ), опорная к Q и проходящая через x0 . (Вектор g при этом называется опорным к Q в точке x0 .) Доказательство. Рассмотрим такую последовательность { yk }, что yk ∈ / Q и yk → x0 . Обозначим gk = yk − πQ ( yk ) k yk − πQ ( yk ) k , γk = gk , πQ ( yk ) . В силу теоремы .. при всех x ∈ Q имеет место неравенство 〈 gk , x 〉 ¶ γk ¶ 〈 gk , yk 〉. (.) Однако k gk k = 1, и последовательность {γk } ограничена: |γk | = |〈 gk , πQ ( yk ) − x0 〉 + 〈 gk , x0 〉| ¶ ¶ kπQ ( yk ) − x0 k + k x0 k ¶ k yk − x0 k + k x0 k “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Первое неравенство следует из леммы ... Поэтому без потери общности можно предположить, что найдутся g∗ = limk→∞ gk и γ∗ = limk→∞ γk . Остается перейти к пределу в неравенстве (.). ... Субградиенты Теперь у нас есть все возможности для введения понятия обобщенного градиента. Определение ... Пусть f –– выпуклая функция. Вектор g называется субградиентом функции f в точке x0 ∈ dom f , если для любого x ∈ dom f выполняется неравенство f (x) ¾ f (x0 ) + 〈 g, x − x0 〉. (.) Множество ∂ f (x0 ) всех субградиентов для f в x0 называется субдифференциалом функции f в точке x0 . Необходимость введения понятия субдифференциала вытекает из следующего примера. Пример ... Рассмотрим функцию f (x) = | x |, x ∈ R. Для всех y ∈ R и g ∈ [−1, 1] имеет место неравенство f ( y) = | y | ¾ g · y = f (0) + g · ( y − 0). Поэтому субградиент для f в точке x = 0 не является единственным. В нашем примере он равен всему отрезку [−1, 1]. Все множество неравенств (.), x ∈ dom f , можно рассматривать как семейство линейных ограничений, определяющих множество ∂ f (x0 ). Поэтому по определению субдифференциал является выпуклым замкнутым множеством. Заметим, что субдифференцируемость функции подразумевает ее выпуклость. Лемма ... Пусть для любого x ∈ dom f субдифференциал ∂ f (x) непуст. Тогда f –– выпуклая функция. Доказательство. В самом деле, пусть x, y ∈ dom f , α ∈ [0, 1]. Рассмотрим yα = x + α( y − x). Пусть g ∈ ∂ f ( yα ). Тогда f ( y) ¾ f ( yα ) + 〈 g, y − yα 〉 = f ( yα ) + (1 − α)〈 g, y − x 〉, f (x) ¾ f ( yα ) + 〈 g, x − yα 〉 = f ( yα ) − α〈 g, y − x 〉. “Nesterov-final” — // — : — page — # § .. Выпуклые функции общего вида Складывая эти неравенства, умноженные на α и 1 − α соответственно, получим α f ( y) + (1 − α) f (x) ¾ f ( yα ). С другой стороны, можно доказать и обратное утверждение. Теорема ... Пусть функция f (x) выпукла и замкнута и x0 ∈ ∈ int(dom f ). Тогда ∂ f (x0 ) –– непустое ограниченное множество. Доказательство. Заметим, что точка ( f (x0 ), x0 ) принадлежит границе надграфика epi( f ). Значит, по теореме .. найдется гиперплоскость, опорная к epi( f ) в ( f (x0 ), x0 ): −ατ + 〈d, x 〉 ¶ −α f (x0 ) + 〈d, x0 〉 (.) k d k2 + α2 = 1. (.) при всех (τ, x) ∈ epi( f ). Отметим, что можно взять Так как при всех τ ¾ f (x0 ) точка (τ, x0 ) принадлежит epi( f ), мы заключаем, что α ¾ 0. Вспомним, что выпуклая функция является локально ограниченной сверху внутри своей области определения (лемма ..). Это означает, что найдутся такие ǫ > 0 и M > 0, что B2 (x0 , ǫ ) ⊆ dom f и f (x) − f (x0 ) ¶ M k x − x0 k при всех x ∈ B2 (x0 , ǫ ). Поэтому из неравенства (.) следует, что для любого x ∈ B2 (x0 , ǫ ) выполняются неравенства 〈d, x − x0 〉 ¶ α( f (x) − f (x0 )) ¶ α M k x − x0 k. Выбирая x = x0 + ǫ d, получаем k d k2 ¶ M αk d k. Таким образом, из условия нормировки (.) следует, что α¾ p 1 1 + M2 . Отсюда, выбирая g = d /α, получаем f (x) ¾ f (x0 ) + 〈 g, x − x0 〉 при всех x ∈ dom f . В заключение, если g ∈ ∂ f (x0 ), g 6= 0, то, выбирая x = x0 + ǫ g/k g k, получим ǫk g k = 〈 g, x − x0 〉 ¶ f (x) − f (x0 ) ¶ M k x − x0 k = M ǫ . “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Значит, ∂ f (x0 ) –– ограниченное множество. Покажем, что условие этой теоремы нельзя ослабить. p Пример ... Рассмотрим функцию f (x) = − x на множестве {x ∈ R | x ¾ 0}. Эта функция выпукла и замкнута, но ее субдифференциал в точке x = 0 не существует. Установим важную взаимосвязь между субдифференциалом выпуклой функции и производной по направлению. Теорема ... Пусть f –– выпуклая замкнутая функция. Тогда для любых x0 ∈ int(dom f ) и p ∈ Rn имеет место равенство f ′ (x0 ; p) = max 〈 g, p 〉 | g ∈ ∂ f (x0 ) . Доказательство. Заметим, что 1 f ′ (x0 ; p) = lim f (x0 + α p) − f (x0 ) ¾ 〈 g, p 〉, α↓0 α (.) где g –– произвольный вектор из ∂ f (x0 ). Поэтому субдифференциал функции f ′ (x0 ; p) в точке p = 0 является непустым и ∂ f (x0 ) ⊆ ⊆ ∂ p f ′ (x0 ; 0). С другой стороны, поскольку производная f ′ (x0 ; p) выпукла по p, из леммы .. следует, что для любого y ∈ dom f выполняются неравенства f ( y) ¾ f (x0 ) + f ′ (x0 ; y − x0 ) ¾ f (x0 ) + 〈 g, y − x0 〉, где g ∈ ∂ p f ′ (x0 ; 0). Таким образом, ∂ p f ′ (x0 ; 0) ⊆ ∂ f (x0 ), и, значит, ∂ f (x0 ) ≡ ∂ p f ′ (x0 ; 0). Рассмотрим g p ∈ ∂ p f ′ (x0 ; p). В силу неравенства (.) для любых υ ∈ Rn и τ > 0 имеем τ f ′ (x0 ; υ) = f ′ (x0 ; τυ) ¾ f ′ (x0 ; p) + 〈 g p , τυ − p 〉. Переходя к пределу при τ → ∞, заключаем, что f ′ (x0 ; υ) ¾ 〈 g p , υ〉, (.) а переходя к пределу при τ → 0, получаем f ′ (x0 ; p) − 〈 g p , p 〉 ¶ 0. (.) ′ Однако неравенство (.) подразумевает, что g p ∈ ∂ p f (x0 ; 0). Поэтому, сравнивая неравенства (.) и (.), делаем вывод, что 〈 g p , p 〉 = f ′ (x0 ; p). “Nesterov-final” — // — : — page — # § .. Выпуклые функции общего вида В заключение этого пункта отметим несколько свойств субградиентов, чрезвычайно важных в теории оптимизации. Начнем с условия оптимальности. Теорема ... Равенство f (x ∗ ) = min x ∈dom f f (x) имеет место тогда и только тогда, когда 0 ∈ ∂ f (x ∗ ). Доказательство. Действительно, если 0 ∈ ∂ f (x ∗ ), то f (x) ¾ f (x ∗ ) + + 〈0, x − x ∗ 〉 = f (x ∗ ) для всех x ∈ dom f . С другой стороны, если f (x) ¾ f (x ∗ ) при всех x ∈ dom f , то 0 ∈ ∂ f (x ∗ ), как следует из определения ... Следующий результат закладывает основу для построения методов отсекающей гиперплоскости. Теорема ... Для любого x0 ∈ dom f все векторы g ∈ ∂ f (x0 ) являются опорными к множеству уровней L f ( f (x0 )): 〈 g, x0 − x 〉 ¾ 0 ∀ x ∈ L f ( f (x0 )) ≡ x ∈ dom f | f (x) ¶ f (x0 ) . Доказательство. В самом деле, если f (x) ¶ f (x0 ) и g ∈ ∂ f (x0 ), то f (x0 ) + 〈 g, x − x0 〉 ¶ f (x) ¶ f (x0 ). Следствие ... Пусть Q ⊆ dom f –– выпуклое и замкнутое множество, x0 ∈ Q и x ∗ = arg min f (x) | x ∈ Q . Тогда для любого g ∈ ∂ f (x0 ) имеет место неравенство 〈 g, x0 − x ∗ 〉 ¾ 0. ... Вычисление субградиентов Введенные в предыдущем пункте субградиенты будут в дальнейшем использоваться при построении схем минимизации. Однако для применения этих схем на практике необходимо быть уверенным, что субградиенты могут быть эффективно вычислены. Приведем здесь некоторые правила таких вычислений. Лемма ... Пусть функция f выпукла и замкнута. Предположим, что она дифференцируема на всей своей области определения. Тогда ∂ f (x) = { f ′ (x)} для всех x ∈ int(dom f ). “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Доказательство. Зафиксируем некоторую точку x ∈ int(dom f ). По теореме .. для любого направления p ∈ Rn и любого g ∈ ∂ f (x) имеем f ′ (x), p = f ′ (x; p) ¾ 〈 g, p 〉. Меняя знак p, получаем, что 〈 f ′ (x), p 〉 = 〈 g, p 〉 при всех g ∈ ∂ f (x). Наконец, рассматривая p = ek , k = 1, …, n, получаем g = f ′ (x). Рассмотрим операции с выпуклыми функциями, описанные в п. ... Покажем, как при этом меняется субградиент. Лемма ... Пусть функция f ( y) выпукла и замкнута на dom f ⊆ ⊆ Rm . Рассмотрим линейный оператор A (x) = Ax + b: Rn → Rm . Функция ϕ (x) = f (A (x)) также будет выпуклой и замкнутой с областью определения dom ϕ = {x | A (x) ∈ dom f }. При этом для любого x ∈ int(dom ϕ ) выполняется неравенство ∂ϕ (x) = AT ∂ f (A (x)). Доказательство. Мы уже доказали первую часть этой леммы в теореме ... Обоснуем теперь формулу для субдифференциала. Действительно, пусть y0 = A (x0 ). Тогда для всех p ∈ Rn имеет место равенство ϕ ′ (x0 , p) = f ′ ( y0 ; Ap) = max 〈 g, Ap 〉 | g ∈ ∂ f ( y0 ) = = max 〈 ḡ, p 〉 | ḡ ∈ AT ∂ f ( y0 ) . Используя теорему .. и следствие .., получаем ∂ϕ (x0) = AT ∂ f (A (x0 )). Лемма ... Пусть f1 (x) и f2 (x) –– выпуклые замкнутые функции и α1 , α2 ¾ 0. Тогда функция f (x) = α1 f1 (x) + α2 f2 (x) является выпуклой и замкнутой и ∂ f (x) = α1 ∂ f1 (x) + α2 ∂ f2 (x) для любого x ∈ int(dom f ) = int(dom f1 ) ∩ int(dom f2 ). (.) “Nesterov-final” — // — : — page — # § .. Выпуклые функции общего вида Доказательство. В силу теоремы .. нам нужно доказать только соотношение для субдифференциалов. Рассмотрим x0 ∈ int(dom f1 ) ∩ ∩ int(dom f2 ). Тогда для любого p ∈ Rn имеем f ′ (x0 ; p) =α1 f1′ (x0 ; p) + α2 f2′ (x0 ; p) = = max 〈 g1 , α1 p 〉 | g1 ∈ ∂ f1 (x0 ) + + max 〈 g2 , α2 p 〉 | g2 ∈ ∂ f2 (x0 ) = = max 〈α1 g1 + α2 g2 , p 〉 | g1 ∈ ∂ f1 (x0 ), g2 ∈ ∂ f2 (x0 ) = = max 〈 g, p 〉 | g ∈ α1 ∂ f1 (x0 ) + α2 ∂ f2 (x0 ) . Заметим, что оба множества ∂ f1 (x0 ) и ∂ f1 (x0 ) ограничены. Отсюда, используя теорему .. и следствие .., получаем соотношение (.). Лемма ... Пусть функции fi (x), i = 1, …, m, выпуклые и замкнутые. Тогда функция f (x) = max1¶i¶m fi (x) также Tm является выпуклой и замкнутой. Для любого x ∈ int(dom f ) = i=1 int(dom fi ) имеет место равенство ∂ f (x) = Conv ∂ fi (x) | i ∈ I(x) , (.) где I(x) = {i | fi (x) = f (x)}. Доказательство. Как и раньше, в силу теоремы .. нам остается только Tm получить выражение для субдифференциалов. Рассмотрим x ∈ i=1 int(dom fi ). Пусть I(x) = {1, …, k}. Тогда для любого p ∈ Rn имеет место соотношение f ′ (x; p) = max fi′ (x; p) = max max 〈 gi , p 〉 | gi ∈ ∂ fi (x) . 1¶i ¶k 1¶i ¶k Заметим, что для любого множества значений a1 , …, ak выполнено равенство ª §P k max ai = max λi ai | {λi } ∈ ∆k , 1¶i ¶k i =1 “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Pk где ∆k = λi ¾ 0, i=1 λi = 1 –– k-мерный симплекс. Поэтому f ′ (x; p) = max {λi }∈∆k = max §P k i =1 §­ P k i =1 ª λi max 〈 gi , p 〉 | gi ∈ ∂ fi (x) = · ª λi gi , p | gi ∈ ∂ fi (x), {λi } ∈ ∆k = § = max 〈 g, p 〉 | g = k P i =1 ª λi gi , gi ∈ ∂ fi (x), {λi } ∈ ∆k = = max 〈 g, p 〉 | g ∈ Conv{∂ fi (x), i ∈ I(x)} . Последнее утверждение полезно в тех случаях, когда нам достаточно вычислить лишь один элемент субдифференциала выпуклой функции. Лемма ... f (x) = sup{ϕ ( y, x) | y ∈ ∆}, где ∆ –– некоторое множество. Предположим, что для любого фиксированного y ∈ ∆ функция ϕ ( y, x) выпукла и замкнута по x. Тогда функция f (x) является замкнутой и выпуклой. Кроме того, для любого x из множества dom f = x ∈ Rn | ∃γ : ϕ ( y, x) ¶ γ∀ y ∈ ∆ выполнено включение ∂ f (x) ⊇ Conv ∂ϕ x ( y, x) | y ∈ I(x) , где I(x) = { y | ϕ ( y, x) = f (x)}. Доказательство. Из теоремы .. следует, что необходимо установить только последнее включение. Итак, для любых x ∈ dom f , y ∈ I(x) и g ∈ ∂ϕ x ( y, x) имеет место цепочка неравенств f (x) ¾ ϕ ( y, x) ¾ ϕ ( y, x0 ) + 〈 g, x − x0 〉 = f (x0 ) + 〈 g, x − x0 〉. Приведем несколько примеров субдифференциалов. Пример ... . Пусть f (x) = | x | , x ∈ R. Тогда ∂ f (0) = [−1, 1], поскольку f (x) = max g · x. −1¶ g¶1 “Nesterov-final” — // — : — page — # § .. Выпуклые функции общего вида Pm . Рассмотрим функцию f (x) = i=1 |〈ai , x 〉 − bi |. Введем обозначения I− (x) = {i | 〈ai , x 〉 − bi < 0}, I+ (x) = {i | 〈ai , x 〉 − bi > 0}, I0 (x) = {i | 〈ai , x 〉 − bi = 0}. P P P Тогда ∂ f (x) = ai − ai + [−ai , ai ]. i ∈ I+ (x) i ∈ I− (x) i ∈ I0 (x) . Рассмотрим функцию f (x) = max1¶i¶n x (i) . Пусть I(x) = {i : x (i) = = f (x)}. Тогда ∂ f (x) = Conv{ei | i ∈ I(x)}. Для x = 0 получаем ∂ f (0) = Conv ei | 1 ¶ i ¶ n ≡ ∆n . . Для евклидовой нормы f (x) = k x k имеют место равенства ∂ f (0) = B2 (0, 1) = x ∈ Rn | k x k ¶ 1 , ∂ f (x) = x /k x k , x 6= 0. Pn . Для l1 -нормы f (x) = k x k1 = i=1 | x (i) | получаем ∂ f (0) = B∞ (0, 1) = x ∈ Rn | max | x (i) | ¶ 1 , 1¶i ¶n P P P ∂ f (x) = ei − ei + [−ei , ei ], x 6= 0, i ∈ I+ (x) i ∈ I− (x) i ∈ I0 (x) где I+ (x) = {i | x (i) > 0}, I− (x) = {i | x (i) < 0} и I0 (x) = {i | x (i) = 0}. Проверку данных представлений мы оставляем читателю в качестве упражнения. В заключение этого параграфа приведем пример применения изложенной техники для вывода условия оптимальности гладкой задачи минимизации с функциональными ограничениями. Теорема ... (Теорема Куна––Таккера). Пусть fi (x) –– дифференцируемые выпуклые функции, i = 0, …, m. Предположим, что найдется такая точка x̄, что fi ( x̄) < 0 при всех i = 1, …, m (условие Слэйтера). Точка x ∗ является решением задачи min f0 (x) | fi (x) ¶ 0, i = 1, …, m (.) “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация тогда и только тогда, когда она удовлетворяет приведенным выше ограничениям и найдутся такие неотрицательные числа λi , i = 1, …, m, что P f0′ (x ∗ ) + λi fi′ (x ∗ ) = 0, i∈I ∗ ∗ ∗ где I = {i ∈ [1, m] : fi (x ) = 0}. Доказательство. В силу леммы .. точка x ∗ доставляет решение задачи (.) тогда и только тогда, когда она является точкой глобального минимума функции ϕ (x) = max f0 (x) − f ∗ ; fi (x), i = 1, …, m . Ввиду теоремы .. это имеет место в том и только в том случае, если 0 ∈ ∂ϕ (x ∗). Далее, по лемме .. это верно тогда и только тогда, когда существуют такие неотрицательные числа λ̄i , что P P λ̄i fi′ (x ∗ ) = 0, λ̄0 + λ̄i = 1. λ̄0 f0′ (x ∗ ) + i∈I ∗ i∈I ∗ Таким образом, осталось доказать, что λ̄0 > 0. Действительно, если λ̄0 = 0, то P P λ̄i fi ( x̄) ¾ λ̄i fi (x ∗ ) + 〈 fi′ (x ∗ ), x̄ − x ∗ 〉 = 0, i∈I ∗ i∈I ∗ что противоречит условию Слэйтера. Поэтому λ̄0 > 0, и можно взять λi = λ̄i /λ̄0 , i ∈ I ∗ . Теорема .. часто применяется при решении простых задач оптимизации. Лемма ... Пусть A ≻ 0. Тогда max 〈c, x 〉 : 〈 Ax, x 〉 ¶ 1 = 〈 A−1 c, c〉1/2 . x Доказательство. Заметим, что все условия теоремы .. выполнены и решение x ∗ рассматриваемой задачи достигается на границе допустимого множества. Поэтому в соответствии с теоремой .. нужно решить следующие уравнения: c = λ Ax ∗ , 〈 Ax ∗ , x ∗ 〉 = 1. Таким образом, λ = 〈 A−1 c, c〉1/2 , и x ∗ = (1/λ)A−1 c. “Nesterov-final” — // — : — page — # § .. Методы негладкой минимизации § .. Методы негладкой минимизации Нижние границы сложности для общего случая. Основная лемма. Локализующие множества. Субградиентный метод. Схема условной минимизации. Оптимизация в конечномерном случае и нижние границы аналитической сложности. Схема отсекающей гиперплоскости. Метод центра тяжести. Метод эллипсоидов. Другие методы. ... Нижние границы сложности для общего случая В предыдущем параграфе мы ввели в рассмотрение класс выпуклых функций общего вида. Эти функции могут быть негладкими, изза чего решение соответствующих задач минимизации существенно усложняется. Попытаемся, как и для гладких задач, получить нижние границы аналитической сложности для этого более общего случая, что даст нам возможность правильно оценивать эффективность различных методов негладкой минимизации. Получим нижние границы сложности для следующей задачи безусловной минимизации: minn f (x), (.) x ∈R где f –– выпуклая функция. Итак, рассматриваемый нами класс задач выглядит следующим образом. Модель: . Безусловная минимизация. . Функция f выпукла на Rn и липшицева на неком ограниченном множестве. (.) Оракул: Черный ящик первого порядка: в каждой точке x̂ можно вычислить f ( x̂), g( x̂) ∈ ∂ f ( x̂), g( x̂) есть произвольный субградиент. Приближенное решение: Найти x̄ ∈ Rn | f ( x̄) − f ∗ ¶ ǫ . Методы: Формируют последовательность {xk }: xk ∈ x0 + Lin{g(x0 ), …, g(xk−1)}. По аналогии с п. .., для вывода нижней границы сложности рассматриваемого класса задач изучим поведение численных методов на примере некоторых плохих функций. “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Зафиксируем две константы µ > 0 и γ > 0. Рассмотрим семейство функций µ 2 fk (x) = γ max x (i) + k x k2 , 1¶i ¶k k = 1, …, n. Используя правила вычисления субградиентов, описанные в п. .., можно получить выражение для субдифференциала функции fk в точке x: ∂ fk (x) = µ x + γ Conv ei | i ∈ I(x) , n o I(x) = j | 1 ¶ j ¶ k, x ( j) = max x (i) . 1¶i ¶k Таким образом, для любых x, y ∈ B2 (0, ρ ), ρ > 0 и gk ( y) ∈ ∂ fk ( y) имеем fk ( y) − fk (x) ¶ 〈 gk ( y), y − x 〉 ¶ ¶ k gk ( y) k · k y − x k ¶ (µρ + γ)k y − x k. Поэтому fk липшицева на B2 (0, ρ ) с константой Липшица M = µρ + γ. Далее, рассмотрим точку xk∗ с координатами ¨ (xk∗ )(i) = − 0, γ , µk 1 ¶ i ¶ k, k + 1 ¶ i ¶ n. Легко проверить, что 0 ∈ ∂ fk (xk∗ ). Поэтому xk∗ есть минимум функции fk (x) (см. теорему ..). Заметим, что γ Rk ≡ k xk∗ k = p , µ k fk∗ = − γ2 µ γ2 + R2k = − . 2 µk 2µ k Опишем теперь сопротивляющийся оракул для функции fk (x). Поскольку аналитическая форма этой функции зафиксирована, сопротивление оракула может состоять только в предоставлении наихудшего из возможных субградиентов в каждой пробной точке. Алгоритмическая схема такого оракула выглядит следующим образом. “Nesterov-final” — // — : — page — # § .. Методы негладкой минимизации Вход: x ∈ Rn . Ядро: f := −∞; i ∗ := 0; for j := 1 to k do if x ( j) > f then { f := x ( j) ; i ∗ := j}; µ 2 f := γ f + k x k2 ; Выход: fk (x) := f , g := γei∗ + µ x; gk (x) := g ∈ Rn . На первый взгляд в приведенной схеме нет ничего специфического. Ядро оракула представляет собой стандартную процедуру поиска максимальной координаты вектора из Rn . Однако очень важно, что субградиент в этом оракуле всегда формируется как координатный вектор. Кроме того, его ненулевая координата соответствует i ∗ –– минимально возможному номеру максимальной компоненты вектора x (их может быть несколько). Посмотрим, как может выглядеть минимизирующая последовательность, построенная с помощью такого оракула. Выберем начальную точку x0 = 0. Введем обозначение R p,n = x ∈ Rn | x (i) = 0, p + 1 ¶ i ¶ n . Так как x0 = 0, ответ оракула будет fk (x0 ) = 0 и gk (x0 ) = γe1 . Поэтому следующая точка последовательности –– точка x1 –– с необходимостью принадлежит R1,n . Предположим теперь, что текущая точка последовательности xi принадлежит R p,n , 1 ¶ p ¶ k. Тогда оракул даст субградиент g = µ x i + γei ∗ , где i ∗ ¶ p + 1. Поэтому следующая точка последовательности xi+1 лежит в R p+1,n . Это простое рассуждение показывает, что при всех i, 1 ¶ i ¶ k, мы получаем xi ∈ Ri,n . Следовательно, для i, 1 ¶ i ¶ k − 1, мы не сможем улучшить начальное значение целевой функции: ( j) fk (xi ) ¾ γ max xi = 0. 1¶ j ¶k Переведем все вышесказанное в термины нижней границы аналитической сложности. Зафиксируем параметры R > 0 и M > 0 нашего класса задач P (x0 , R, M). В дополнение к (.) предположим, что “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация ◦ решение x ∗ задачи (.) существует, и x ∗ ∈ B2 (x0 , R). ◦ f –– липшицева функция на B2 (x0 , R) с константой M > 0. Теорема ... В любом классе P (x0 , R, M) и для любого k, 0 ¶ k ¶ ¶ n − 1, найдется такая функция f ∈ P (x0 , R, M), что f (xk ) − f ∗ ¾ MR p 2(1 + k + 1) для любой схемы оптимизации, которая генерирует последовательность {xk }, удовлетворяющую условию xk ∈ x0 + Lin g(x0 ), …, g(xk−1 ) . Доказательство. Без потери общности можно предположить что x0 = 0. Выберем f (x) = fk+1 (x), γ= p k + 1M p , 1+ k+1 µ= (1 + M p . k + 1)R Тогда γ2 MR =− p , 2µ(k + 1) 2(1 + k + 1) γ k x 0 − x ∗ k = R k +1 = p =R µ k+1 f ∗ = fk∗+1 = − и f (x) –– липшицева функция на B2 (x0 , R) с постоянной µR + γ = M. Заметим, что xk ∈ Rk,n . Отсюда следует, что f (xk ) − f ∗ ¾ − f ∗ . Нижняя граница сложности, представленная в теореме .., является равномерной по размерности пространства переменных. Как и нижняя граница в теореме .., она дает нам полезную информацию о задачах очень высокой размерности и о возможной эффективности начальных итераций методов минимизации (k ¶ n − 1). Позже мы увидим, что полученная нижняя граница является точной, т. е. существуют методы минимизации, скорость сходимости которых пропорциональна этой границе. Сравнивая ее с нижней границей сложности для гладких задач, можно заметить, что теперь неулучшаемая скорость сходимости стала гораздо медленнее. Однако надо помнить, что мы рассматриваем теперь наиболее общий и сложный класс задач выпуклой оптимизации. “Nesterov-final” — // — : — page — # § .. Методы негладкой минимизации ... Основная лемма Рассмотрим следующую задачу минимизации: min f (x) | x ∈ Q , (.) где Q –– выпуклое замкнутое множество, а f –– выпуклая на Rn функция. Изучим поведение некоторых методов решения задачи (.), использующих субградиенты g(x) исходной целевой функции. По сравнению с гладким случаем, решение задачи (.) представляется гораздо более трудным. Действительно, даже в простейшей ситуации, когда Q ≡ Rn , субградиент является плохой заменой градиента гладкой функции. Например, нельзя быть уверенным, что значение целевой функции будет убывать в направлении − g(x). Нельзя также ожидать, что g(x) → 0 при x, стремящемся к решению исходной задачи, и т. д. С другой стороны, субградиенты обладают одним очень полезным свойством, которое позволяет спасти ситуацию. Мы доказали это свойство в следствии ..: в любой точке x ∈ Q выполнено неравенство 〈 g(x), x − x ∗ 〉 ¾ 0. (.) Это простое неравенство приводит к двум следствиям, которые лежат в основе любого метода негладкой минимизации. А именно, ◦ расстояние между x и x ∗ убывает в направлении − g(x); ◦ неравенство (.) разделяет Rn на два полупространства, причем известно, какое из них содержит x ∗ . В методах негладкой минимизации не удается использовать принципы релаксации и аппроксимации. Здесь применяется другая техника, основанная на локализации решения. Однако для ее использования нам необходимо разработать специальный аппарат, позволяющий оценивать качество приближенного решения задачи (.). Этому и будет посвящен настоящий пункт. Зафиксируем некоторую точку x̄ ∈ Rn . Для x ∈ Rn , g(x) 6= 0, определим 1 υ f ( x̄, x) = 〈 g(x), x − x̄ 〉. k g(x) k При g(x) = 0 положим υ f ( x̄; x) = 0. Очевидно, что υ f ( x̄, x) ¶ k x − x̄ k. “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Значения υ f ( x̄, x) имеют естественную геометрическую интерпретацию. Рассмотрим такую точку x, что g(x) 6= 0 и 〈 g(x), x − x̄ 〉 ¾ 0. Пусть y = x̄ + υ f (x)g(x)/k g(x) k. Тогда 〈 g(x), x − y 〉 = 〈 g(x), x − x̄ 〉 − υ f ( x̄, x)k g(x) k = 0 и k y − x̄ k = υ f ( x̄, x). Таким образом, υ f ( x̄, x) есть расстояние от точки x̄ до гиперплоскости { y : 〈 g(x), x − y 〉 = 0}. Введем в рассмотрение функцию, измеряющую отклонение значений функции f от ее значения в точке x̄. Для t ¾ 0 определим ω f ( x̄; t) = max f (x) − f ( x̄) | k x − x̄ k ¶ t . Если t < 0, то будем считать что ω f ( x̄; t) = 0. Очевидно, что функция ω f обладает следующими свойствами: ◦ ω f ( x̄; 0) = 0 при всех t ¶ 0; ◦ ω f ( x̄; t) –– неубывающая функция от t ∈ R; ◦ f (x) − f ( x̄) ¶ ω f ( x̄; k x − x̄ k). Важно, что в выпуклом случае последнее неравенство можно усилить. Лемма ... Для любого x ∈ Rn имеет место неравенство f (x) − f ( x̄) ¶ ω f ( x̄; υ f ( x̄; x)). (.) Если функция f (x) липшицева на B2 ( x̄, R) с некоторой константой M, то f (x) − f ( x̄) ¶ M(υ f ( x̄; x))+ (.) при всех x ∈ Rn , υ f ( x̄; x) ¶ R. Доказательство. Если 〈 g(x), x − x̄ 〉 ¶ 0, то f ( x̄) ¾ f (x) + 〈 g(x), x̄ − x 〉 ¾ f (x). Это означает, что υ f ( x̄; x) ¶ 0. Отсюда следует, что ω f ( x̄; υ f ( x̄; x)) = 0, и неравенство (.) верно. Пусть 〈 g(x), x − x̄ 〉 > 0. Для y = x̄ + υ f ( x̄; x)g(x) k g(x) k имеем 〈 g(x), y − x̄ 〉 = 0 и k y − x̄ k = υ f ( x̄; x). Поэтому f ( y) ¾ f (x) + 〈 g(x), y − x 〉 = f (x) “Nesterov-final” — // — : — page — # § .. Методы негладкой минимизации и f (x) − f ( x̄) ¶ f ( y) − f ( x̄) ¶ ω f ( x̄; k y − x̄ k) = ω f ( x̄; υ f ( x̄; x)). Если функция f липшицева на B2 ( x̄, R) и 0 ¶ υ f ( x̄; x) ¶ R, то y ∈ ∈ B2 ( x̄, R). Значит, f (x) − f ( x̄) ¶ f ( y) − f ( x̄) ¶ M k y − x̄ k = M υ f ( x̄; x). Зафиксируем некоторую точку x ∗ , являющуюся решением задачи (.). Значения υ f (x ∗ ; x) позволяют оценить качество множеств локализации. Определение ... Пусть {xi }∞ i =0 –– последовательность точек из Q. Определим Sk = x ∈ Q | 〈 g(xi ), xi − x 〉 ¾ 0, i = 0, …, k . Будем называть эту область множеством локализации задачи (.), порожденной последовательностью {xi }∞ i =0 . Заметим, что из неравенства (.) следует, что x ∗ ∈ Sk при всех k ¾ 0. Введем обозначение υi = υ f (x ∗ ; xi ) (¾ 0), υ∗k = min υi . 0¶i ¶k Таким образом, υ∗k = max r | 〈 g(xi ), xi − x 〉 ¾ 0, i = 0, …, k, ∀ x ∈ B2 (x ∗ , r) . Лемма ... Пусть fk∗ = min f (xi ). Тогда fk∗ − f ∗ ¶ ω f (x ∗ ; υ∗k ). 0¶i ¶k Доказательство. Используя лемму .., получаем ω f (x ∗ ; υ∗k ) = min ω f (x ∗ ; υi ) ¾ min f (xi ) − f ∗ = fk∗ − f ∗ . 0¶i ¶k 0¶i ¶k ... Субградиентный метод Теперь мы можем оценить эффективность некоторых схем минимизации. Рассмотрим задачу min f (x) | x ∈ Q , (.) где функция f выпукла на Rn , а Q –– простое выпуклое и замкнутое множество. Под «простым» мы подразумеваем множество, на котором мы можем в явном виде решить некоторые вспомогательные “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация задачи минимизации. В соответствии с целями данного пункта, нам нужно уметь находить евклидову проекцию любой точки на множество Q. Предположим, что задача (.) снабжена оракулом первого порядка, который в каждой точке x̄ дает значение целевой функции f ( x̄) и один из возможных ее субградиентов g( x̄). Как обычно, для решения задачи (.) в первую очередь надо попробовать одну из версий градиентного метода. Отметим только, что для негладких задач норма субградиента k g(x) k представляется не очень информативной. Поэтому в субградиентном методе мы используем нормированное направление g(x)/k g(x) k. Субградиентный метод на простых множествах (.) . Выберем x0 ∈ Q и последовательность шагов {hk }∞ : k =0 ∞ P hk = ∞. hk > 0, hk → 0, k =0 . k-я итерация (k ¾ 0). Вычислим f (xk ), g(xk ) и положим g(xk ) x k +1 = π Q x k − h k . k g(xk ) k Оценим скорость сходимости этой схемы. Теорема ... Пусть функция f липшицева на B2 (x ∗ , R) с константой M и x0 ∈ B(x ∗ , R). Тогда R2 + fk∗ i =0 ∗ − f ¶M k P 2 k P h2i . (.) hi i =0 Доказательство. Введем обозначение ri = k xi − x ∗ k. Тогда в силу леммы .. имеем g(xi ) 2 ri2+1 = πQ xi − hi − x∗ ¶ k g(xi ) k g(xi ) ¶ xi − hi − x∗ k g(xi ) k 2 = ri2 − 2hi υi + h2i . “Nesterov-final” — // — : — page — # § .. Методы негладкой минимизации Суммируя эти неравенства по i = 0, …, k, получим r02 + k P i =0 h2i = 2 k P i =0 hi υi + rk2+1 ¾ 2υ∗k k P hi . i =0 Отсюда следует, что k P R2 + i =0 υ∗k ¶ 2 k P h2i . hi i =0 Остается применить лемму ... Таким образом, теорема .. показывает, что скорость сходимости субградиентного метода(.) зависит от значений R2 + k P i =0 ∆k = 2 k P h2i . hi i =0 P∞ Можно легко увидеть, что ∆k → 0, если hk → 0 и ряд i=0 hi расходится. Однако давайте попытаемся выбрать hk оптимальным способом. Предположим, что нам необходимо выполнить фиксированное количество шагов субградиентного метода, скажем N. Тогда, минимизируя ∆k как функцию от {hk }kN=0 , получаем следующую оптимальную стратегию : hi = p R , N +1 i = 0, …, N. (.) R В этом случае ∆N = p , и мы получаем следующую скорость схоN +1 димости: fk∗ − f ∗ ¶ p MR . N +1 Сравнивая этот результат с нижней границей из теоремы .., приходим к следующему выводу: Из примера .. () можно увидеть, что ∆k –– выпуклая функция от {hi }. “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Субградиентный метод (.), (.) является оптимальным методом решения задачи (.) равномерно по размерности n. Если у нас нет желания априори фиксировать число итераций, то можно выбрать r hi = p , i = 0, … i+1 Тогда легко увидеть, что функция ∆k пропорциональна R2 + r ln(k + 1) , p 2r k + 1 и можно классифицировать скорость сходимости рассматриваемой схемы как субоптимальную. Итак, простейший метод решения нашей задачи оказывается оптимальным. Как правило, это указывает то, что задачи рассматриваемого класса слишком сложны, чтобы их эффективно решать. Однако надо помнить, что наше утверждение о скорости сходимости верно равномерно по размерности пространства переменных. В дальнейшем мы увидим, что для задач умеренной размерности можно разработать и более эффективные схемы. ... Минимизация при функциональных ограничениях Покажем, как можно применить субградиентный метод к задаче условной минимизации при функциональных ограничениях. Рассмотрим задачу min{ f (x) | x ∈ Q, f j (x) ¶ 0, i = 1, …, m}, (.) где f и f j выпуклые функции, а Q –– простое ограниченное выпуклое и замкнутое допустимое множество: kx − yk ¶ R ∀ x, y ∈ Q. Сформируем агрегированное ограничение f¯(x) = max1¶ j ¶m f j (x) +. Тогда исходная задача перепишется в виде min f (x) | x ∈ Q, f¯(x) ¶ 0 . (.) “Nesterov-final” — // — : — page — # § .. Методы негладкой минимизации Если мы умеем вычислять субградиенты функций f j , то нетрудно вычислить и субградиент ḡ(x) функции f¯ (см. лемму ..). Зафиксируем некоторое решение x ∗ задачи (.). Тогда f¯(x ∗ ) = 0 и υ f¯(x ∗ ; x) ¾ 0 при всех x ∈ Rn . Поэтому в силу леммы .. получаем f¯(x) ¶ ω ¯(x ∗ ; υ ¯(x ∗ ; x)). f f Если все функции f j липшицевы на Q с константой M, то для любого x ∈ Rn имеем f¯(x) ¶ M · υ f¯(x ∗ ; x). Запишем субградиентную схему минимизации для задачи (.). Полагаем при этом параметр R известным. Субградиентный метод: функциональные ограничения (.) . Выберем x0 ∈ Q и последовательность {hk }∞ k =0 : hk = p R k + 0,5 . . k-я итерация (k ¾ 0). a) Вычислим f (xk ), g(xk ), f¯(xk ), ḡ(xk ) и положим ¨ g(xk ), если f¯(xk ) < k ḡ(xk ) khk , (A), pk = ḡ(xk ), если f¯(xk ) ¾ k ḡ(xk ) khk . (B). p б) Положим xk+1 = πQ xk − hk k . k pk k Теорема ... Пусть функция f липшицева на B2 (x ∗ , R) с константой M1 и M2 = max k g k : g ∈ ∂ f j (x), x ∈ B2 (x ∗ , R) . 1¶ j ¶m Тогда для любого k ¾ 3 найдется такой номер i ′ , 0 ¶ i ′ ¶ k, что p 3M1 R f (xi′ ) − f ¶ p , k − 1, 5 ∗ p 3M2 R f¯(xi′ ) ¶ p . k − 1, 5 Доказательство. Заметим, что если направление pk выбрано в соответствии с правилом (. B), то k ḡ(xk ) khk ¶ f¯(xk ) ¶ 〈 ḡ(xk ), xk − x ∗ 〉. “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Значит, в этом случае υ f¯(x ∗ ; xk ) ¾ hk . Пусть k ′ = ⌊k /3⌋ и Ik = {i ∈ [k ′ , …, k] | pi = g(xi )}. Введем обозначение ri = k xi − x ∗ k, υi = υ f (x ∗ ; xi ), ῡi = υ f¯(x ∗ ; xi ). Тогда для всех i, k ′ ¶ i ¶ k, выполняются следующие утверждения: если i ∈ Ik , если i ∈ / Ik , то ri2+1 ¶ ri2 − 2hi υi + h2i , то ri2+1 ¶ ri2 − 2hi ῡi + h2i . Суммируя эти неравенства по i ∈ [k ′ , …, k], получаем rk2′ + k P i =k ′ h2i ¾ rk2+1 + 2 P i ∈ Ik h i υi + 2 P hi ῡi . i∈ / Ik Напомним, что при i ∈ / Ik имеет место неравенство ῡi ¾ hi (случай (B)). Предположим, что υi ¾ hi при всех i ∈ Ik . Тогда 1¾ kR +1 k k 1 P 2 P dτ 2k + 3 1 hi = ¾ = ln ′ ¾ ln 3. 2 τ + 0,5 2k +1 R i =k ′ ′ i + 0,5 ′ i =k k Получили противоречие. Таким образом, Ik 6= ∅, и найдется такое i ′ ∈ Ik , что υi′ < hi′ . Очевидно, что υi′ ¶ hk′ , и, следовательно, (υ i ′ )+ ¶ h k ′ . Отсюда следует, что f (xi′ ) − f ∗ ¶ M1 hk′ (см. лемму ..), и, поскольку i ′ ∈ Ik , получаем следующую оценку: f¯(xi′ ) ¶ k ḡ(xi′ ) khk′ ¶ M2 hk′ . Остается заметить, что k ′ ¾ p k 3R − 1, и поэтому hk′ ¶ p . 3 k − 1,5 Сравнивая результат теоремы .. с нижней границей аналитической сложности из теоремы .., видим, что схема (.) обладает оптимальной скоростью сходимости. Напомним, что эта нижняя граница была получена для задачи минимизации без ограничений. Таким образом, полученный результат демонстрирует, что с точки зрения аналитической сложности задачи выпуклой безусловной минимизации общего вида оказываются не проще задач с функциональными ограничениями. “Nesterov-final” — // — : — page — # § .. Методы негладкой минимизации ... Границы сложности в конечномерном случае Рассмотрим снова задачу безусловной минимизации, предполагая ее размерность относительно небольшой. Это подразумевает, что вычислительных ресурсов должно быть вполне достаточно для выполнения числа итераций метода минимизации, пропорционального размерности пространства переменных. Как будет выглядеть нижняя граница сложности в этом случае? В данном пункте мы получим конечномерную нижнюю границу аналитической сложности для задачи, которая тесно связана с задачей минимизации, –– задачи разрешимости: найти x ∗ ∈ Q, где Q –– выпуклое множество. (.) Предположим, что эта задача снабжена оракулом, отвечающим на вопрос в точке x̄ ∈ Rn следующим образом: ◦ либо сообщается, что x̄ ∈ Q, ◦ либо выдается вектор ḡ, отделяющий x̄ от Q: 〈 ḡ, x̄ − x 〉 ¾ 0 ∀ x ∈ Q. Для оценки сложности этой задачи сделаем следующее предположение. Предположение ... Существует такая точка x ∗ ∈ Q, что для некоторого ǫ > 0 шар B2 (x ∗ , ǫ ) принадлежит множеству Q. Например, если для задачи (.) нам известно оптимальное значение f ∗ , то ее можно переформулировать как задачу разрешимости с множеством ¯Q̄ = (t, x) ∈ Rn+1 | t ¾ f (x), t ¶ f ∗ + ǭ , x ∈ Q . Соотношение между параметрами точности ǭ и ǫ в (..) можно легко получить, полагая функцию f липшицевой. Оставляем это читателю в качестве упражнения. Опишем теперь сопротивляющийся оракул для задачи (.). Он формирует в Rn последовательность прямоугольных параллелепипедов {Bk }∞ k =0 , B k +1 ⊂ B k , задаваемых своими нижними и верхними границами: Bk = x ∈ Rn | ak ¶ x ¶ bk . “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Для каждого параллелепипеда Bk , обозначим через ck = 1/2(ak + bk ) его центр. Для каждого Bk , k ¾ 1, оракул создает свой отделяющий вектор gk . С точностью до знака он всегда является координатным вектором. В схеме, описанной ниже, используются два динамических счетчика: ◦ m есть число сформированных параллелепипедов, ◦ i есть активная координата. Обозначим через e ∈ Rn вектор из всех единиц. Оракул начинает работу со следующих начальных параметров: a0 := −Re, b0 := Re, m := 0, i := 1. n На его вход подается произвольная точка x ∈ R . Сопротивляющийся оракул. Задача разрешимости If x ∈ / B0 then [ выдать вектор, отделяющий x от B0 ] else . Найти максимальное k ∈ {0, …, m} : x ∈ Bk . . If k < m then [ выдать gk ] else [{Создать новый параллелепипед}: If x (i) ¾ c(i) m then [am+1 := am , (i) bm+1 := bm + (c(i) m − bm )ei , gm := ei .] (i) else [am+1 := am + (c(i) m − am )ei , bm+1 := bm , gm := −ei .] m := m + 1; i := i + 1; If i > n then i := 1. Выдать gm . ] Данный оракул реализует очень простую стратегию. Отметим, что следующий параллелепипед Bm+1 всегда равен половине предыдущего Bm . При этом гиперплоскость, разделяющая его на две части, проходит через центр Bm и соответствует активной координате i. В зависимости от того, в какой части последнего параллелепипеда Bm лежит точка x, выбирается тот или иной знак разделяющего “Nesterov-final” — // — : — page — # § .. Методы негладкой минимизации вектора gm+1 = ±ei . После формирования нового параллелепипеда Bm+1 индекс i возрастает на . Если его значение превосходит n, мы возвращаемся назад к i = 1. Таким образом, последовательность параллелепипедов {Bk } обладает двумя важными свойствами: ◦ voln Bk+1 = (1/2) voln Bk , ◦ для любого k ¾ 0 имеет место равенство bk+n −ak+n = (1/2)(bk −ak ). Заметим также, что число сформированных параллелепипедов не превосходит числа обращений к оракулу. Лемма ... При всех k ¾ 0 верно включение k R 1 n B2 (ck , rk ) ⊂ Bk , где rk = . 2 (.) 2 Доказательство. Действительно, при всех k ∈ {0, …, n − 1} имеет место включение n o 1 1 1 B k ⊃ B n = x | c n − Re ¶ x ¶ c n + Re ⊃ B2 c n , R . 2 2 2 Поэтому для таких k получаем Bk ⊃ B2 (ck , (1/2)R), и включение (.) верно. Далее, пусть k = nl + p с некоторым p ∈ {0, …, n − 1}. Поскольку l 1 bk − ak = (bp − a p ), 2 мы заключаем, что l 1 1 B k ⊃ B2 c k , R . 2 1 2 Остается отметить, что rk ¶ R l 1 2 2 . Лемма .. непосредственно приводит к следующему результату. Теорема ... Рассмотрим класс задач разрешимости типа (.), которые удовлетворяют предположению .. и для которых допустимые множества Q лежат в B∞ (0, R). Тогда нижняя граница аналитической сложности для этого класса задач равна n ln(R/(2ǫ )) обращениям к оракулу. Доказательство. В самом деле, мы видели, что число генерируемых параллелепипедов не превосходит количества обращений к “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация оракулу. Кроме того, из леммы .. вытекает, что после k итераций последний параллелепипед будет содержать шар B2 (cmk , rk ). Нижняя граница сложности для задачи минимизации (.) может быть получена аналогичным образом. Однако соответствующее доказательство довольно громоздко. По этой причине приводим здесь только результат. Теорема ... Для задач минимизации вида (.) с Q ⊆ B∞ (0, R) и f ∈ F M0,0 (B∞ (0, R)) нижняя граница аналитической сложности равна n ln MR обращениям к оракулу. 8ǫ ... Методы отсекающей гиперплоскости Рассмотрим задачу минимизации с ограничениями min f (x) | x ∈ Q , (.) где f –– выпуклая функция в Rn , а Q –– такое ограниченное выпуклое и замкнутое множество, что int Q 6= ∅, def D = diam Q < ∞. Предположим, что множество Q не является простым и что наша задача снабжена разделяющим оракулом. В любой точке x̄ ∈ Rn этот оракул вычисляет вектор g, который равен ◦ субградиенту функции f в точке x̄, если x ∈ Q, ◦ вектору, отделяющему x̄ от Q, если x ∈ / Q. Важным примером такой задачи является условная минимизация с функциональными ограничениями (.). Ранее было показано, что эту задачу можно переписать как задачу с одним функциональным ограничением (см. задачу (.)), которое образует допустимое множество Q = x ∈ Rn | f¯(x) ¶ 0 . В этом случае для x ∈ / Q оракул должен выдать любой субградиент ḡ ∈ ∂ f¯(x). Очевидно, ḡ отделяет x от Q (см. теорему ..). Приведем основное свойство конечномерных множеств локализации. “Nesterov-final” — // — : — page — # § .. Методы негладкой минимизации Рассмотрим последовательность X ≡ {xi }∞ i =0 , лежащую в множестве Q. Напомним, что множества локализации, образованные этой последовательностью, определяются следующим образом: S0 ( X ) = Q, Sk+1 ( X ) = x ∈ Sk ( X ) | 〈 g(xk ), xk − x 〉 ¾ 0 . Очевидно, что x ∗ ∈ Sk для любого k ¾ 0. Введем обозначения υi = υ f (x ∗ ; xi )(¾ 0), υ∗k = min υi . 0¶i ¶k Пусть voln S обозначает n-мерный объем множества S ⊂ Rn . Теорема ... Для любого k ¾ 0 имеет место неравенство υ∗k ¶ D voln Sk (X ) voln Q 1/n . Доказательство. Введем обозначение α = υ∗k / D(¶ 1). Так как Q ⊆ ⊆ B2 (x ∗ , D), верно следующее включение: (1 − α)x ∗ + αQ ⊆ (1 − α)x ∗ + α B2 (x ∗ , D) = B2 (x ∗ , υ∗k ). Множество Q выпукло. Поэтому (1 − α)x ∗ + αQ ≡ (1 − α)x ∗ + αQ ∩ Q ⊆ B2 (x ∗ , υ∗k ) ∩ Q ⊆ Sk ( X ). Значит, voln Sk ( X ) ¾ voln [(1 − α)x ∗ + αQ] = αn voln Q. Зачастую множество Q оказывается достаточно сложным. Тогда работать напрямую с множествами Sk ( X ) не удается. Вместо этого можно иметь дело с некоторыми простыми внешними аппроксимациями этих множеств. Процедура формирования таких аппроксимаций описывается следующим методом отсекающей гиперплоскости. “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Обобщенный метод отсекающей гиперплоскости (.) . Выберем некоторое ограниченное множество E0 ⊇ Q. . k-я итерация (k ¾ 0). a) Выберем yk ∈ Ek . б) Если yk ∈ Q, то вычислим f ( yk ), g( yk ). Если yk ∈ / Q, то вычислим ḡ( yk ), который отделяет yk от Q. c) Положим ¨ g( yk ), если yk ∈ Q, gk = ḡ( yk ), если yk ∈ / Q. d) Выберем Ek+1 ⊇ x ∈ Ek | 〈 gk , yk − x 〉 ¾ 0 . Оценим эффективность приведенного метода. Рассмотрим последовательность Y = { yk }∞ k =0 , участвующую в этой схеме. Обозначим через X подпоследовательность допустимых точек последовательности Y : X = Y ∩ Q. Определим счетчик i(k) = число таких точек y j , 0 ¶ j < k, что y j ∈ Q. Таким образом, если i(k) > 0, то X 6= ∅. Лемма ... Для любого k ¾ 0 верно включение Si(k) ⊆ Ek . Доказательство. Действительно, если i(0) = 0, то S0 = Q ⊆ E0 . Предположим, что Si(k) ⊆ Ek при некотором k ¾ 0. Тогда на следующей итерации имеем два возможных варианта. . Выполняется равенство i(k + 1) = i(k). Это равенство имеет место если и только если yk ∈ / Q. Тогда Ek+1 ⊇ x ∈ Ek | 〈 ḡ( yk ), yk − x 〉 ¾ 0 ⊇ ⊇ x ∈ Si(k+1) | 〈 ḡ( yk ), yk − x 〉 ¾ 0 = Si(k+1), “Nesterov-final” — // — : — page — # § .. Методы негладкой минимизации поскольку Si(k+1) ⊆ Q и ḡ( yk ) отделяет yk от Q. . Выполняется равенство i(k + 1) = i(k) + 1. В этом случае yk ∈ Q. Тогда Ek+1 ⊇ x ∈ Ek | 〈 g( yk ), yk − x 〉 ¾ 0 ⊇ ⊇ x ∈ Si(k) | 〈 g( yk ), yk − x 〉 ¾ 0 = Si(k)+1, поскольку yk = xi(k). Приведенные результаты имеют важные следствия. Следствие ... . Для любых таких k, что i(k) > 0, выполнены неравенства voln Si(k) (X ) 1/n voln Ek 1/n υ∗i(k) ( X ) ¶ D ¶D . voln Q voln Q . Если voln Ek < voln Q, то i(k) > 0. Доказательство. Первое утверждение уже доказано. Второе следует из включения Q = S0 = Si(k) ⊆ Ek , которое верно для всех таких k, что i(k) = 0. Таким образом, если нам удастся обеспечить условие voln Ek → 0, то полученный метод будет сходящимся. Кроме того, скорость убывания объемов этих тел автоматически определит скорость сходимости соответствующего метода. Естественно, нам бы хотелось, чтобы voln Ek убывал как можно быстрее. Исторически первым методом минимизации, в котором применялась идея отсекающих гиперплоскостей, был метод центров тяжести. Он основан на следующем геометрическом факте. Рассмотрим некоторое выпуклое ограниченное множество S ⊂ Rn , int S 6= ∅. Определим центр тяжести этого множества: 1 R cg(S) = x dx. voln S S Следующий результат показывает, что любая отсекающая плоскость, проходящая через центр тяжести, разделяет множество на две пропорциональные части. Лемма ... Пусть g задает некое направление в Rn . Определим S+ = x ∈ S | 〈 g, cg(S) − x 〉 ¾ 0 . “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Тогда voln S+ 1 ¶1− . e voln S (Примем этот результат без доказательства.) Это утверждение естественным образом приводит нас к следующему методу минимизации. Метод центров тяжести . Положим S0 = Q. . k-я итерация (k ¾ 0). a) Выберем xk = cg(S k ) и вычислим f (xk ), g(xk ). б) Положим Sk+1 = x ∈ Sk | 〈 g(xk ), xk − x 〉 ¾ 0 . Оценим скорость сходимости этого метода. Введем обозначение fk∗ = min f (x j ). 0¶ j ¶k Теорема ... Если функция f липшицева на B2 (x ∗ , D) с константой M, то для любых k ¾ 0 имеет место неравенство 1 k /n fk∗ − f ∗ ¶ MD 1 − . e Доказательство. Это неравенство следует из леммы .., теоремы .. и леммы ... Сравнивая этот результат с нижней границей сложности задачи (теорема ..), видим, что метод центров тяжести является оптимальным при конечной размерности. Его скорость сходимости не зависит от каких-либо отдельных характеристик нашей задачи, например от ее обусловленности и т. п. Однако нужно признать, что этот метод абсолютно не применим на практике, поскольку вычисление центра тяжести в многомерном пространстве является более сложным, чем решение исходной задачи минимизации. Рассмотрим другой метод, который использует аппроксимацию множеств локализации. Этот метод основан на следующем геометрическом наблюдении. Пусть H –– положительно определенная симметрическая (n × n)матрица. Рассмотрим эллипсоид E(H, x̄) = x ∈ Rn | 〈 H −1 (x − x̄), x − x̄ 〉 ¶ 1 . “Nesterov-final” — // — : — page — # § .. Методы негладкой минимизации Выберем направление g ∈ Rn и рассмотрим половину эллипсоида, задаваемую соответствующей гиперплоскостью: E+ = x ∈ E(H, x̄) | 〈 g, x̄ − x 〉 ¾ 0 . Нетрудно увидеть, что это множество принадлежит другому эллипсоиду, объем которого строго меньше, чем объем эллипсоида E(H, x̄). Лемма ... Введем обозначения Hg 1 · , n + 1 〈 Hg, g〉1/2 HggT H n2 2 . H+ = 2 H− · n + 1 〈 Hg, g〉 n −1 x̄+ = x̄ − Тогда E+ ⊂ E(H+ , x̄+ ) и 1 voln E(H+ , x̄+ ) ¶ 1 − (n + 1)2 n/2 voln E(H, x̄). Доказательство. Введем обозначения G = H −1 и G+ = H+−1 . Очевидно, что ggT n2 − 1 2 G+ = G + · . 2 n − 1 〈 Hg, g〉 n Без потери общности можно предположить, что x̄ = 0 и 〈 Hg, g〉 = 1. 1 Выберем любую точку x ∈ E+ . Заметим, что x̄+ = − Hg. Поэтому n+1 2 n −1 2 k x − x̄+ k2G + 〈 g, x − x̄+ 〉2 , + n−1 n2 1 2 k x − x̄+ k2G = k x k2G + 〈 g, x 〉 + , n+1 (n + 1)2 2 1 〈 g, x − x̄+ 〉2 = 〈 g, x 〉2 + . 〈 g, x 〉 + n+1 (n + 1)2 k x − x̄+ k2G = Подставляя все элементы в исходное выражение, получим n2 − 1 2 2 1 k x − x̄+ k2G = k x k2G + 〈 g, x 〉2 + 〈 g, x 〉 + 2 2 + n n−1 n−1 Отметим, что 〈 g, x 〉 ¶ 0 и k x kG ¶ 1. Поэтому n −1 . 〈 g, x 〉2 + 〈 g, x 〉 = 〈 g, x 〉 1 + 〈 g, x 〉 ¶ 0. “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Отсюда следует, что n2 − 1 1 k x k2G + 2 n2 n −1 k x − x̄+ k2G ¶ + ¶ 1. Таким образом, мы доказали, что E+ ⊂ E(H+ , x̄+ ). Вычислим объем эллипсоида E(H+ , x̄+ ): voln E(H+ , x̄+ ) = voln E(H, x̄) = det H+ det H 1/2 = n2 2 1− 2 n+1 n −1 n/2 = 1 n n2 2 n −1 ¶ n n−1 n+1 1/2 = n2 2 1− 2 n(n + 1) n −1 n2 (n2 + n − 2) n(n − 1)(n + 1)2 n/2 = 1− n/2 1 (n + 1)2 = n/2 . Оказывается, E(H+ , x̄+ ) является эллипсоидом минимального объема, содержащим половину начального эллипсоида E+ . Наши наблюдения можно оформить в алгоритмическую схему метода эллипсоидов. Метод эллипсоидов (.) n . Выберем такие y0 ∈ R и R > 0, что B2 ( y0 , R) ⊇ Q. Положим H0 = R2 · In . . k-я итерация (k ¾ 0): ¨ g( yk ), если yk ∈ Q, gk = ḡ( yk ), если yk ∈ / Q, yk+1 = yk − Hk gk 1 · , n + 1 〈 Hk gk , gk 〉1/2 Hk gk gkT Hk n2 2 Hk − · . 2 n + 1 〈 Hk gk , gk 〉 n −1 H k +1 = Этот метод можно рассматривать как частный случай обобщенной схемы (.), выбрав Ek = x ∈ Rn | 〈 Hk−1 (x − yk ), x − yk 〉 ¶ 1 , где yk –– центр этого эллипсоида. “Nesterov-final” — // — : — page — # § .. Методы негладкой минимизации Оценим эффективность метода эллипсоидов. Пусть Y = { yk }∞ k =0 , и пусть X –– допустимая часть подпоследовательности Y : X = Y ∩ Q. Введем обозначение fk∗ = min0¶ j ¶k f (x j ). Теорема ... Пусть функция f липшицева на B2 (x ∗ , R) с некоторой константой M. Тогда для i(k) > 0 имеет место неравенство k/2 1/n 1 ∗ fi(k) − f ∗ ¶ MR 1 − · voln B0 (x0 , R)voln Q . 2 (n + 1) Доказательство. Данное утверждение следует из леммы .., следствия .. и леммы ... Чтобы гарантировать выполнение условия X 6= ∅, необходимы дополнительные предположения. Если найдутся такие ρ > 0 и x̄ ∈ Q, что B2 ( x̄, ρ ) ⊆ Q, (.) то voln Ek voln Q 1/n ¶ 1− 1 (n + 1)2 k/2 voln B2 (x0 , R) voln Q 1/n ¶ 1 − 2(n+k 1)2 R. e ρ Принимая во внимание следствие .., мы получаем, что i(k) > 0 при всех R k > 2(n + 1)2 ln . ρ Если i(k) > 0, то ∗ fi(k) − f∗ ¶ − k 1 M R2 · e 2(n+1)2 . ρ Для выполнения условия (.) в задаче минимизации с функциональными ограничениями достаточно предположить, что все ограничения являются липшицевыми и существует допустимая точка, в которой они все строго отрицательны (условие Слэйтера). Мы предлагаем читателю убедиться в этом самостоятельно. Перейдем к обсуждению вычислительной сложности метода эллипсоидов (.). Каждая итерация этого алгоритма не представляется слишком трудоемкой; она требует только O(n2 ) арифметических операций. С другой стороны, для того чтобы получить ǫ -решение задачи (.), удовлетворяющей предположению (.), данный “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация метод требует 2(n + 1)2 ln M R2 ρǫ обращений к оракулу. Эта оценка эффективности не является оптимальной (см. теорему ..), но она имеет линейную зависимость от ln 1/ǫ и полиномиальную зависимость от размерности и логарифмов параметров M, R и ρ . Для классов задач, оракул которых имеет полиномиальную сложность, такие алгоритмы называются (слабо) полиномиальными. В заключение этого параграфа укажем, что существует несколько методов, которые используют множества локализации в форме многогранников: Ek = x ∈ Rn | 〈a j , x 〉 ¶ b j , j = 1, …, mk . Перечислим наиболее важные методы этого типа. ◦ Метод вписанных эллипсоидов. Точка yk в этом методе выбирается следующим образом: yk есть центр эллипсоида максимального объема Wk ⊂ Ek . ◦ Метод аналитического центра. В этой схеме точка yk выбирается как минимум аналитического барьера mk P Fk (x) = − ln b j − 〈a j , x 〉 . j =1 ◦ Метод объемного центра. Этот метод является также методом барьерного типа. Точка yk выбирается здесь как минимум объемного барьера Vk (x) = ln det Fk′′ (x), где Fk (x) –– аналитический барьер для множества Ek . Все эти методы являются полиномиальными с границей сложности, равной n ln 1 ǫ p , где p равно либо , либо . Однако сложность каждой отдельной итерации этих методов намного больше (n3 ÷ n4 арифметических операций). В следующей главе мы увидим, что точка yk для этих схем может быть вычислена методами внутренней точки. “Nesterov-final” — // — : — page — # § .. Методы с полной информацией § .. Методы с полной информацией Модель негладкой функции. Метод Келли. Идея метода уровней. Безусловная минимизация. Оценки эффективности. Задачи с функциональными ограничениями. ... Модель негладкой функции В предыдущем параграфе мы привели несколько методов решения задачи min f (x), (.) x ∈Q где f –– липшицева выпуклая функция, а Q –– выпуклое замкнутое множество. Было показано, что оптимальным методом для задачи (.) является субградиентный метод (.), (.). Этот результат верен для всего класса липшицевых функций. Однако при минимизации конкретной функции из этого класса можно ожидать лучшего поведения методов. Мы часто можем надеяться на гораздо большую скорость сходимости метода минимизации по сравнению с теоретическими нижними границами, полученнымм при анализе наихудшей ситуации. К сожалению, для субградиентного метода наши надежды не оправдываются. Схема субградиентного метода является чрезвычайно жесткой, и в общем случае он не может сходиться быстрее теоретических оценок. Можно также показать, что метод эллипсоидов (.) разделяет этот недостаток субградиентной схемы. На практике он работает более или менее в соответствии с теоретическими границами даже тогда, когда он применяется для минимизации очень простых функций таких как, например, k x k2 . В этом параграфе мы обсудим алгоритмические схемы, которые являются более гибкими, чем субградиентный метод и метод эллипсоидов. Эти схемы основаны на понятии модели негладкой функции. –– некоторая последовательОпределение ... Пусть X = {xk }∞ k =0 ность точек из множества Q. Введем обозначения fˆk ( X ; x) = max f (xi ) + 〈 g(xi ), x − xi 〉 , 0¶i ¶k где g(xi ) –– некоторые субградиенты функции f в точках xi . Функция fˆk ( X ; x) называется моделью выпуклой функции f (x). “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Заметим, что fk ( X ; x) –– кусочно линейная функция от x. Из неравенства (.) следует, что f (x) ¾ fˆk ( X ; x) при всех x ∈ Rn . Однако во всех точках xi , 0 ¶ i ¶ k, модель точна: f (xi ) = fˆk ( X ; xi ), g(xi ) ∈ ∂ fˆk ( X ; xi ). Последующая модель всегда лучше, чем предыдущая: fˆk+1 ( X ; x) ¾ fˆk ( X ; x) для всех x ∈ Rn . ... Метод Келли Модель fˆk ( X ; x) содержит в себе полную информацию о функции f , накопленную после k обращений к оракулу. Поэтому естественным было бы разработать метод минимизации, основанный на ее использовании. Возможно, простейший из методов такого типа выглядит следующим образом. Метод Келли (.) . Выберем x0 ∈ Q. . k-я итерация (k ¾ 0). Найти xk+1 ∈ Arg min fˆk ( X ; x). x ∈Q На первый взгляд этот метод является весьма привлекательным. Даже наличие сложной вспомогательной задачи не сильно портит картину, так как она может быть решена методами линейного программирования за конечное время. Однако, оказывается, данный метод вряд ли стоит применять на практике. И основной причиной этого является его неустойчивость. Заметим, что решение вспомогательной задачи в методе (.) может не быть единственным. Кроме того, все множество Arg min x ∈Q fˆk ( X ; x) может оказаться неустойчивым по отношению к произвольно малому изменению данных { f (xi ), g(xi )}. Именно это свойство и приводит к неустойчивому поведению метода. Более того, используя этот недостаток, можно построить задачу, в которой метод Келли обладает безнадежно плохой нижней границей сложности. “Nesterov-final” — // — : — page — # § .. Методы с полной информацией Пример ... Рассмотрим задачу (.) с f ( y, x) = max | y |, k x k2 , y ∈ R1 , x ∈ Rn , Q = z = ( y, x) : y 2 + k x k2 ¶ 1 . Ее решение есть z ∗ = ( y ∗ , x ∗ ) = (0, 0), и оптимальное значение f ∗ = 0. Обозначим через Zk∗ = Arg minz∈Q fˆk (Z; z) оптимальное множество модели fˆk (Z; z) и через fˆk∗ = fˆk (Zk∗ ) оптимальное значение модели. Выберем z0 = (1, 0). Тогда начальная модель функции f есть ˆ f0 (Z; z) = y. Поэтому первая точка, полученная по методу Келли, равна z1 = (−1, 0). Значит, следующая модель функции f выглядит так: fˆ1 (Z; z) = max{ y, − y} = | y |. Очевидно, fˆ1∗ = 0. Заметим, что fˆk∗+1 ¾ fˆk∗ . С другой стороны, fˆk∗ ¶ f (z ∗ ) = 0. Таким образом, для всех следующих моделей с k ¾ 1 мы имеем fˆk∗ = 0 и Zk∗ = (0, Xk∗ ), где Xk∗ = x ∈ B2 (0, 1) : k xi k2 + 〈2xi , x − xi 〉 ¶ 0, i = 0, …, k . Оценим эффективность усечений множества Xk∗ . Поскольку xk+1 может оказаться произвольной точкой из Xk∗ , на первом этапе метода можно выбирать все точки xi с единичной нормой: k xi k = 1. Тогда множество Xk∗ определяется следующим образом: 1 Xk∗ = x ∈ B2 (0, 1) | 〈 xi , x 〉 ¶ , i = 0, …, k . 2 Так можно поступать, если S2 (0, 1) ≡ x ∈ Rn | k x k = 1 ∩ Xk∗ 6= ∅. Заметим, что на первом этапе f (zi ) ≡ f (0, xi ) = 1. Оценим сверху длительность этого этапа, используя следующий факт. “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Пусть d задает некоторое направление в Rn , k d k = 1. Рассмотрим поверхность h i 1 S(α) = x ∈ Rn | k x k = 1, 〈d, x 〉 ¾ α , α ∈ ,1 . 2 n−1 Тогда υ(α) ≡ voln−1 (S(α)) ¶ υ(0) 1 − α2 2 . На первом этапе от сферы S2 (0, 1) на каждом шаге отрезается не более, чем сферический сегмент S(1/2). Поэтому p этот этап может продолжаться по крайней мере для всех k ¶ [2/ 3]n−1 . Во время этих итераций f (zi ) = 1. Так как на первом этапе процесса отсекающие гиперплоскости задаются p неравенствами 〈 xi , x 〉 ¶ 1/2, для всех таких k, что 0 ¶ k ¶ N ≡ [2/ 3]n−1 , верно включение 1 ⊂ Xk∗ . B2 0, 2 Это означает, что после N итераций можно повторить процесс уже с шаром B2 (0, 1/2) и т. д. Заметим, что f (0, x) = 1/4 при всех x, расположенных на границе шара B2 (0, 1/2). Таким образом, доказано, что нижняя оценка скорости сходимости метода Келли (.) дается неравенством k p3/2 n−1 1 ∗ f (xk ) − f ¾ . 4 Отсюда следует, что мы не сможем найти ǫ -решение нашей задачи менее чем за i n −1 ln 1 h ǫ 2 ln 2 2 p 3 обращений к оракулу. Остается сравнить эту нижнюю границу с верхними границами сложности других методов: 1 Метод эллипсоидов: O n2 ln ǫ 1 Оптимальные методы: O n ln ǫ 1 Градиентный метод: O 2 ǫ “Nesterov-final” — // — : — page — # § .. Методы с полной информацией ... Метод уровней Покажем, что с помощью моделей выпуклых функций можно строить и устойчивые методы минимизации. Введем обозначение fˆk∗ = min fˆk ( X ; x), x ∈Q fk∗ = min f (xi ). 0¶i ¶k Первое значение мы будем называть минимальным значением модели, а второе –– ее рекордным значением. Очевидно, что fˆk∗ ¶ f ∗ ¶ fk∗ . Выберем некоторое α ∈ (0, 1). Пусть lk (α) = (1 − α) fˆk∗ + α fk∗ . Рассмотрим множество уровней Lk (α) = x ∈ Q | fk (x) ¶ lk (α) . Ясно, что Lk (α) –– выпуклое и замкнутое множество. Заметим, что для методов оптимизации множество Lk (α) представляет определенный интерес. Во-первых, ясно, что внутри этого множества еще нет ни одной точки текущей модели. Во-вторых, оно устойчиво по отношению к малым изменениям данных. Рассмотрим один метод минимизации, основанный на непосредственном использовании этого множества. Метод уровней (.) . Выберем точку x0 ∈ Q, точность ǫ > 0 и коэффициент уровня α ∈ (0, 1). . k-я итерация (k ¾ 0). a) Вычислим fˆk∗ и fk∗ . б) Если fk∗ − fˆk∗ ¶ ǫ , то STOP. c) Положим xk+1 = πLk (α) (xk ). В приведенной схеме имеются две достаточно трудоемкие операции. Во-первых, нам нужно вычислить оптимальное значение fˆk∗ текущей модели. Если Q –– многогранник, то это значение можно получить из следующей задачи линейного программирования: t → min при f (xi ) + g(xi ), x − xi ¶ t, i = 0, …, k, x ∈ Q. “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Во-вторых, нужно вычислить проекцию πLk (α) (xk ). Если Q –– многогранник, то эта проекция является решением задачи квадратичного программирования: min k x − xk k2 , при f (xi ) + g(xi ), x − xi ¶ lk (α), i = 0, …, k, x ∈ Q. Обе эти задачи эффективно решаются либо стандартными алгоритмами типа симплекс-метода, либо методами внутренней точки. Изучим некоторые свойства метода уровней. Заметим, что рекордные значения модели убывают, а ее минимальные значения возрастают: fˆk∗ ¶ fˆk∗+1 ¶ f ∗ ¶ fk∗+1 ¶ fk∗ . Введем обозначение ∆k = [ fˆk∗ , fk∗ ] и δk = fk∗ − fˆk∗ . Назовем δk ошибкой модели fˆk ( X ; x). Тогда ∆ k +1 ⊆ ∆ k , δ k +1 ¶ δ k . Следующий результат имеет ключевое значение для анализа метода уровней. Лемма ... Предположим, что для некоторого p ¾ k выполнено неравенство δ p ¾ (1 − α)δk . Тогда при всех i, k ¶ i ¶ p, справедлива оценка li (α) ¾ fˆp∗ Доказательство. Заметим, что при таких i имеет место неравенство δ p ¾ (1 − α)δk ¾ (1 − α)δi . Поэтому li (α) = fi∗ − (1 − α)δi ¾ fp∗ − (1 − α)δi = fˆp∗ + δ p − (1 − α)δi ¾ fˆp∗ . Покажем, что шаги метода уровня достаточно большие. Введем обозначение M f = max k g k | g ∈ ∂ f (x), x ∈ Q . Лемма ... Для последовательности {xk }, образованной методом уровней, имеет место неравенство k x k +1 − x k k ¾ (1 − α)δk . Mf “Nesterov-final” — // — : — page — # § .. Методы с полной информацией Доказательство. Действительно, f (xk ) − (1 − α)δk ¾ fk∗ − (1 − α)δk = lk (α) ¾ ¾ fˆk (xk+1 ) ¾ f (xk ) + 〈 g(xk ), xk+1 − xk 〉 ¾ ¾ f (xk ) − M f k xk+1 − xk k. Наконец, покажем, что ошибка модели не может убывать слишком медленно. Лемма ... Пусть множество Q в задаче (.) ограничено, то есть: diam Q ¶ D. Если при некотором p ¾ k имеет место неравенство δ p ¾ (1 − α)δk , то p+1−k¶ M 2f D 2 (1 − α)2 δ2p . Доказательство. Введем обозначение xk∗ ∈ Arg min x ∈Q fˆk ( X ; x). Из леммы .. следует, что fˆi ( X ; x ∗p ) ¶ fˆp ( X ; x ∗p ) = fˆp∗ ¶ li (α) при всех i, k ¶ i ¶ p. Поэтому, применяя леммы .. и .., получаем k xi+1 − x ∗p k2 ¶ k xi − x ∗p k2 − k xi+1 − xi k2 ¶ ¶ k xi − x ∗p k2 − (1 − α)2 δi2 M 2f ¶ k xi − x ∗p k2 − (1 − α)2 δ2p M 2f . Суммируя эти неравенства по i = k, …, p, приходим к неравенству (p + 1 − k) (1 − α)2 δ2p M 2f ¶ k xk − x ∗p k2 ¶ D 2 . Заметим, что значение p + 1 − k равно числу индексов в отрезке [k, p]. Докажем теперь оценку эффективности метода уровней. Теорема ... Пусть diam Q = D. Тогда схема метода уровней останавливается не позднее чем через M 2f D 2 +1 N= 2 2 ǫ α(1 − α) (2 − α) “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация итераций. Критерий остановки метода гарантирует выполнение неравенства fk∗ − f ∗ ¶ ǫ . Доказательство. Предположим, что δk ¾ ǫ , 0 ¶ k ¶ N. Разделим индексы на группы по порядку убывания {N, …, 0} = I(0) ∪ I(2) ∪ · · · ∪ I(m), так что I( j) = [p( j), k( j)], p(0) = N, j = 0, …, m, p( j) ¾ k( j), p( j + 1) = k( j) + 1, k(m) = 0, 1 δk( j) ¶ δ < δk( j)+1 ≡ δ p( j +1) . 1 − α p( j) Очевидно, что для j ¾ 0 имеет место цепочка неравенств δ p( j +1) ¾ δ p( j) 1−α ¾ δ p(0) (1 − α) j +1 ¾ ǫ . (1 − α) j +1 По лемме .. значение n( j) = p( j) + 1 − k( j) ограничено: n( j) ¶ M 2f D 2 (1 − α)2 δ2p( j) ¶ M 2f D 2 ǫ 2 (1 − α)2 (1 − α)2 j . Поэтому N= m P j =0 n( j) ¶ M 2f D 2 2 m P 2 (1 − α)2 j ¶ ǫ (1 − α) j =0 M 2f D 2 2 ǫ (1 − α)2 (1 − (1 − α)2 ) . Обсудим полученную оценку эффективности. Отметим сразу, что оптимальное значение параметра уровня α можно получить из следующей задачи максимизации: (1 − α)2 (1 − (1 − α)2 ) → max . α∈[0,1] 1 p . При таком выборе α оценка эффек2+ 2 4 тивности метода уровней выглядит так: N ¶ 2 M 2f D 2 . Сравнивая ǫ Ее решение равно α∗ = этот результат с теоремой .., видим, что метод уровней является оптимальным равномерно по размерности пространства переменных. Заметим также, что граница аналитической сложности этого метода в конечномерном случае неизвестна. “Nesterov-final” — // — : — page — # § .. Методы с полной информацией Одно из преимуществ метода уровней заключается в том, что ошибка δk = fk∗ − fˆk∗ дает точную оценку достигнутой точности. Обычно эта ошибка сходится к нулю намного быстрее, чем в наихудшем случае. Для большинства реальных задач оптимизации точность ǫ = 10−4 − 10−5 достигается после 3n − 4n итераций данного метода. ... Условная минимизация Покажем, как можно использовать функциональные модели для решения задач минимизации с ограничениями. Рассмотрим задачу min f (x) при f j (x) ¶ 0, j = 1, …, m, (.) x ∈ Q, где Q –– ограниченное замкнутое выпуклое множество, а функции f (x), f j (x) липшицевы на Q. Перепишем эту задачу в виде задачи минимизации с одним функциональным ограничением. Введем обозначение f¯(x) = max f j (x). Тогда мы получим эквивалентную задачу 1¶ j ¶m min f (x), при f¯(x) ¶ 0, (.) x ∈ Q. Заметим, что функции f (x) и f¯(x) выпуклы и липшицевы. В этом пункте мы попытаемся решить задачу (.), используя модели обеих функций. Определим эти модели. . Пусть Рассмотрим последовательность X = {xk }∞ k =0 fˆk ( X ; x) = max f (x j ) + 〈 g(x j ), x − x j 〉 ¶ f (x), 0¶ j ¶k fˇk ( X ; x) = max f¯(x j ) + 〈 ḡ(x j ), x − x j 〉 ¶ f¯(x), 0¶ j ¶k где g(x j ) ∈ ∂ f (x j ) и ḡ(x j ) ∈ ∂ f¯(x j ). “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Как и в п. .., наш метод основывается на параметрической функции f (t; x) = max f (x) − t, f¯(x) , f ∗ (t) = min f (t; x). x ∈Q ∗ Напомним, что f (t) –– невозрастающая функция от t. Пусть x ∗ –– решение задачи (.), а t ∗ = f (x ∗ ). Тогда t ∗ представляет собой наименьший корень функции f ∗ (t). Используя модели целевой функции и ограничений, можно ввести в рассмотрение модель параметрической функции. Пусть fk ( X ; t, x) = max fˆk ( X ; x) − t, fˇk ( X ; x) ¶ f (t; x), fˆk∗ ( X ; t) = min fk ( X ; t, x) ¶ f ∗ (t). x ∈Q Тогда, fˆk∗ ( X ; t) вновь является невозрастающей функцией от t. Очевидно, что ее наименьший корень tk∗ ( X ) не превосходит t ∗ . Нам понадобится следующее описание корня tk∗ ( X ). Лемма ... tk∗ ( X ) = min fˆk ( X ; x) | fˇk ( X ; x) ¶ 0, x ∈ Q . Доказательство. Обозначим через x̂k∗ решение задачи минимизации, стоящей в правой части данного равенства, и пусть t̂ ∗k = fˆk ( X ; x̂k∗ ). Тогда fˆk∗ ( X ; t̂k∗ ) ¶ max fˆk ( X ; x̂k∗ ) − t̂k∗ , fˇk ( X ; x̂k∗ ) ¶ 0. Таким образом, всегда выполняется неравенство t̂k∗ ¾ tk∗ ( X ). Предположим, что t̂k∗ > tk∗ ( X ). Тогда найдется такая точка y, что fˆk ( X ; y) − tk∗ ( X ) ¶ 0, fˇk ( X ; y) ¶ 0. Однако в этом случае t̂k∗ = fˆk ( X ; x̂k∗ ) ¶ fˆk ( X ; y) ¶ tk∗ ( X ) < t̂k∗ . Мы пришли к противоречию. Далее нам также понадобится функция fk∗ ( X ; t) = min fk ( X ; t, x j ), 0¶ j ¶k которая является рекордным значением рассматриваемой параметрической модели. “Nesterov-final” — // — : — page — # § .. Методы с полной информацией Лемма ... Пусть t0 < t1 ¶ t ∗ . Предположим, что fˆk∗ ( X ; t1 ) > 0. Тогда tk∗ ( X ) > t1 и fˆk∗ ( X ; t0 ) ¾ fˆk∗ ( X ; t1 ) + t1 − t0 ˆ∗ f ( X ; t1 ). tk∗ (X ) − t1 k (.) Доказательство. Пусть xk∗ (t) ∈ Arg min fk ( X ; t, x), t2 = tk∗ ( X ), α = = t1 − t0 ∈ [0, 1]. Тогда t2 − t0 t1 = (1 − α)t0 + αt2 , и неравенство (.) эквивалентно следующему: fˆk∗ ( X ; t1 ) ¶ (1 − α) fˆk∗ ( X ; t0 ) + α fˆk∗ ( X ; t2 ) (.) (заметим, что fˆk∗ ( X ; t2 ) = 0). Пусть xα = (1 − α)xk∗ (t0 ) + α xk∗ (t2 ). Тогда fˆk∗ ( X ; t1 ) ¶ max fˆk ( X ; xα ) − t1 ; fˇk ( X ; xα ) ¶ ¶ max (1 − α)( fˆk ( X ; xk∗ (t0 )) − t0 ) + α( fˆk ( X ; xk∗ (t2 )) − t2 ); ∗ (1 − α) fˇk ( X ; xk (t0 )) + α fˇk ( X ; xk∗ (t2 )) ¶ ¶ (1 − α) max fˆk ( X ; xk∗ (t0 )) − t0 ; fˇk ( X ; xk∗ (t0 )) + + α max fˆk ( X ; xk∗ (t2 )) − t2 ; fˇk ( X ; xk∗ (t2 )) = = (1 − α) fˆk∗ ( X ; t0 ) + α fˆk∗ ( X ; t2 ), и мы получаем неравенство (.). Приведем также следующее утверждение (ср. с леммой ..). Лемма ... Для любого ∆ ¾ 0 выполняются неравенства f ∗ (t) − ∆ ¶ f ∗ (t + ∆), fˆ∗ ( X ; t) − ∆ ¶ fˆ∗ ( X ; t + ∆) k k Доказательство. Действительно, для f ∗ (t) имеем f ∗ (t + ∆) = min max{ f (x) − t; f¯(x) + ∆} − ∆ ¾ x ∈Q ¾ min max{ f (x) − t; f¯(x)} − ∆ = f ∗ (t) − ∆. x ∈Q Доказательство второго неравенства проводится аналогично. “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация Теперь мы можем выписать схему метода минимизации при ограничениях (ср. со схемами условной минимизации из п. ..). Условный метод уровней (.) ∗ 1 0, 2 и точность . Выберем x0 ∈ Q, t0 < t , κ ∈ ǫ > 0. . k-я итерация (k ¾ 0). a) Построим последовательность X = {x j }∞j =0 с помощью метода уровней, примененного к функции f (tk ; x). При выполнении неравенства fˆj∗ ( X ; tk ) ¾ (1 − κ) f j∗ ( X ; tk ) остановим процесс нижнего уровня и положим j(k) = j. Полная остановка процесса: f j∗ ( X ; tk ) ¶ ǫ . б) Положим tk+1 = t ∗j(k)( X ). Проанализируем аналитическую сложность этого метода. Трудоемкость вычислений корня t ∗j ( X ) и значения fˆj∗ ( X ; t) пока нас не интересуют. Оценим скорость сходимости основного процесса и сложность шага a) Начнем с основного процесса. Лемма ... При всех k ¾ 0 выполнено неравенство ∗ f j(k) ( X ; tk ) ¶ t0 − t ∗ 1−κ 1 2(1 − κ) k . Доказательство. Пусть ∗ f j(k) (X ; tk ) σk = p t k +1 − t k , β= 1 2(1 − κ) (< 1). “Nesterov-final” — // — : — page — # § .. Методы с полной информацией Так как tk+1 = t ∗j(k) ( X ), принимая во внимание лемму .., получаем σ k −1 = p ¾p 1 1 ∗ ∗ f j(k fˆj(k) ( X ; t k −1 ) ¾ −1) ( X ; t k −1 ) ¾ p t k − t k −1 t k − t k −1 σ 2(1 − κ) ∗ 2 ∗ fˆj(k) ( X ; tk ) ¾ p f j(k) ( X ; tk ) = k β t k +1 − t k t k +1 − t k при всех k ¾ 1. Таким образом, σk ¶ β σk−1 , и p p ∗ f j(k) ( X ; tk ) = σk tk+1 − tk ¶ β k σ0 tk+1 − tk = Ç t k +1 − t k k ∗ = β f j(0) ( X ; t0 ) . t1 − t0 ∗ Далее, в силу леммы .. получаем t1 − t0 ¾ fˆj(0) ( X ; t0 ). Поэтому È ∗ ∗ f j(k) ( X ; tk ) ¶ β k f j(0) ( X ; t0 ) βk ¶ 1−κ q t k +1 − t k ¶ ∗ ˆ f j(0) (X ; t0 ) βk p ∗ ∗ fˆj(0) ( X ; t0 )(tk+1 − tk ) ¶ f (t0 )(t0 − t ∗ ). ∗ ∗ 1−κ Остается заметить, что f (t0 ) ¶ t0 − t (см. лемму ..). Пусть условие полной остановки в схеме (.) выполняется: f j∗ ( X ; tk ) ¶ ǫ . Тогда найдется такое j ∗ , что f (tk ; x j ∗ ) = f j∗ ( X ; tk ) ¶ ǫ . Поэтому f (tk ; x j ∗ ) = max{ f (x j ∗ ) − tk ; f¯(x j ∗ )} ¶ ǫ . Поскольку tk ¶ t ∗ , мы заключаем, что f (x j ∗ ) ¶ t ∗ + ǫ , f¯(x j ∗ ) ¶ ǫ . (.) По лемме .. на выполнение условия (.) нужно не более N(ǫ ) = t − t∗ 1 ln 0 (1 − κ)ǫ ln[2(1 − κ)] полных итераций основного процесса (последняя итерация процесса заканчивается проверкой критерия полной остановки). Заметим, “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация что в приведенном выше выражении κ –– положительная константа (например, можно взять κ = 1/4). Введем обозначение M f = max k g k | g ∈ ∂ f (x) ∪ ∂ f¯(x), x ∈ Q . Нам нужно проанализировать два случая. . Полный шаг. Во время этого шага процесс нижнего уровня завершается по критерию ∗ ∗ fˆj(k) ( X ; tk ) ¾ (1 − κ) f j(k) ( X ; tk ). Соответствующее неравенство для ошибки выглядит так: ∗ ∗ ∗ ( X ; tk ) − fˆj(k) ( X ; tk ) ¶ κ f j(k) ( X ; tk ). f j(k) По теореме .. это неравенство оказывается заведомо выполненным после M 2f D 2 ∗ κ2 ( f j(k) (X ; tk ))2 α(1 − α)2 (2 − α) итераций процесса нижнего уровня. Так как при полном шаге ∗ f j(k) ( X ; tk ) ¾ ǫ , мы заключаем, что j(k) − j(k − 1) ¶ M 2f D 2 κ2 ǫ 2 α(1 − α)2 (2 − α) для любой полной итерации основного процесса. . Последний шаг. Процесс нижнего уровня на этом шаге заканчиваеся по критерию полной остановки: f j∗ ( X ; tk ) ¶ ǫ . Поскольку обычный критерий остановки не сработал, мы заключаем, что f ∗ ( X ; tk ) − fˆ∗ ( X ; tk ) ¾ κ f ∗ ( X ; tk ) ¾ κǫ . j −1 j −1 j −1 Поэтому из теоремы .. следует, что число итераций на последнем шаге не превосходит M 2f D 2 κ2 ǫ 2 α(1 − α)2 (2 − α) . “Nesterov-final” — // — : — page — # § .. Методы с полной информацией Таким образом, мы приходим к следующей оценке полной сложности условного метода уровней: (N(ǫ ) + 1) M 2f D 2 = κ2 ǫ 2 α(1 − α)2 (2 − α) M 2f D 2 = κ2 ǫ 2 α(1 − α)2 (2 − α) 1+ t − t∗ 1 ln 0 (1 − κ)ǫ ln[2(1 − κ)] = = ∗ 2(t0 −t ) ǫ ǫ 2 α(1 − α)2 (2 − α)κ2 ln[2(1 − κ)] M 2f D 2 ln . Можно показать, что приемлемыми значениями параметров этого 1 p . метода являются α = κ = 2+ 2 Основная составляющая в полученной оценке сложности имеет 1 ∗ 2(t − t ) 0 порядок 2 ln . Таким образом, условный метод уровней явǫ ǫ ляется субоптимальным (см. теорему ..). В этом методе на каждой итерации основного процесса нам необходимо найти корень t ∗j(k)( X ). По лемме .. это эквивалентно следующей задаче: min fˆk ( X ; x) | fˇk ( X ; x) ¶ 0, x ∈ Q . Другими словами, нам нужно решить задачу min t, при f (x j ) + g(x j ), x − x j ¶ t, j = 0, …, k, f¯(x j ) + ḡ(x j ), x − x j ¶ 0, j = 0, …, k, x ∈ Q. Если Q –– многогранник, то эта задача решается конечными методами линейного программирования (например, симплекс-методом). Если Q –– более сложное множество, то необходимо использовать уже методы внутренней точки. В завершение этого параграфа отметим, что можно применять и более точные модели для функциональных ограничений. Поскольку f¯(x) = max fi (x), 1¶i ¶m можно использовать модель fˇk ( X ; x) = max max fi (x j ) + 〈 gi (x j ), x − x j 〉 , 0¶ j ¶k 1¶i ¶m “Nesterov-final” — // — : — page — # Глава . Негладкая выпуклая оптимизация где gi (x j ) ∈ ∂ fi (x j ). Такая полная модель может существенно ускорить скорость сходимости всего процесса. Однако при этом каждая итерация становится более трудоемкой. Отметим, что на практике этот метод, как правило, сходится очень быстро. Есть, однако, несколько технических проблем, связанных с накоплением большого числа линейных функций в модели. Поэтому во всех практических схемах обычно присутствуют определенные стратегии избавления от старых или ненужных элементов. “Nesterov-final” — // — : — page — # Глава Структурная оптимизация § .. Самосогласованные функции Что в черном ящике? Как на самом деле работает метод Ньютона? Определение самосогласованных функций. Основные свойства. Минимизация самосогласованных функций. ... Концепция «черного ящика» в выпуклой оптимизации В этой главе мы представим основные идеи, лежащие в основе современных полиномиальных методов внутренней точки для задач нелинейной оптимизации. Для начала посмотрим на традиционную формулировку этих задач. Предположим, что мы хотим решить задачу минимизации, записанную в следующем виде: minn f0 (x) | f j (x) ¶ 0, j = 1, …, m . x ∈R Заметим, что функциональные компоненты этой задачи должны быть выпуклыми. В то же время, все стандартные методы выпуклой оптимизации для решения задач такого рода основываются на концепции черного ящика. Под этим подразумевается, что наша задача снабжена оракулом, дающим некоторую информацию о функциональных компонентах задачи в любой тестовой точке x. Этот оракул является локальным, т. е. если мы меняем форму компоненты в точке, далекой от выбранной точки x, то ответ оракула не меняется. Эти ответы содержат единственно доступную информацию, используемую в численных методах . Однако если внимательнее рассмотреть данную ситуацию, то можно увидеть определенное противоречие. Действительно, для Мы уже обсуждали данную концепцию и соответствующие методы в предыдущих главах. “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация того чтобы применять методы выпуклой оптимизации, нам необходимо быть уверенными в том, что наши функциональные компоненты выпуклы. В то же время, проверить выпуклость можно только анализируя структуру этих функций : если, например, наши функции получены из базовых выпуклых функций посредством выпуклых операций (суммирование, взятие максимума и т. д.), то можно заключить, что они выпуклы. Таким образом, функциональные компоненты исходной задачи явно не находятся в черном ящике в момент проверки их выпуклости и выбора метода минимизации. Но мы помещаем их в черный ящик по отношению к численным методам. Это является основным концептуальным противоречием стандартной теории выпуклой оптимизации . Данное обстоятельство дает некоторую надежду на ускорение методов выпуклой оптимизации за счет использования знаний об их структуре. К сожалению, понятие структуры является очень размытым и трудно формализуемым. Одним из способов описания структуры является фиксация аналитического типа функциональных компонент. Например, можно рассмотреть задачи только с линейными функциями f j (x). Однако такой подход является слишком ограничительным. Стоит добавить в условия задачи хотя бы одну функциональную компоненту другого типа, и всю теорию их решения надо будет разрабатывать заново. С другой стороны, очевидно, что, имея доступ к структуре функций, можно попробовать изменить аналитическую форму задачи. Можно, например, пытаться переписать задачу в другой эквивалентной форме, используя нетривиальные преобразования координат или ограничений, вводя дополнительные переменные и т. д. Однако это обычно не приносит явной пользы, до тех пор пока не сформулирована конечная цель таких преобразований. Давайте попытаемся это сделать. Для начала заметим, что иногда переформулировка исходной задачи может рассматриваться как часть численного метода ее решения. Мы начинаем со сложной задачи P и шаг за шагом упрощаем Численная проверка выпуклости –– задача безнадежная. Тем не менее, выводы теории о методах минимизации, основанных на ответах оракула, остаются, конечно же, справедливыми. “Nesterov-final” — // — : — page — # § .. Самосогласованные функции ее структуру до некоторой тривиальной формы (или до задачи, которую мы умеем решать): P −→ … −→ ( f ∗ , x ∗ ). В качестве примера рассмотрим классический подход к решению системы линейных уравнений Ax = b. Можно поступить следующим образом. . Проверим, что A –– симметрическая и положительно определенная матрица. Иногда это можно сделать, приняв во внимание ее происхождение. . Применим разложение Холесского для A: A = LLT , где L –– нижнетреугольная матрица. Образуем две вспомогательные системы Ly = b, LT x = y. . Найдем решение этих систем. Эта процедура выглядит как последовательное преобразование исходной задачи к удобному для решения виду. На секунду представим, что мы не знаем, как решать системы линейных уравнений. Для того чтобы обнаружить данную процедуру их решения, следовало бы проделать следующие шаги. . Найти класс задач, который мы умеем эффективно решать (в нашем примере это линейные системы с треугольной матрицей). . Описать правила преобразования исходной задачи в нужную форму. . Описать класс задач, для которых эти преобразования являются инвариантными. Оказывается, данный подход применим и к задачам оптимизации. Прежде всего, нам надо найти некий базовый численный метод и специальную формулировку задачи, для которой этот метод является эффективным. Мы увидим, что для наших целей наиболее подходящим кандидатом будет метод Ньютона (см. п. ..), приме “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация няемый в рамках методов последовательной безусловной минимизации (см. п. ..). В следующем пункте мы укажем на некоторые недостатки стандартного анализа метода Ньютона. В качестве альтернативы будет выведено семейство особых выпуклых функций –– самосогласованных функций и самосогласованных барьеров, которые можно эффективно минимизировать с помощью метода Ньютона. Мы используем эти объекты при описании преобразованной версии исходной задачи, которая в дальнейшем будет называться барьерной моделью. Эта модель заменит нам стандартную функциональную модель задачи оптимизации, которая использовалась во всех предыдущих главах. ... Как работает метод Ньютона? Посмотрим на стандартные результаты о локальной сходимости метода Ньютона (они были приведены в теореме ..). Мы пытаемся найти точку безусловного локального минимума x ∗ дважды дифференцируемой функции f (x). Предположим, что ◦ f ′′ (x ∗ ) lIn с некоторой константой l > 0, ◦ k f ′′ (x) − f ′′ ( y) k ¶ M k x − y k для всех x, y ∈ Rn . Предположим также, что начальная точка метода Ньютона x0 расположена достаточно близко к x ∗ : k x0 − x ∗ k < r̄ = 2l . 3M (.) Тогда можно доказать корректность правил построения последовательности xk+1 = xk − f ′′ (xk ]−1 f ′ (xk ) , k ¾ 0. (.) Более того, k xk − x ∗ k < r̄ при всех k ¾ 0, и метод Ньютона (.) сходится квадратично: k x k +1 − x ∗ k ¶ M k xk − x ∗ k2 . 2(l − M k xk − x ∗ k) Что может насторожить в этом классическом результате? Обратим внимание на то, что описание области квадратичной сходимости (.) для этого метода дается в терминах стандартного скаляр “Nesterov-final” — // — : — page — # § .. Самосогласованные функции ного произведения 〈 x, y 〉 = n P x (i) y (i) . i =1 Если выбрать некий новый базис в Rn , то все параметры этого описания меняются: изменятся метрика, гессиан, границы l и M. Но посмотрим на сам алгоритм метода Ньютона. А именно, пусть A –– невырожденная (n × n)-матрица. Рассмотрим функцию ϕ ( y) = f (Ay). Для понимания природы метода Ньютона очень важным является следующий результат. Лемма ... Пусть {xk } –– последовательность, образованная методом Ньютона для функции f : −1 ′ xk+1 = xk − f ′′ (xk ) f (xk ), k ¾ 0. Рассмотрим последовательность { yk }, образованную методом Ньютона для функции ϕ : −1 ′ yk+1 = yk − ϕ ′′ ( yk ) ϕ ( yk ), k ¾ 0, y0 = A−1 x0 . Тогда yk = A−1 xk при всех k ¾ 0. Доказательство. Пусть yk = A−1 xk при некотором k ¾ 0. В этом случае −1 ′ −1 T ′ yk+1 = yk − ϕ ′′ ( yk ) ϕ ( yk ) = yk − AT f ′′ (Ayk )A A f (Ayk ) = ′′ −1 ′ −1 −1 −1 = A xk − A f (xk ) f (xk ) = A xk+1 . Таким образом, метод Ньютона инвариантен по отношению к аффинному преобразованию координат. Поэтому его настоящая область квадратичной сходимости не зависит от конкретного выбора скалярного произведения. Она будет зависеть только от локальной топологической структуры функции f (x) в окрестности точки минимума. Попытаемся понять, что было не так в наших предположениях. Наиболее важное из них –– это липшицевость гессиана: k f ′′ (x) − f ′′ ( y) k ¶ M k x − y k ∀ x, y ∈ Rn . “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Предположим, что f ∈ C 3 (Rn ). Пусть 1 ′′ f ′′′ (x)[u] = lim f (x + αu) − f ′′ (x) . α→0 α Отметим, что объект в правой части представляет собой (n × n)матрицу. Тогда наше предположение эквивалентно неравенству k f ′′′ (x)[u] k ¶ M k u k, откуда следует, что в любой точке x ∈ Rn выполняется неравенство f ′′′ (x)[u]υ, υ ¶ M k u k · kυk2 ∀u, υ ∈ Rn . Левая часть этого неравенства инвариантна по отношению к аффинным преобразованиям координат. Однако правая часть таким свойством не обладает. Поэтому было бы естественно найти аффинно-инвариантную замену для стандартной нормы k · k. Основной кандидат для такой замены достаточно очевиден: это норма, определяемая самим гессианом f ′′ (x), а именно k u k f ′′ (x) = f ′′ (x)u, u 1/2 . Такой выбор приводит нас к классу самосогласованных функций. ... Определение самосогласованной функции Рассмотрим выпуклую и замкнутую функцию f (x) ∈ C 3 (dom f ) с открытой областью определения. Зафиксируем некоторую точку x ∈ dom f и направление u ∈ Rn . Рассмотрим функцию ϕ (x; t) = f (x + tu) как функцию переменной t ∈ dom ϕ (x; ·) ⊆ R. Введем обозначения Df (x)[u] = ϕ ′ (x; t) = f ′ (x), u , D 2 f (x)[u, u] = ϕ ′′ (x; t) = f ′′ (x)u, u = k u k2f ′′ (x) , D 3 f (x)[u, u, u] = ϕ ′′′ (x; t) = f ′′′ (x)[u]u, u . Определение ... Назовем функцию f самосогласованной, если найдется такая константа M f ¾ 0, что имеет место неравенство D 3 f (x)[u, u, u] ¶ M f k u k3f ′′ (x) для любых x ∈ dom f , u ∈ Rn . “Nesterov-final” — // — : — page — # § .. Самосогласованные функции Заметим, что такие функции нечасто встречаются в практических приложениях. Они нам необходимы только для построения барьерной модели исходной задачи. Скоро мы увидим, что их можно легко минимизировать с помощью метода Ньютона. Обратим внимание на эквивалентное определение самосогласованных функций. Лемма ... Функция f является самосогласованной тогда и только тогда, когда для любого x ∈ dom f и любых u1 , u2 , u3 ∈ Rn выполнено неравенство D 3 f (x)[u1, u2 , u3 ] ¶ M f 3 Q i =1 k ui k f ′′ (x) . (.) Примем это утверждение без доказательства, поскольку оно потребовало бы привлечения некоторых результатов из теории трилинейных симметрических форм. В дальнейшем мы часто будем использовать определение .., для того чтобы доказать самосогласованность некоторых функций, в то время как лемма .. будет полезна при исследовании их специфических свойств. Рассмотрим несколько примеров. Пример ... . Линейная функция. Пусть Тогда f (x) = α + 〈a, x 〉, f ′ (x) = a, dom f = Rn . f ′′ (x) = 0, f ′′′ (x) = 0, и мы получаем, что M f = 0. . Выпуклая квадратичная функция. Рассмотрим функцию 1 2 f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉, где A = AT 0. Тогда f ′ (x) = a + Ax, f ′′ (x) = A, dom f = Rn , f ′′′ (x) = 0, и мы заключаем, что M f = 0. . Логарифмический барьер для луча. Рассмотрим функцию одной переменной f (x) = − ln x, dom f = x ∈ R1 | x > 0 . “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Тогда 1 x f ′ (x) = − , f ′′ (x) = 1 , x2 f ′′′ (x) = − 2 . x3 Поэтому f (x) –– самосогласованная функция с константой M f = 2. . Логарифмический барьер для множества второго порядка. Пусть A = AT 0. Введем в рассмотрение вогнутую квадратичную функцию 1 ϕ (x) = α + 〈a, x 〉 − 〈 Ax, x 〉. 2 Определим f (x) = − ln ϕ (x), dom f = x ∈ Rn | ϕ (x) > 0 . В этом случае 1 Df (x)[u] = − 〈a, u〉 − 〈 Ax, u〉 , ϕ (x) 2 1 1 D f (x)[u, u] = 2 〈a, u〉 − 〈 Ax, u〉 + 〈 Au, u〉, ϕ (x) ϕ (x) 3 2 〈a, u〉 − 〈 Ax, u〉 − D 3 f (x)[u, u, u] = − 3 ϕ (x) 3 − 2 〈a, u〉 − 〈 Ax, u〉 〈 Au, u〉. ϕ (x) 2 Введем обозначение ω1 = Df (x)[u] и ω2 = 1 〈 Au, u〉. Тогда ϕ (x) D 2 f (x)[u, u] = ω21 + ω2 ¾ 0, D 3 f (x)[u, u, u] = 2ω31 + 3ω1 ω2 . Нетривиальным является только случай при ω1 6= 0. Пусть α = ω2 /ω21 . Тогда D 3 f (x)[u, u, u] 2 3/2 (D f (x)[u, u]) ¶ 2(1 + 32 α) 2|ω1 |3 + 3|ω1 |ω2 = ¶ 2. 2 3/2 (1 + α)3/2 (ω1 + ω2 ) Таким образом, эта функция является самосогласованной с константой M f = 2. . Легко проверить, что ни одна из следующих функций одной переменной не является самосогласованной: f (x) = e x ; f (x) = 1 , x > 0, p > 0; xp f (x) = | x | p , p > 2. Однако не надо думать, что самосогласованность каким-либо образом связана с логарифмической функцией. Можно показать, например, что функция f (x) = x 2 + 1/ x самосогласованна при x > 0. “Nesterov-final” — // — : — page — # § .. Самосогласованные функции Приведем теперь основные свойства самосогласованных функций. Теорема ... Пусть функции fi являются самосогласованными с константами Mi , i = 1, 2, и пусть α, β > 0. Тогда функция f (x) = = α f1 (x) + β f2 (x) является самосогласованной с константой § ª 1 1 M f = max p M1 , p M2 α β и dom f = dom f1 ∩ dom f2 . Доказательство. Из теоремы .. следует, что f есть выпуклая и замкнутая функция. Зафиксируем некоторые x ∈ dom f и u ∈ Rn . Заметим,что 3/2 D 3 fi (x)[u, u, u] ¶ Mi D 2 fi (x)[u, u] , i = 1, 2. Пусть ωi = D 2 fi (x)[u, u] ¾ 0. Тогда D 3 f (x)[u, u, u] α D 3 f1 (x)[u, u, u] + β D 3 f2 (x)[u, u, u] ¶ 1 3/2 ¶ 3/2 D 2 f (x)[u, u] α D f1 (x)[u, u] + β D 2 f2 (x)[u, u] 3/2 ¶ 3/2 α M 1 ω1 + β M 2 ω2 3/2 [αω1 + βω2 ] . Правая часть этого неравенства не меняется при замене (ω1 , ω2 ) на (t ω1 , t ω2 ) с t > 0. Поэтому можно считать, что αω1 + β ω2 = 1. Пусть ξ = αω1 . Тогда правая часть последнего неравенства становится равной M1 M2 p ξ3/2 + p (1 − ξ)3/2 , α β ξ ∈ [0, 1]. Эта функция выпукла по ξ. Поэтому она достигает своего максимального значения в конечной точке отрезка [0, 1] (см. следствие ..). Следствие ... Пусть функция f является самосогласованной с некоторой константой M f . Если A = AT 0, то функция 1 2 ϕ (x) = α + 〈a, x 〉 + 〈 Ax, x 〉 + f (x) “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация также является самосогласованной с константой Mϕ = M f . Доказательство. Мы уже видели, что любая выпуклая квадратичная функция самосогласованна с нулевой константой. Следствие ... Пусть функция f является самосогласованной с некоторой константой M f и α > 0. Тогда функция ϕ (x) =pα f (x) также является самосогласованной с константой Mϕ = (1/ α)M f . Покажем, что самосогласованность является аффинно-инвариантным свойством. Теорема ... Пусть A (x) = Ax + b: Rn → Rm есть линейный оператор. Предположим, что функция f ( y) самосогласованна с константой M f . Тогда функция ϕ (x) = f (A (x)) также самосогласованна и Mϕ = M f . Доказательство. Функция ϕ (x) выпуклая и замкнутая, что следует из теоремы ... Зафиксируем некоторые x ∈ dom ϕ = {x : A (x) ∈ ∈ dom f } и u ∈ Rn . Пусть y = A (x), υ = Au. Тогда D ϕ (x)[u] = f ′ (A (x)), Au = f ′ ( y), υ , D 2 ϕ (x)[u, u] = f ′′ (A (x))Au, Au = 〈 f ′′ ( y)υ, υ〉, D 3 ϕ (x)[u, u, u] = D 3 f (A (x))[Au, Au, Au] = D 3 f ( y)[υ, υ, υ]. Поэтому D 3 ϕ (x)[u, u, u] = D 3 f ( y)[υ, υ, υ] ¶ M f f ′′ ( y)υ, υ 3/2 = M f D 2 ϕ (x)[u, u] . 3/2 = Следующее утверждение показывает, что локальные свойства самосогласованной функции могут быть связаны с некоторыми глобальными свойствами ее области определения. Теорема ... Пусть функция f самосогласованна. Если dom f не содержит прямых линий в Rn , то гессиан f ′′ (x) невырожден в любой точке x ∈ dom f . Доказательство. Предположим, что 〈 f ′′ (x)u, u〉 = 0 для некоторых x ∈ dom f и u ∈ Rn , u 6= 0. Рассмотрим точки yα = x + αu ∈ dom f и функцию ψ(α) = f ′′ ( yα )u, u . “Nesterov-final” — // — : — page — # § .. Самосогласованные функции Заметим, что ψ′ (α) = D 3 f ( yα )[u, u, u] ¶ 2ψ(α)3/2 , ψ(0) = 0. Так как ψ(α) ¾ 0, получаем, что ψ′ (0) = 0. Поэтому эта функция является частью решения следующей системы дифференциальных уравнений: ¨ ψ′ (α) = 2ψ(α)3/2 − ξ(α), ψ(0) = ξ(0) = 0, ξ′ (α) = 0. Однако эта система имеет единственное тривиальное решение. Значит, ψ(α) = 0 для всех допустимых значений α. Таким образом, мы показали, что функция ϕ (α) = f ( yα ) линейна: ϕ (α) = f (x) + f ′ (x), yα − x + Rα Rλ f ′′ ( yτ )u, u dτd λ = 0 0 = f (x) + α f ′ (x), u . Предположим, что существует такое ᾱ, что yᾱ ∈ ∂(dom f ). Рассмотрим такую последовательность {αk }, что αk ↑ ᾱ. Тогда zk = ( yαk , ϕ (αk )) → z̄ = ( yᾱ , ϕ (ᾱ)). Заметим, что zk ∈ epi f , а z̄ ∈ / epi f , так как yᾱ ∈ / dom f . Получили противоречие, поскольку функция f замкнута. Рассматривая направление −u и предполагая, что этот луч пересекает границу области определения функции f , снова приходим к противоречию. Поэтому заключаем, что yα ∈ dom f при всех α. Однако это приводит к противоречию с предположениями теоремы. Наконец, опишем поведение самосогласованной функции при подходе к границе ее области определения. Теорема ... Пусть f –– самосогласованная функция. Тогда для любой точки x̄ ∈ ∂(dom f ) и любой последовательности {xk } ⊂ dom f : xk → x̄ выполняется условие f (xk ) → +∞. Доказательство. Заметим, что последовательность { f (xk )} ограничена снизу: f (xk ) ¾ f (x0 ) + f ′ (x0 ), xk − x0 . “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Предположим, что она ограничена и сверху. Тогда у нее есть хотя бы одна предельная точка f¯. Можно считать, что для рассматриваемой последовательности эта предельная точка единственна. Поэтому zk = (xk , f (xk )) → z̄ = ( x̄, f¯). Заметим, что zk ∈ epi f , а z̄ ∈ / epi f , поскольку x̄ ∈ / dom f . Получили противоречие, так как функция f замкнута. Таким образом, мы доказали, что f (x) –– барьерная функция для cl(dom f ) (см. п. ..). ... Основные неравенства Зафиксируем некоторую самосогласованную функцию f (x) и предположим, что константа M f равна 2 (в противном случае ее всегда можно промасштабировать, см. следствие ..). Будем называть такие функции стандартными самосогласованными. Предположим также, что dom f не содержит прямых (что означает невырожденность всех гессианов f ′′ (x), см. теорему ..). Введем обозначения k u k x = f ′′ (x)u, u kυk∗x ′′ −1 1/2 , = [ f (x)] υ, υ 1/2 , λ f (x) = [ f ′′ (x)]−1 f ′ (x), f ′ (x) 1/2 . u〉| ¶ kυk∗x Очевидно, |〈υ, · k u k x . Назовем k u k x локальной нормой для направления u по отношению к x, а λ f (x) = k f ′ (x) k∗x –– локальной двойственной нормой градиента f ′ (x). Зафиксируем x ∈ dom f и u ∈ Rn , u 6= 0. Рассмотрим функцию одной переменной ϕ (t) = 1 〈 f ′′ (x + tu)u, u〉1/2 с областью определения dom ϕ = t ∈ R1 | x + tu ∈ dom f . Лемма ... Для всех допустимых значений t выполнено неравенство |ϕ ′ (t) | ¶ 1. Иногда λ f (x) называют ньютоновской вариацией функции f в точке x. “Nesterov-final” — // — : — page — # § .. Самосогласованные функции Доказательство. Действительно, ϕ ′ (t) = − f ′′′ (x + tu)[u, u, u] . 2〈 f ′′ (x + tu)u, u〉3/2 Поэтому |ϕ ′ (t) | ¶ 1 в силу определения ... Следствие ... Область определения функции ϕ (t) содержит интервал (−ϕ (0), ϕ (0)). Доказательство. Так как f (x + tu) → ∞ при стремлении x + tu к границе множества dom f (см. теорему ..), функция 〈 f ′′ (x + tu)u, u〉 не может быть ограниченной. Поэтому dom ϕ ≡ {t | ϕ (t) > 0}. Остается заметить, что ϕ (t) ¾ ϕ (0) − | t | в силу леммы ... Рассмотрим эллипсоид следующего вида: W 0 (x; r) = y ∈ Rn | k y − x k x < r , W (x; r) = cl W 0 (x; r) ≡ y ∈ Rn | k y − x k x ¶ r . Этот эллипсоид называется эллипсоидом Дикина функции f в точке x. Теорема ... . Для любого x ∈ dom f имеет место включение W 0 (x; 1) ⊆ dom f . . Для всех x, y ∈ dom f выполнено следующее неравенство: k y − x ky ¾ k y − x kx . 1 + k y − x kx (.) k y − x kx . 1 − k y − x kx (.) . Если k y − x k x < 1, то k y − x ky ¶ Доказательство. . Из следствия .. вытекает, что dom f содержит множество y = x + tu | t 2 k u k2x < 1 “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация (так как ϕ (0) = 1/k u k x ). Это и есть в точности эллипсоид W 0 (x; 1). . Выберем u = y − x. Тогда ϕ (1) = 1 , k y − x ky ϕ (0) = 1 k y − x kx и ϕ (1) ¶ ϕ (0) + 1 в силу леммы .., а это и есть неравенство (.). . Если k y − x k x < 1, то ϕ (0) > 1, и по лемме .. мы получаем ϕ (1) ¾ ϕ (0) − 1. Это в точности неравенство (.). Теорема ... Пусть x ∈ dom f . Тогда для любого y ∈ W 0 (x; 1) имеет место неравенство 2 1 1 − k y − x k x f ′′ (x) f ′′ ( y) f ′′ (x). (.) 2 (1 − k y − x k x ) Доказательство. Зафиксируем некоторое u ∈ Rn , u 6= 0. Рассмотрим функцию ψ(t) = f ′′ (x + t( y − x))u, u , t ∈ [0, 1]. Пусть yt = x + t( y − x). Тогда в силу леммы .. и неравенства (.) получаем |ψ′ (t) | = D 3 f ( yt )[ y − x, u, u] ¶ 2k y − x k yt k u k2y = t k yt − x k x 2 2 = k yt − x k yt ψ(t) ¶ · · ψ(t) = t t 1 − k yt − x k x 2k y − x k x = · ψ(t). 1 − tk y − x kx Отсюда следует, что 2(ln(1 − t k y − x k x ))′ ¶ (ln ψ(t))′ ¶ −2(ln(1 − t k y − x k x ))′ . Проинтегрируем это неравенство по t ∈ [0, 1]. Получим (1 − k y − x k x )2 ¶ ψ(1) 1 , ¶ ψ(0) (1 − k y − x k x )2 а это есть в точности неравенство (.). Следствие ... Пусть x ∈ dom f и r = k y − x k x < 1. Тогда можно оценить матрицу G= R1 0 f ′′ (x + τ( y − x)) dτ “Nesterov-final” — // — : — page — # § .. Самосогласованные функции следующим образом: (1 − r + r 2 ′′ 1 ) f (x) G f ′′ (x). 3 1−r Доказательство. В самом деле, по теореме .. имеем G= R1 0 R1 f ′′ (x + τ( y − x)) dτ f ′′ (x) · (1 − τr)2 dτ = 0 1 = 1 − r + r 2 f ′′ (x), 3 G f ′′ (x) · R1 0 dτ 1 = f ′′ (x). 1−r (1 − τr)2 Еще раз обратим внимание на наиболее важные утверждения, доказанные нами. ◦ В любой точке x ∈ dom f можно указать эллипсоид W 0 (x; 1) = {x ∈ Rn | f ′′ (x)( y − x), y − x) < 1}, принадлежащий выпуклой области dom f . ◦ Внутри эллипсоида W (x; r), r ∈ [0, 1), функция f почти квадратична: 1 (1 − r)2 f ′′ (x) f ′′ ( y) f ′′ (x) 2 (1 − r) при всех y ∈ W (x; r). Качество этой квадратичной аппроксимации можно регулировать в соответствии с нашими целями, выбирая r достаточно маленьким. Эти два факта создают основу для практически всех последующих результатов. Завершим этот пункт формулировкой утверждений, оценивающих рост самосогласованных функций относительно их линейных аппроксимаций. Теорема ... Для любых x, y ∈ dom f имеют место неравенства f ′ ( y) − f ′ (x), y − x ¾ k y − x k2x 1 + k y − x kx , f ( y) ¾ f (x) + f ′ (x), y − x + ω k y − x k x , (.) (.) где ω(t) = t − ln(1 + t). “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Доказательство. Пусть yτ = x + τ( y − x), τ ∈ [0, 1], и r = k y − x k x . Тогда исходя из неравенства (.) получаем f ′ ( y) − f ′ (x), y − x = = R1 0 R1 1 0 ¾ f ′′ ( yτ )( y − x), y − x dτ = R1 0 τ2 k yτ − x k2y dτ ¾ τ r R r2 1 r2 . dτ = r dτ = 1+r (1 + τr)2 (1 + t)2 0 Далее, используя неравенство (.), получим f ( y) − f (x) − f ′ (x), y − x = = R1 0 R1 1 0 ¾ = f ′ ( yτ ) − f ′ (x), y − x dτ = R1 0 Rr 0 τ f ′ ( yτ ) − f ′ (x), yτ − x dτ ¾ k yτ − x k2x τ(1 + k yτ − x k x ) dτ = R1 0 τr 2 dτ = 1 + τr tdt = ω(r). 1+t Теорема ... Пусть x ∈ dom f и k y − x k x < 1. Тогда 0 ¶ f ′ ( y) − f ′ (x), y − x ¶ k y − x k2x 1 − k y − x kx , 0 ¶ f ( y) − f (x) − f ′ (x), y − x ¶ ω∗ k y − x k x , (.) (.) где ω∗ (t) = −t − ln(1 − t). Доказательство. Пусть yτ = x + τ( y − x), τ ∈ [0, 1], и r = k y − x k x . Поскольку k yτ − x k < 1, принимая во внимание неравенство (.), “Nesterov-final” — // — : — page — # § .. Самосогласованные функции имеем f ′ ( y) − f ′ (x), y − x = = R1 0 R1 1 0 ¶ f ′′ ( yτ )( y − x), y − x dτ = R1 0 τ2 k yτ − x k2y dτ ¶ τ r R r2 1 r2 dτ = r dt = . 2 1−r (1 − τr) (1 − t)2 0 Далее, используя неравенство (.), получаем f ( y) − f (x) − f ′ (x), y − x = = R1 0 R1 1 τ 0 ¶ = f ′ ( yτ ) − f ′ (x), y − x dτ = f ′ ( yτ ) − f ′ (x), yτ − x dτ ¶ R1 0 Rr 0 k yτ − x k2x τ(1 − k yτ − x k x ) dτ = R1 0 τr 2 dτ = 1 − τr tdt = ω∗ (r). 1−t Теорема ... Неравенства (.), (.), (.), (.), (.) и (.) являются необходимыми и достаточными условиями для того, чтобы функция была стандартной самосогласованной. Доказательство. Мы доказали две цепочки следствий: определение .. ⇒ (.) ⇒ (.) ⇒ (.), определение .. ⇒ (.) ⇒ (.) ⇒ (.). Покажем, что из неравенства (.) следует определение ... Пусть x ∈ dom f и x − αu ∈ dom f для α ∈ [0, ǫ ). Рассмотрим функцию ψ(α) = f (x − αu), α ∈ [0, ǫ ). Пусть r = k u k x ≡ [ϕ ′′ (0)]1/2 . Считая, что неравенство (.) выполняется при всех x, y ∈ dom f , получаем 1 2 1 2 ψ(α) − ψ(0) − ψ′ (0)α − ψ′′ (0)α2 ¾ ω(αr) − α2 r 2 . “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Отсюда следует, что h i 1 ′′′ 1 ψ (0) = lim ψ(α) − ψ(0) − ψ′ (0)α − ψ′′ (0)α2 ¾ 2 6 α↓0 i h 1 1 2 2 r ¾ lim 3 ω(αr) − α r = lim 2 ω′ (αr) − αr = 2 α↓0 α α↓0 3α i h r αr r3 − αr = − . = lim 2 α↓0 3α 1 + αr 3 Таким образом, D 3 f (x)[u, u, u] = −ψ′′ (0) ¶ ψ′′′ (0) ¶ 2[ψ′′ (0)]3/2 , что совпадает с определением .. при M f = 2. Аналогично можно показать, что из неравенства (.) также следует неравенство из определения ... Приведенные теоремы записаны с помощью двух вспомогательных функций ω(t) = t − ln(1 + t) и ω∗ (τ) = −τ − ln(1 − τ). Отметим, что t 1 ω′ (t) = > 0, ¾ 0, ω′′ (t) = 2 ω′∗ (τ) = 1+t τ ¾ 0, 1−τ ω′′∗ (τ) = (1 + t) 1 > 0. (1 − τ)2 Поэтому ω(t) и ω∗ (τ) –– выпуклые функции. В дальнейшем мы часто будем использовать разные соотношения между этими функциями. Для удобства ссылок мы приводим их в одном утверждении. Лемма ... При любых t ¾ 0 и τ ∈ [0, 1) имеют место следующие соотношения: ω′ (ω′∗ (τ)) = τ, ω(t) = max [ξt − ω∗ (ξ)], 0¶ξ<1 ω′∗ (ω′ (t)) = t, ω∗ (τ) = max[ξτ − ω(ξ)], ξ¾0 ω(t) + ω∗ (τ) ¾ τt, ′ ω∗ (τ) = τω∗ (τ) − ω(ω′∗ (τ)), ω(t) = t ω′ (t) − ω∗ (ω′ (t)). Оставим доказательство этой леммы читателю в качестве упражнения. Для опытного читателя заметим, что все эти тождества следуют из соотношений двойственности между функциями ω(t) и ω∗ (t). Докажем два последних неравенства. “Nesterov-final” — // — : — page — # § .. Самосогласованные функции Теорема ... Для любых x, y ∈ dom f выполняется неравенство f ( y) ¾ f (x) + f ′ (x), y − x +ω k f ′ ( y) − f ′ (x) k∗y . (.) Если вдобавок k f ′ ( y) − f ′ (x) k∗y < 1, то f ( y) ¶ f (x) + f ′ (x), y − x + ω∗ k f ′ ( y) − f ′ (x) k∗y . (.) Доказательство. Зафиксируем произвольные x, y ∈ dom f . Рассмотрим функцию ϕ (z) = f (z) − f ′ (x), z , z ∈ dom f . Заметим, что эта функция является самосогласованной и ϕ ′ (x) = 0. Поэтому, используя неравенство (.), получим f (x) − f ′ (x), x = ϕ (x) = min ϕ (z) ¶ z ∈dom f ¶ min ϕ ( y) + ϕ ′ ( y), z − y + ω∗ k z − y k y = z ∈dom f = ϕ ( y) − ω kϕ ′ ( y) k∗y = = f ( y) − 〈 f ′ (x), y 〉 − ω k f ′ ( y) − f ′ (x) k∗y , откуда следует неравенство (.). Для проверки неравенства (.) используем те же рассуждения, что и при доказательстве неравенства (.). ... Минимизация самосогласованных функций Рассмотрим задачу минимизации: min f (x). x ∈dom f (.) Следующая теорема представляет достаточное условие существования ее решения. Напомним, что f предполагается стандартной самосогласованной функцией, а dom f не содержит прямых. Теорема ... Если для некоторого x ∈ dom f справедливо неравенство λ f (x) < 1, то решение x ∗f задачи (.) существует и единственно. “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Доказательство. Действительно, из неравенства (.) следует, что для любого y ∈ dom f выполняется соотношения f ( y) ¾ f (x) + f ′ (x), y − x + ω k y − x k x ¾ ¾ f (x) − k f ′ (x) k∗x · k y − x k x + ω k y − x k x = = f (x) − λ f (x) · k y − x k x + ω k y − x k x . Поэтому для любого y ∈ L f ( f (x)) = { y ∈ Rn | f ( y) ¶ f (x)} получаем 1 ω k y − x k x ¶ λ f (x) < 1. k y − x kx 1 1 Заметим, что функция ω(t) = 1 − ln(1 + t) строго возрастает по t. t t Отсюда следует, что k y − x k x ¶ t̄, где t̄ –– единственный положительный корень уравнения (1 − λ f (x))t = ln(1 + t). Значит, множество L f ( f (x)) ограничено, и поэтому x ∗f существует. Единственность вытекает из неравенства (.), поскольку при всех y ∈ dom f имеем f ( y) ¾ f (x ∗f ) + ω k y − x ∗f k x ∗f . Таким образом, мы доказали, что локальное условие λ f (x) < 1 несет в себе информацию о глобальном поведении функции f , т. е. о существовании точки минимума x ∗f . Заметим, что результат теоремы .. нельзя усилить. Пример ... Зафиксируем ǫ > 0. Рассмотрим скалярную функцию fǫ (x) = ǫ x − ln x, x > 0. Как видно из примера .. и следствия .., эта функция является самосогласованной. Заметим, что 1 x fǫ′ (x) = ǫ − , fǫ′′ = 1 . x2 Поэтому λ fǫ (x) = | 1 − ǫ x |. Значит, при ǫ = 0 имеет место равенство λ f0 (x) = 1 для любого x > 0. Таким образом, функция f0 не является ограниченной снизу. Если ǫ > 0, то x ∗f = 1/ǫ . Мы можем гарантиǫ ровать существование точки минимума, находясь при этом в точке x = 1, даже если ǫ сколь угодно мало. “Nesterov-final” — // — : — page — # § .. Самосогласованные функции Рассмотрим теперь демпфированный метод Ньютона. Демпфированный метод Ньютона (.) . Выберем x0 ∈ dom f . . Вычисляем ′′ −1 ′ 1 x k +1 = x k − f (xk ) f (xk ), k ¾ 0. 1 + λ f (xk ) Теорема ... Для любого k ¾ 0 выполняется неравенство f (xk+1) ¶ f (xk ) − ω(λ f (xk )). (.) λ = Доказательство. Пусть λ = λ f (xk ). Тогда k xk+1 − xk k xk = 1+λ = ω′ (λ) < 1. Поэтому, пользуясь неравенством (.) и леммой .., получаем f (xk+1 ) ¶ f (xk ) + f ′ (xk ), xk+1 − xk + ω∗ k xk+1 − xk k x = = f (xk ) − λ2 + ω∗ (ω′ (λ)) = 1+λ = f (xk ) − λω′ (λ) + ω∗ (ω′ (λ)) = f (xk ) − ω(λ). Таким образом, для всех x ∈ dom f , λ f (x) ¾ β > 0, один шаг демпфированного метода Ньютона уменьшает значение f (x) по меньшей мере на константу ω(β ) > 0. Отметим, что результат теоремы .. может использоваться для получения оценок глобальной эффективности этого метода. Опишем теперь локальную сходимость стандартного метода Ньютона. Стандартный метод Ньютона (.) . Выберем x0 ∈ dom f . . Вычисляем −1 ′ xk+1 = xk − f ′′ (xk ) f (xk ), k ¾ 0. Сходимость этого метода можно охарактеризовать разными способами. Можно оценить скорость сходимости для невязки по функции f (xk ) − f (x ∗f ), для локальной нормы градиента λ f (xk ) = k f ′ (xk ) k∗xk “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация или для локального расстояния до точки минимума k xk − x ∗f k xk . Наконец, можно оценивать расстояние до точки минимума в фиксированной метрике r∗ (xk ) ≡ k xk − x ∗f k x ∗f , определяемой самой точкой минимума. Докажем, что локально все эти меры эквивалентны. Теорема ... Пусть λ f (x) < 1. Тогда ω(λ f (x)) ¶ f (x) − f (x ∗f ) ¶ ω∗ (λ f (x)), (.) ω′ (λ f (x)) ¶ k x − x ∗f k x ¶ ω′∗ (λ f (x)), (.) ω(r∗ (x)) ¶ f (x) − f (x ∗f ) ¶ ω∗ (r∗ (x)), (.) где последнее неравенство верно при r∗ (x) < 1. Доказательство. Пусть r = k x − x ∗f k x и λ = λ f (x). Выполнение неравенств (.) следует из теоремы ... Далее, с помощью неравенства (.) получаем r2 ¶ f ′ (x), x − x ∗f ¶ λr, 1+r а это правая часть неравенства (.). Если r ¾ 1, то левая часть оказывается тривиальной. Предположим, что r < 1. Тогда f ′ (x) = = G(x − x ∗f ), где R1 G = f ′′ (x ∗f + τ(x − x ∗f )) dτ, 0 и λ2f (x) = [ f ′′ (x)]−1 G(x − x ∗f ), G(x − x ∗f ) ¶ k H k2 r 2 , где H = [ f ′′ (x)]−1/2 G[ f ′′ (x)]−1/2 . В силу следствия .. имеем G Поэтому k H k ¶ 1 , и можно заключить, что 1−r λ2f (x) ¶ 1 f ′′ (x). 1−r r2 = (ω′∗ (r))2 . (1 − r)2 “Nesterov-final” — // — : — page — # § .. Самосогласованные функции Таким образом, λ f (x) ¶ ω′∗ (r). Применяя ω′ (·) к обеим частям, получим оставшуюся часть неравенства (.). Наконец, неравенства (.) следуют из неравенств (.) и (.). Оценим локальную скорость сходимости стандартного метода Ньютона (.). Это удобно сделать через λ f (x) –– локальную норму градиента. Теорема ... Пусть x ∈ dom f и λ f (x) < 1. Тогда точка x+ = x − [ f ′′ (x)]−1 f ′ (x) принадлежит dom f и верно неравенство λ (x) 2 f . λ f (x+ ) ¶ 1 − λ f (x) Доказательство. Пусть p = x+ − x, λ = λ f (x). Тогда k p k x = λ < 1. Поэтому x+ ∈ dom f (см. теорему ..). Заметим, что по теореме .. выполняется неравенство λ f (x+ ) = [ f ′′ (x+ )]−1 f ′ (x+ ), f ′ (x+ ) ¶ Далее, 1/2 ¶ 1 1 k f ′ (x+ ) k x = k f ′ (x+) k x . 1−λ 1 − k p kx f ′ (x+ ) = f ′ (x+ ) − f ′ (x) − f ′′ (x)(x+ − x) = Gp, R1 где G = [ f ′′ (x + τ p) − f ′′ (x)] dτ. Значит, 0 k f ′ (x+ ) k2x = [ f ′′ (x)]−1 Gp, Gp ¶ k H k2 · k p k2x , где H = [ f ′′ (x)]−1/2 G[ f ′′ (x)]−1/2 . Из следствия .. получаем 1 λ −λ + λ2 f ′′ (x) G f ′′ (x). 3 1−λ o n λ 1 λ Поэтому k H k ¶ max , λ − λ2 = , и, следовательно, 1−λ λ2f (x+ ) ¶ 3 1−λ 1 λ4 k f ′ (x+ ) k2x ¶ . 2 (1 − λ)4 (1 − λ) “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Теорема .. дает нам следующее описание множества квадратичной сходимости метода (.): λ f (x) < λ̄ = p 3− 5 = 0,3819…, 2 где λ̄ –– корень уравнения λ/(1 − λ)2 = 1. В этом случае можно гарантировать выполнение неравенства λ f (x+ ) < λ f (x). Таким образом, полученные результаты приводят нас к следующей стратегии решения исходной задачи (.). ◦ Первый этап: λ f (xk ) ¾ β , где β ∈ (0, λ̄). На этом этапе применяется демпфированный метод Ньютона. На каждой итерации метода выполнено неравенство f (xk+1 ) ¶ f (xk ) − ω(β ). Следовательно, число итераций этого этапа ограничено: 1 N¶ f (x0 ) − f (x ∗f ) . ω(β ) ◦ Второй этап: λ f (xk ) ¶ β . Применяется стандартный метод Ньютона. Этот алгоритм сходится квадратично: λ (x ) 2 βλ (x ) f k f k < λ f (xk ). λ f (xk+1 ) ¶ ¶ 2 1 − λ f (xk ) (1 − β ) Можно показать, что локальная сходимость демпфированного метода Ньютона (.) также квадратична: x+ = x − [ f ′′ (x)]−1 f ′ (x) 1 + λ f (x) ⇒ λ f (x+ ) ¶ 2λ2f (x). (.) Однако предпочтительнее использовать вышеприведенную стратегию с переключением, поскольку она дает лучшую оценку вычислительной сложности всего метода. Соотношение (.) может быть доказано так же, как и утверждение теоремы ... Мы оставляем эти рассуждения читателю в качестве упражнения. § .. Самосогласованные барьеры Мотивировка. Определение самосогласованных барьеров. Основные свойства. Стандартная задача минимизации. Центральная траектория. Схема отслеживания. Как решать задачу? Задачи с функциональными ограничениями. “Nesterov-final” — // — : — page — # § .. Самосогласованные барьеры ... Мотивировка В предыдущем параграфе было показано, что метод Ньютона очень эффективен при минимизации стандартной самосогласованной функции. Такая функция всегда является барьером для своей области определения. Проверим, какие утверждения мы теперь можем доказать для классического подхода последовательной безусловной минимизации (п. ..), в котором используются самосогласованные функции. В дальнейшем мы будем рассматривать задачи условной минимизации специального вида. Введем обозначение Dom f = cl(dom f ). Определение ... Будем называть задачу условной минимизации стандартной, если она имеет форму min 〈c, x 〉 | x ∈ Q , (.) где Q –– выпуклое замкнутое множество. Мы предполагаем также известной самосогласованную функцию f , для которой Dom f = Q. Введем в рассмотрение параметрическую штрафную функцию f (t; x) = t 〈c, x 〉 + f (x), t ¾ 0. Заметим, что f (t; x) –– самосогласованная функция по x (см. следствие ..). Пусть x ∗ (t) = arg min f (t; x). x ∈dom f Эта траектория называется центральной траекторией задачи (.). Нас будут интересовать такие траектории, поскольку можно ожидать, что x ∗ (t) → x ∗ при t → ∞ (см. п. ..). Напомним, что стандартный метод Ньютона, примененный к минимизации функции f (t; x), имеет локальную квадратичную сходимость (теорема ..). Кроме того, у нас есть явное описание области квадратичной сходимости: λ f (t;·) (x) ¶ β < λ̄ = p 3− 5 . 2 Посмотрим, каковы наши возможности по отслеживанию центральной траектории, в предположении, что мы стоим в точке x = x ∗ (t) при некотором t > 0. “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Попробуем увеличить параметр t: t + = t + ∆, ∆ > 0. При этом для быстрого нахождения приемлемой аппроксимации к точке x(t+) нам нужно сохранить x в области квадратичной сходимости метода Ньютона, применяемого к функции f (t + ∆; ·): λ f (t +∆;·) (x) ¶ β < λ̄. Заметим, что замена t → t+ не меняет гессиан барьерной функции: f ′′ (t + ∆; x) = f ′′ (t; x). Поэтому можно легко оценить, насколько велик возможный шаг ∆. В самом деле, условие оптимальности первого порядка дает следующее уравнение центральной траектории: tc + f ′ (x ∗ (t)) = 0. (.) ′ Поскольку tc + f (x) = 0, мы получаем λ f (t +∆;·) (x) = k t+ c + f ′ (x) k∗x = ∆k c k∗x = ∆ ′ k f (x) k∗x ¶ β . t Таким образом, для увеличения t с линейной скоростью нам нужно предположить, что значение λ2f (x) = k f ′ (x) k2x ≡ [ f ′′ (x)]−1 f ′ (x), f ′ (x) равномерно ограничено на dom f . Таким образом, мы приходим к определению самосогласованного барьера. ... Определение самосогласованных барьеров Определение ... Пусть F(x) –– стандартная самосогласованная функция. Будем называть такую функцию ν -самосогласованным барьером для области Dom F, если sup 2〈 F ′ (x), u〉 − 〈 F ′′ (x)u, u〉 ¶ ν (.) u∈Rn при всех x ∈ dom F. Величину ν будем называть параметром барьера. Заметим, что мы не требуем невырожденности матрицы F ′′ (x). Однако если она невырожденна, то неравенство (.) эквивалентно следующему: [F ′′ (x)]−1 F ′ (x), F ′ (x) ¶ ν . (.) “Nesterov-final” — // — : — page — # § .. Самосогласованные барьеры Мы будем пользоваться и другой эквивалентной формой неравенства (.): 〈 F ′ (x), u〉2 ¶ ν〈 F ′′ (x)u, u〉 ∀u ∈ Rn . (.) (При 〈 F ′′ (x)u, u〉 > 0 его можно получить, заменяя u в формуле (.) на λu и максимизируя левую часть по λ.) Заметим, что условие (.) можно переписать в матричных обозначениях: 1 ν F ′′ (x) F ′ (x)F ′ (x)T . (.) Проверим, какие из самосогласованных функций, рассмотренных в примере .., являются также и самосогласованными барьерами. Пример ... . Линейная функция: f (x) = α + 〈a, x 〉, dom f = Rn . Очевидно, что для a 6= 0 эта функция не является самосогласованным барьером, так как f ′′ (x) = 0. . Выпуклая квадратичная функция. Пусть A = AT ≻ 0. Рассмотрим функцию 1 2 f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉, dom f = Rn . Тогда f ′ (x) = a + Ax и f ′′ (x) = A. Поэтому [ f (x)]−1 f ′ (x), f ′ (x) = 〈 A−1 (Ax − a), Ax − a〉 = = 〈 Ax, x 〉 − 2〈a, x 〉 + 〈 A−1 a, a〉. Очевидно, что эта величина неограничена сверху на Rn . Таким образом, квадратичная функция не является самосогласованным барьером. . Логарифмический барьер для луча. Рассмотрим следующую функцию одной переменной: F(x) = − ln x, dom F = x ∈ R1 | x > 0 . Тогда F ′ (x) = −1/ x и F ′′ (x) = 1/ x 2 > 0. Поэтому (F ′ (x))2 1 = 2 · x 2 = 1. F ′′ (x) x Следовательно, F(x) является ν -самосогласованным барьером для луча {x > 0} с параметром ν = 1. “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация . Логарифмический барьер для области второго порядка. Пусть A = AT 0. Рассмотрим вогнутую квадратичную функцию 1 2 ϕ (x) = α + 〈a, x 〉 − 〈 Ax, x 〉. Определим F(x) = − ln ϕ (x), dom F = x ∈ Rn | ϕ (x) > 0 . Тогда 1 〈a, u〉 − 〈 Ax, u〉 , ϕ (x) 1 1 ′′ 〈 F (x)u, u〉 = 2 [〈a, u〉 − 〈 Ax, u〉]2 + 〈 Au, u〉. ϕ (x) ϕ (x) F ′ (x), u = − Пусть ω1 = 〈 F ′ (x), u〉 и ω2 = 1 〈 Au, u〉. Тогда ϕ (x) 〈 F ′′ (x)u, u〉 = ω21 + ω2 ¾ ω21 . Поэтому 2〈 F ′ (x), u〉 − 〈 F ′′ (x)u, u〉 ¶ 2ω1 − ω21 ¶ 1. Таким образом, F(x) является ν -самосогласованным барьером с параметром ν = 1. Приведем некоторые простые свойства самосогласованных барьеров. Теорема ... Пусть F(x) –– самосогласованный барьер. Тогда функция 〈c, x 〉 + F(x) является самосогласованной на dom F. Доказательство. Поскольку функция F(x) самосогласованная, надо просто применить следствие ... Для рассматриваемых ниже методов отслеживания траектории доказанное свойство является очень важным. Теорема ... Пусть Fi –– νi -самосогласованные барьеры, i = 1, 2. Тогда функция F(x) = F1 (x) + F2 (x) является самосогласованным барьером для выпуклого множества dom F = dom F1 ∩ dom F2 с параметром ν = ν1 + ν2 . “Nesterov-final” — // — : — page — # § .. Самосогласованные барьеры Доказательство. Из теоремы .. следует, что F есть стандартная самосогласованная функция. Зафиксируем x ∈ dom F. Тогда maxn 2〈 F ′ (x)u, u〉 − 〈 F ′′ (x)u, u〉 = u∈R = maxn 2〈 F1′ (x)u, u〉 − 〈 F1′′ (x)u, u〉 + 2〈 F2′ (x)u, u〉 − 〈 F2′′ (x)u, u〉 ¶ u∈R ¶ maxn 2〈 F1′ (x)u, u〉 − 〈 F1′′ (x)u, u〉 + u∈R + maxn 2〈 F2′ (x)u, u〉 − 〈 F2′′ (x)u, u〉 ¶ ν1 + ν2 . u∈R Наконец, покажем, что значение параметра самосогласованного барьера инвариантно по отношению к аффинным преобразованиям координат. Теорема ... Пусть A (x) = Ax + b –– линейный оператор, A (x): Rn → Rm . Предположим, что функция F( y) является ν -самосогласованным барьером. Тогда функция Φ(x) = F(A (x)) есть ν -самосогласованный барьер для множества Dom Φ = x ∈ Rn | A (x) ∈ Dom F . Доказательство. Функция Φ(x) –– стандартная самосогласованная функция, что следует из теоремы ... Зафиксируем x ∈ dom Φ. Тогда y = A (x) ∈ dom F. Заметим, что для любого u ∈ Rn выполнены 〈Φ′ (x), u〉 = 〈 F ′ ( y), Au〉, 〈Φ′′ (x)u, u〉 = 〈 F ′′ ( y)Au, Au〉. Поэтому maxn 2〈Φ′ (x), u〉 − 〈Φ′′ (x)u, u〉 = u∈R = maxn 2〈 F ′ ( y), Au〉 − 〈 F ′′ ( y)Au, Au〉 ¶ u∈R ¶ maxm 2〈 F ′ ( y), υ〉 − 〈 F ′′ ( y)υ, υ〉 ¶ ν . υ∈R ... Основные неравенства Покажем, что локальные характеристики самосогласованного барьера (градиент и гессиан) дают нам глобальную информацию о структуре его области определения. “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Теорема ... . Пусть F(x) –– ν -самосогласованный барьер. Тогда для любых x, y ∈ dom F выполняется неравенство 〈 F ′ (x), y − x 〉 < ν . (.) ′ Кроме того, если 〈 F (x), y − x 〉 ¾ 0, то F ′ ( y) − F ′ (x), y − x ¾ 〈 F ′ (x), y − x 〉2 . ν − 〈 F ′ (x), y − x 〉 (.) . Стандартная самосогласованная функция F(x) является ν -самосогласованным барьером тогда и только тогда, когда 1 F( y) ¾ F(x) − ν ln 1 − 〈 F ′ (x), y − x 〉 ∀ x, y ∈ dom F. (.) ν Доказательство. . Пусть x, y ∈ dom F. Рассмотрим функцию ϕ (t) = F ′ (x + t( y − x)), y − x , t ∈ [0, 1]. Если ϕ (0) ¶ 0, то неравенство (.) тривиально. Если ϕ (0) = 0, то неравенство (.) тоже выполнено. Пусть ϕ (0) > 0. Заметим, что в силу неравенства (.) мы имеем ϕ ′ (t) = F ′′ (x + t( y − x))( y − x), y − x ¾ ¾ 1 1 ′ 2 F (x + t( y − x)), y − x = ϕ 2 (t). ν ν Поэтому функция ϕ (t) возрастает и положительна при t ∈ [0, 1]. Кроме того, для любого t ∈ [0, 1] выполняется неравенство − 1 1 1 + ¾ t. ϕ (t) ϕ (0) ν ν Это означает, что 〈 F ′ (x), y − x 〉 = ϕ (0) < при всех t ∈ [0, 1]. Таким t образом, неравенство (.) доказано. Далее, ϕ (t) − ϕ (0) ¾ νϕ (0) t ϕ (0)2 − ϕ (0) = , ν − t ϕ (0) ν − t ϕ (0) t ∈ [0, 1]. Взяв t = 1, получим неравенство (.). 1 . Пусть ψ(x) = e− ν F(x) . Тогда 1 1 ψ′ (x) = − e− ν F(x) · F ′ (x), ν h i 1 1 1 ′′ ψ (x) = − e− ν F(x) F ′′ (x) − F ′ (x)F ′ (x)T . ν ν “Nesterov-final” — // — : — page — # § .. Самосогласованные барьеры Таким образом, по теореме .. и определению (.) вогнутость функции ψ(x) равносильна утверждению, что функция F(x) есть ν -самосогласованный барьер. Остается отметить, что неравенство (.) совпадает с неравенством ψ( y) ¶ ψ(x) + ψ′ (x), y − x с точностью до логарифмического преобразования обеих частей. Теорема ... Пусть F(x) –– ν -самосогласованный барьер. Тогда для любых таких x ∈ dom F и y ∈ Dom F, что F ′ (x), y − x ¾ 0, (.) p k y − x kx ¶ ν + 2 ν . (.) выполняется неравенство p Доказательство. Введем обозначение r =pk y − x k x . Пусть r > ν . ν Рассмотрим точку yα = x + α( y − x), α = < 1. В силу предполоr жения (.) и неравенства (.) мы получаем ω ≡ F ′ ( yα ), y − x ¾ F ′ ( yα ) − F ′ (x), y − x = 1 ′ F ( yα ) − F ′ (x), yα − x ¾ α p k yα − x k2x αk y − x k2x r ν 1 = = ¾ · p . α 1 + k yα − x k2x 1 + αk y − x k x 1+ ν = С другой стороны, принимая во внимание неравенство (.), получаем (1 − α)ω = F ′ ( yα ), y − yα ¶ ν . Таким образом, 1− p p ν r ν p ¶ ν, r 1+ ν откуда в точности следует неравенство (.). Завершим этот пункт изучением свойств аналитического центра выпуклого множества. “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Определение ... Пусть F(x) –– ν -самосогласованный барьер для области Dom F. Тогда точка x F∗ = arg min F(x), x ∈dom F называется аналитическим центром, порожденным барьером F(x) для выпуклого множества Dom F. Теорема ... Предположим, что аналитический центр ν -самосогласованного барьера F(x) существует. Тогда для любого x ∈ Dom F имеет место неравенство p k x − x F∗ k xF∗ ¶ ν + 2 ν . С другой стороны, для любого такого x ∈ Rn , что k x − x F∗ k xF∗ ¶ 1, выполняется включение x ∈ Dom F. Доказательство. Первое утверждение следует из теоремы .., так как F ′ (x F∗ ) = 0. Второе утверждение следует из теоремы ... Таким образом, асферичность множества Dom F относительно p точки x F∗ , вычисленная в метрике k · k xF∗ , не превосходит ν + 2 ν . Хорошо известен тот факт, что для любого выпуклого множества в Rn существует евклидова метрика, в которой асферичность этого множества не превосходит n (теорема Джона). Однако нам удалось оценить асферичность с помощью параметра барьера. Эта величина напрямую не связана с размерностью пространства. Заметим также, что если Dom F не содержит прямых, то существование точки x F∗ обеспечивает ограниченность множества Dom F (так как тогда гессиан F ′′ (x F∗ ) невырожден, см. теорему ..). Следствие ... Пусть множество Dom F ограничено. Тогда для любых x ∈ dom F, υ ∈ Rn имеет место неравенство p kυk∗x ¶ (ν + 2 ν )kυk∗x ∗ . F Доказательство. По лемме .. имеем следующее представление: 1/2 kυk∗x ≡ [F ′′ (x)]−1 υ, υ = max 〈υ, u〉 | 〈 F ′′ (x)u, u〉 ¶ 1 . С другой стороны, из теорем .. и .. следует, что B ≡ y ∈ Rn | k y − x k x ¶ 1 ⊆ Dom F ⊆ p ⊆ y ∈ Rn | k y − x F∗ k x ¶ ν + 2 ν ≡ B∗ . “Nesterov-final” — // — : — page — # § .. Самосогласованные барьеры Поэтому, снова используя теорему .., получим следующее неравенство: kυk∗x = max 〈υ, y − x 〉 | y ∈ B ¶ max 〈υ, y − x 〉 | y ∈ B∗ = p = 〈υ, x F∗ − x 〉 + (ν + 2 ν )kυk∗x ∗ . F Заметим, что kυk∗x = k−υk∗x . Поэтому можно считать что 〈υ, x F∗ − x 〉 ¶ ¶ 0. ... Метод отслеживания траектории Мы подошли к описанию барьерной модели задач минимизации. Рассмотрим стандартную задачу минимизации min 〈c, x 〉 | x ∈ Q (.) с ограниченным выпуклым и замкнутым множеством Q ≡ Dom F, которое имеет внутреннюю точку и для которого известен ν -самосогласованный барьер F(x). Напомним, что мы решаем задачу (.), двигаясь по так называемой центральной траектории: x ∗ (t) = arg min f (t; x), x ∈dom F (.) где f (t; x) = t 〈c, x 〉 + F(x) и t ¾ 0. В силу условия оптимальности первого порядка любая точка этой траектории удовлетворяет уравнению tc + F ′ (x ∗ (t)) = 0. (.) Поскольку множество Q ограничено, его аналитический центр x F∗ существует и x ∗ (0) = x F∗ . (.) При отслеживании центральной траектории нам приходится пересчитывать точки, удовлетворяющие условию приближенного центрирования: λ f (t;·) (x) ≡ k f ′ (t; x) k∗x = k tc + F ′ (x) k∗x ¶ β , (.) где параметр центрирования β достаточно мал. Покажем, что такая стратегия вполне оправдана. Теорема ... Для любого t > 0 имеет место неравенство ν t 〈c, x ∗ (t)〉 − c∗ ¶ , (.) “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация где c∗ –– оптимальное значение для задачи (.). Если точка x удовлетворяет условию центрирования (.), то p (β + ν )β 1 〈c, x 〉 − c∗ ¶ ν+ . (.) t 1−β ∗ Доказательство. Пусть x является решением задачи (.). Тогда из соотношений (.) и (.) получаем 〈c, x ∗ (t) − x ∗ 〉 = 1 ′ ∗ ν F (x (t)), x ∗ − x ∗ (t) ¶ . t t Далее, пусть x удовлетворяет условию (.). Введем обозначение λ = λ f (t;·) (x). Тогда t 〈c, x − x ∗ (t)〉 = f ′ (t; x) − F ′ (x), x − x ∗ (t) ¶ p ¶ (λ + ν )k x − x ∗ (t) k x ¶ p p (β + ν )β λ ¶ ¶ (λ + ν ) 1−λ 1−β в силу неравенства (.), теоремы .. и неравенства (.). Проанализируем результат одной итерации метода отслеживания траектории. А именно, предположим, что x ∈ dom F. Рассмотрим следующее правило пересчета: t+ = t + γ , k c k∗x ′′ (.) −1 ′ x+ = x − [F (x)] (t+ c + F (x)). Теорема ... Пусть точка x удовлетворяет условию (.): k tc + F ′ (x) k∗x ¶ β , β < λ̄ = p 3− 5 . Тогда для всех достаточно малых γ, 2 p β |γ| ¶ p − β, 1+ β (.) снова имеет место неравенство k t+ c + F ′ (x+ ) k∗x ¶ β . Доказательство. Пусть λ0 = k tc + F ′ (x) k∗x ¶ β , λ1 = k t+ c + F ′ (x) k∗x и λ+ = k t+ c + F ′ (x+ ) k∗x . Тогда + λ1 ¶ λ0 + |γ| ¶ β + |γ|, “Nesterov-final” — // — : — page — # § .. Самосогласованные барьеры и в силу теоремы .. получаем λ+ ¶ λ1 1 − λ1 2 ≡ [ω′∗ (λ1 )]2 . Остается отметить, что неравенство (.) эквивалентно неравенству p ω′∗ β + |γ| ¶ β (вспомним, что ω′ (ω′∗ (τ)) = τ, см. лемму ..). Покажем, что параметр t в методе (.) меняется достаточно быстро. Лемма ... Пусть x удовлетворяет (.). Тогда 1 t k c k∗x ¶ (β + p ν ). (.) Доказательство. В самом деле, из соотношений (.) и (.) получаем p t k c k∗x = k f ′ (t; x) − F ′ (x) k∗x ¶ k f ′ (t; x) k∗x + k F ′ (x) k∗x ¶ β + ν . Зафиксируем теперь приемлемые значения параметров для метода (.). В оставшейся части главы будем всегда считать, что 1 β= , 9 p β 5 γ= p −β = . 36 1+ β (.) Мы уже доказали, что с помощью схемы (.) удается отслеживать центральную траекторию. При этом можно как увеличивать, так и уменьшать текущее значение t. Нижняя оценка для скорости возрастания t равна 5 t+ ¾ 1 + p · t, 4 + 36 ν а верхняя оценка для скорости убывания t есть 5 t+ ¶ 1 − · t. p 4 + 36 ν Выпишем схему метода решения задачи (.). “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Метод отслеживания траектории (.) . Положим t0 = 0. Выберем точность ǫ > 0 и такую точку x0 ∈ dom F, что k F ′ (x0 ) k∗x ¶ β . 0 . k-я итерация (k ¾ 0). Положим t k +1 = t k + γ , k c k∗x k −1 xk+1 = xk − F ′′ (xk ) tk+1 c + F ′ (xk ) . . Остановим процесс, когда ǫ tk ¾ ν + p (β + ν )β . 1−β Получим границы вычислительной сложности этого метода. Теорема ... Метод (.) завершает работу не более чем за N итераций, где νk c k∗x ∗ p F . N ¶ O ν ln ǫ В момент завершения выполнено неравенство 〈c, x N 〉 − c∗ ¶ ǫ . Доказательство. Заметим, что r0 ≡ k x0 − x F∗ k x0 ¶ му ..). Поэтому в силу теоремы .. получаем β (см. теоре1−β γ 1−β 1 k c k∗x ∗ . = k c k∗x ¶ k c k∗x ∗ ¶ 0 t1 1 − r0 1 − 2β F F γ(1 − 2β ) Таким образом, tk ¾ (1 − β )k c k∗x∗ 1+ F γ p β+ ν k −1 при всех k ¾ 1. Обсудим полученную оценку сложности. Ее основная составляющая есть νk c k∗x ∗ p F 7,2 ν ln . ǫ νk c k∗x ∗ F Заметим, что значение оценивает изменение линейной функции 〈c, x 〉 на множестве Dom F (см. теорему ..). Таким образом, отношение ǫ νk c k∗x ∗ F “Nesterov-final” — // — : — page — # § .. Самосогласованные барьеры можно рассматривать как относительную точность решения. Процедура (.) имеет один серьезный недостаток. Иногда бывает сложно обеспечить выполнение ее начального условия k F ′ (x0 ) k∗x ¶ β . 0 В таких случаях нам потребуется дополнительная процедура для нахождения подходящей начальной точки. В следующем пункте мы изучим имеющиеся для этого возможности. ... Нахождение аналитического центра Итак, мы хотим найти хорошее приближение к аналитическому центру множества Dom F. Напомним, что этот центр является решением задачи минимизации min F(x) | x ∈ dom F , (.) где F –– ν -самосогласованный барьер. Ввиду потребностей предыдущего пункта, искомое приближенное решение x̄ ∈ dom F этой задачи должно удовлетворять неравенству k F ′ ( x̄) k∗x̄ ¶ β с некоторым β ∈ (0, 1). Для достижения нашей цели можно применить две разных стратегии. В первой из них используется демпфированный метод Ньютона. Во второй же задействован метод отслеживания траектории. Рассмотрим сначала первую стратегию. Демпфированный метод Ньютона для нахождения аналитического центра (.) . Выберем y0 ∈ dom F. . k-я итерация (k ¾ 0). Полагаем yk+1 = yk − [F ′′ ( yk )]−1 F ′ ( yk ) . 1 + k F ′ ( yk ) k∗yk . Останавливаемся, если k F ′ ( yk ) k∗yk ¶ β . Теорема ... Метод (.) завершит работу не более чем за (F( y0 ) − F(x F∗ ))/ω(β ) итераций. “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Доказательство. Действительно, в силу теоремы .. имеем F( yk+1 ) ¶ F( yk ) − ω(λF ( yk )) ¶ F( yk ) − ω(β ). Поэтому F( y0 ) − k ω(β ) ¾ F( yk ) ¾ F(x F∗ ). Применение метода отслеживания траектории не намного сложнее. Выберем некоторую начальную точку y0 ∈ dom F и определим вспомогательную центральную траекторию: y ∗ (t) = arg min y ∈dom F −t 〈 F ′ ( y0 ), y 〉 + F( y) , где t ¾ 0. Заметим, что эта траектория удовлетворяет уравнению F ′ ( y ∗ (t)) = tF ′ ( y0 ). (.) Поэтому она соединяет начальную точку y0 с аналитическим центром x F∗ : y ∗ (1) = y0 , y ∗ (0) = x F∗ . Мы можем отследить эту траекторию, применяя правило (.) с убывающим t. Оценим скорость сходимости вспомогательной центральной траектории к аналитическому центру. Лемма ... Для любого t ¾ 0 имеет место неравенство p k F ′ ( y ∗ (t)) k∗y ∗(t) ¶ (ν + 2 ν )k F ′ (x0 ) k∗x ∗ · t. F Доказательство. Эта оценка вытекает из соотношения (.) и следствия ... “Nesterov-final” — // — : — page — # § .. Самосогласованные барьеры Выпишем теперь соответствующую алгоритмическую схему. Метод отслеживания вспомогательной траектории (.) . Выберем y0 ∈ Dom F. Положим t0 = 1. . k-я итерация (k ¾ 0). Полагаем t k +1 = t k − yk+1 = yk − F ′′ ( yk ) γ , k F ′ ( y0 ) k∗y −1 k tk+1 F ′ ( y0 ) + F ′ ( yk ) . . Останавливаемся, если p β p . 1+ β ′ k F ( yk ) k yk ¶ Формируем x̄ = yk − [F ′′ ( yk )]−1 F ′ ( yk ). Итак, приведенный метод отслеживает вспомогательную центральную траекторию y ∗ (t) при tk → 0. Он пересчитывает точки { yk }, удовлетворяющих приближенному условию центрирования k tk F ′ ( y0 ) + F ′ ( yk ) k yk ¶ β . Критерий остановки этой процедуры, p ′ λk = k F ( yk ) k yk ¶ гарантирует, что k F ′ ( x̄) k x̄ ¶ λ 2 k 1 − λk β p , 1+ β ¶ β (см. теорему ..). Представим оценку сложности этого метода. Теорема ... Процедура (.) останавливается не позднее чем после p p 1 1 β + ν ln (ν + 2 ν )k F ′ ( y0 ) k∗x ∗ γ γ F итераций. “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Доказательство. Напомним, что мы зафиксировали параметры: p 1 β= , 9 γ= 1+ β p β −β = 5 . 36 Заметим, что t0 = 1. Поэтому в силу теоремы .. и леммы .. имеет место оценка γ γ(k + 1) t k +1 ¶ 1 − p p tk ¶ exp − . β+ ν β+ ν Далее, по лемме .. получаем k F ′ ( yk ) k∗y = k (tk F ′ ( y0 ) + F ′ ( yk )) − tk F ′ ( y0 ) k∗y ¶ k k p ′ ∗ ¶ β + tk k F ( y0 ) k y ¶ β + tk (ν + 2 ν )k F ′ ( y0 ) k∗x ∗ . k F Таким образом, рассматриваемая процедура завершается не позднее, чем будет выполнено следующее неравенство: p tk (ν + 2 ν )k F ′ ( y0 ) k∗x ∗ ¶ F p β p − β = γ. 1+ β Теперь можно обсудить вычислительные затраты обеих стратегий. Основная составляющая в выражении сложности метода отслеживания вспомогательной центральной траектории равна i p h 7,2 ν ln ν + ln k F ′ ( y0 ) k∗x ∗ , F а для вспомогательного демпфированного метода Ньютона она составляет O(F( y0 ) − F(x F∗ )). Напрямую сравнить эти две оценки не удается. Но более глубокий анализ показывает преимущество метода отслеживания траектории. Заметим также, что оценки его сложности естественным образом соответствуют сложности основной схемы отслеживания. Действительно, если мы объединим схему (.) с (.), то получим следующую оценку сложности всего процесса: i p h 1 7,2 ν 2 ln ν + ln k F ′ ( y0 ) k∗x ∗ + ln k c k∗x ∗ + ln . F F ǫ Завершая этот пункт, отметим, что для некоторых задач бывает трудно указать и начальную точку y0 ∈ dom F. В таких случаях надо применять еще один вспомогательный процесс минимизации, аналогичный процедуре (.). Мы обсудим эту ситуацию в следующем пункте. “Nesterov-final” — // — : — page — # § .. Самосогласованные барьеры ... Задачи с функциональными ограничениями Рассмотрим следующую задачу минимизации: min f0 (x), при f j (x) ¶ 0, j = 1, …, m, (.) x ∈ Q, где Q –– простое ограниченное выпуклое и замкнутое множество, имеющее внутреннюю точку, а все функции f j (x), j = 0, …, m, выпуклы. Предполагаем, что данная задача удовлетворяет условию Слэйтера: существует такое x̄ ∈ int Q, что f j ( x̄) < 0 для всех j = 1, …, m. Предположим, что нам известна такая верхняя граница τ̄, что f0 (x) < τ̄ для всех x ∈ Q. Тогда, вводя две дополнительные переменные τ и κ, можно переписать эту задачу в стандартной форме: τ → min при f0 (x) ¶ τ, f j (x) ¶ κ, j = 1, …, m, (.) x ∈ Q, τ ¶ τ̄, κ ¶ 0. Заметим, что мы можем применять методы внутренней точки к задаче оптимизации только в том случае, если имеется возможность построить самосогласованный барьер для допустимого множества. В данной ситуации это означает, что мы должны уметь строить следующие барьеры: ◦ самосогласованный барьер FQ (x) для множества Q; ◦ самосогласованный барьер F0 (x, τ) для надграфика целевой функции f0 (x); ◦ самосогласованные барьеры F j (x, κ) для надграфиков функциональных ограничений f j (x). Предположим, что все это реализуемо. Тогда результирующий самосогласованный барьер для допустимого множества задачи (.) выглядит следующим образом: F̂(x, τ, κ) = FQ (x) + F0 (x, τ) + m P j =1 F j (x, κ) − ln(τ̄ − τ) − ln(−κ). “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Параметр этого барьера равен ν̂ = νQ + ν0 + m P ν j + 2, (.) j =1 где ν(·) –– параметры соответствующих барьеров. Заметим, что указать начальную точку из dom F̂ может все еще оказаться сложной задачей. Эта область является пересечением множества Q с надграфиками целевой функции, исходных ограничений и с двумя дополнительными ограничениями τ ¶ τ̄ и κ ¶ 0. Если x0 ∈ int Q, то можно выбрать τ0 и κ0 достаточно большими, чтобы гарантировать выполнение условий f0 (x0 ) < τ0 < τ̄, f j (x0 ) < κ0 , j = 1, …, m, но тогда ограничение κ ¶ 0 может оказаться нарушенным. Для упрощения анализа введем новые обозначения. С этого момента мы рассматриваем задачу min〈c, z 〉, при z ∈ S, 〈d, z 〉 ¶ 0, (.) где z = (x, τ, κ), 〈c, z 〉 ≡ τ, 〈d, z 〉 ≡ κ и S –– допустимое множество задачи (.) без ограничения κ ¶ 0. Нам известен самосогласованный барьер F(z) для множества S, и можно легко найти точку z0 ∈ int S. Более того, согласно нашим предположениям при достаточно большом α множество S(α) = z ∈ S | 〈d, z 〉 ¶ α является ограниченным и имеет внутреннюю точку. Процедура решения задачи (.) состоит из трех этапов. . Выберем начальную точку z0 ∈ int S и начальную ошибку ∆ > 0. Положим α = 〈d, z0 〉 + ∆. Если α ¶ 0, то можно использовать двухэтапный процесс, описанный в п. ... В противном случае делаем следующее. Во-первых, находим приближенный аналитический центр множества S(α), образованный с помощью барьера F̃(z) = F(z) − ln(α − 〈d, z 〉). “Nesterov-final” — // — : — page — # § .. Самосогласованные барьеры А именно, находим точку z̃, удовлетворяющую условию ­ ·1/2 d d λF̃ (z̃) ≡ F̃ ′′ (z̃)−1 F ′ (z̃) + , F ′ (z̃) + ¶ β. α − 〈d, z̃〉 α − 〈d, z̃〉 Для этого можно использовать вспомогательные схемы, рассмотренные в п. ... . Следующий этап состоит в отслеживании центральной траектории z(t), определяемой уравнением td + F̃ ′ (z(t)) = 0, t ¾ 0. Заметим, что на предыдущем этапе вычисляется хорошая аппроксимация аналитического центра z(0). Поэтому можно начать отслеживание траектории z(t), используя процедуру (.). При t → ∞ эта траектория приводит нас к решению задачи минимизации min 〈d, z 〉 | z ∈ S(α) . Ввиду условия Слейтера для задачи (.) оптимальное значение последней задачи оказывается строго отрицательным. Целью данного этапа является нахождение аппроксимации аналитического центра множества S̄ = z ∈ S(α) | 〈d, z 〉 ¶ 0 , снабженного барьером F̄(z) = F̃(z) − ln(−〈d, z 〉). Эта точка z∗ удовлетворяет уравнению F̃ ′ (z∗ ) − d = 0. 〈d, z∗ 〉 Поэтому z∗ принадлежит траектории центров z(t). Соответствующая величина штрафного параметра t∗ равна t∗ = − 1 > 0. 〈d, z∗ 〉 Данный этап завершается в точке z̄, удовлетворяющей условию ­ ·1/2 d d λF̃ (z̄) ≡ F̃ ′′ (z̃)−1 F̃ ′ (z̄) − , F̃ ′ (z̄) − ¶ β. 〈d, z̄〉 〈d, z̄〉 “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация . Заметим, что F̄ ′′ (z) ≻ F̃ ′′ (z). Поэтому точка z̄, вычисленная на предыдущем этапе, удовлетворяет неравенству ­ ·1/2 d d λF̄ (z̄) ≡ F̄ ′′ (z̃)−1 F̃ ′ (z̄) − , F̃ ′ (z̄) − ¶ β. 〈d, z̄〉 〈d, z̄〉 Это означает, что у нас имеется хорошее приближение для аналитического центра множества S̄ и мы можем применить основную схему отслеживания (.) для решения задачи min 〈c, z 〉 | z ∈ S̄ . Очевидно, что эта задача эквивалентна задаче (.). Мы опускаем детальный анализ сложности приведенной трехэтапной процедуры. Его можно провести так же, как и в п. ... Основная составляющая оценки сложности этой схемы пропорp циональна произведению ν̂ (см. соотношение (.)) на сумму логарифма желаемой точности ǫ и логарифмов некоторых структурных характеристик исходной задачи (размера области, глубины условия Слейтера и т. д.). Таким образом, мы показали, что можно применять эффективные методы внутренней точки ко всем задачам, для которых удается построить самосогласованные барьеры для основного допустимого множества Q и для надграфиков функциональных ограничений. Наша основная цель теперь –– описать класс выпуклых задач, для которых такие барьеры эффективно строятся. Заметим, что у нас есть точная характеристика качества самосогласованного барьера –– величина его параметра: чем он меньше, тем более эффективным будет соответствующий метод. В следующем параграфе мы обсуждаем возможности применения разработанного подхода к конкретным выпуклым задачам оптимизации. § .. Приложения структурной оптимизации Границы параметров самосогласованных барьеров. Линейная и квадратичная оптимизация. Полуопределенная оптимизация. Экстремальные эллипсоиды. Сепарабельные задачи. Геометрическое программирование. Аппроксимация в l p -норме. Выбор схемы минимизации. “Nesterov-final” — // — : — page — # § .. Приложения структурной оптимизации ... Границы параметров самосогласованных барьеров В предыдущем параграфе мы рассматривали подход, основанный на отслеживании центральной траектории для следующей задачи: min〈c, x 〉, x ∈Q (.) где Q –– выпуклое замкнутое множество с внутренней точкой, снабженное вычислимым ν -самосогласованным барьером F(x). Исполь- p зуя такой барьер, можно решить задачу (.) за O ν · ln(ν/ǫ ) итераций метода Ньютона. Напомним, что наиболее сложная часть каждой итерации состоит в решении системы линейных уравнений. В настоящем пункте мы очертим область применимости этого подхода. Мы исследуем нижние и верхние границы для параметров самосогласованных барьеров и рассмотрим некоторые классы выпуклых задач, для которых можно эффективным образом (с вычислительной точки зрения) построить модель (.). Начнем с исследования нижних границ для параметров барьера. Лемма ... Пусть f (t) является ν -самосогласованным барьером для интервала (α, β ) ⊂ R1 , −∞ ¶ α < β < ∞. Тогда ν ¾ κ ≡ sup t ∈(α,β ) ( f ′ (t))2 ¾ 1. f ′′ (t) Доказательство. Заметим, что по определению ν ¾ κ. Предположим, что κ < 1. Поскольку f (t) является выпуклым барьером для (α, β ), найдется такое значение ᾱ ∈ (α, β ), что f ′ (t) > 0 при всех t ∈ [ᾱ, β ). Рассмотрим функцию ϕ (t) = ( f ′ (t))2 /( f ′′ (t)), t ∈ [ᾱ, β ). Поскольку f ′ (t) > 0, f (t) –– самосогласованный барьер и ϕ (t) ¶ κ < 1, имеет место неравенство ′ 2 f (t) f ′′′ (t) = ϕ ′ (t) = 2 f ′ (t) − f ′′ (t) p f ′ (t) f ′′′ (t) ′ = f (t) 2 − p · ′′ ¾ 2(1 − κ) f ′ (t). 3/2 f ′′ (t) [ f (t)] p Отсюда для всех t ∈ [ᾱ, β ) получаем ϕ (t) ¾ ϕ (ᾱ) + 2(1 − κ)( f (t) − − f (ᾱ)). Получили противоречие, так как f (t) –– барьер, а функция ϕ (t) ограничена сверху. “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Следствие ... Пусть F(x) –– ν -самосогласованный барьер для Q ⊂ Rn . Тогда ν ¾ 1. Доказательство. Действительно, пусть x ∈ int Q. Так как Q ⊂ Rn , найдется такой ненулевой вектор u ∈ Rn , что прямая { y = x + tu, t ∈ ∈ R1 } пересекает границу множества Q. Поэтому, рассматривая функцию f (t) = F(x + tu) и используя лемму .., получаем искомый результат. Получим простую нижнюю границу для параметров самосогласованных барьеров для неограниченных множеств. Пусть Q –– выпуклое замкнутое множество с внутренней точкой. Рассмотрим x̄ ∈ int Q. Предположим, что существует нетривиальное множество рецессивных направлений {p1 , …, pk } для множества Q: x̄ + α pi ∈ Q ∀α ¾ 0. Теорема ... Пусть положительные коэффициенты {βi }ki=1 удовлетворяют условию x̄ − βi pi ∈ / int Q, i = 1, …, k. Если при некоторых положительных чисел α1 , …, αk имеет место Pk включение ȳ = x̄ − i=1 αi pi ∈ Q, то параметр ν любого самосогласованного барьера для Q удовлетворяет неравенству ν¾ k P αi i =1 βi . Доказательство. Пусть F(x) является ν -самосогласованным барьером для множества Q. Поскольку pi –– рецессивное направление, имеет место неравенство F ′ ( x̄), − pi ¾ F ′′ ( x̄)pi , pi 1/2 ≡ k pi k x̄ (так как в противном случае функция f (t) = F( x̄ + tp) достигала бы своего минимума; см. теорему ..). Заметим, что x̄ − βi pi ∈ / Q. Поэтому в силу теоремы .. норма вектора pi должна быть достаточно большой: βi k pi k x̄ ¾ 1. Отсюда, пользуясь теоремой .., получаем ­ · P k k k P P αi ν ¾ F ′ ( x̄), ȳ − x̄ = F ′ ( x̄), − αi pi ¾ αi k pi k x̄ ¾ . i =1 i =1 i =1 βi “Nesterov-final” — // — : — page — # § .. Приложения структурной оптимизации Приведем теперь теорему существования для самосогласованных барьеров. Рассмотрим выпуклое замкнутое множество Q, int Q 6= ∅, и предположим, что Q не содержит прямых. Определим поляру множества Q относительно некоторой точки x̄ ∈ int Q: P( x̄) = s ∈ Rn | 〈s, x − x̄ 〉 ¶ 1 ∀x ∈ Q . Можно доказать, что для любого x ∈ int Q множество P(x) является ограниченным выпуклым и замкнутым множеством с непустой внутренностью. Пусть V (x) = voln P(x). Теорема ... Существуют такие абсолютные константы c1 и c2 , что функция U(x) = c1 · ln V (x) является (c2 · n)-самосогласованным барьером для множества Q. Функция U(x) называется универсальным барьером для множества Q. Заметим, что аналитическая сложность задачи (.), p снабженной универсальным барьером, равна O n · ln(n/ǫ ) . Напомним, что такая оценка эффективности невозможна в случае, когда мы используем оракул типа локального черного ящика (см. теорему ..). Полученный результат имеет главным образом теоретический интерес. В общем случае универсальный барьер U(x) вычислить очень сложно. Однако теорема .. показывает, что такие барьеры, в принципе, можно найти для любого выпуклого множества. Таким образом, применимость нашего подхода ограничивается только нашей способностью построить вычислимый самосогласованный барьер, желательно с малым значением параметра. При этом процесс создания барьерной модели исходной задачи едва ли можно описать формальным образом. Для каждой отдельной задачи может оказаться много разных барьерных моделей, и нам необходимо выбрать наилучшую, принимая во внимание значение параметра самосогласованного барьера, сложность его градиента и гессиана и сложность решения системы Ньютона. Далее мы продемонстрируем, как это можно сделать для некоторых стандартных классов задач выпуклой оптимизации. “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация ... Линейная и квадратичная оптимизация Начнем с линейной задачи оптимизации: minn 〈c, x 〉 x ∈R (.) при Ax = b, x (i) ¾ 0, i = 1, …, n (⇔ x n ∈ R+ ), где A –– (m × n)-матрица, m < n. Неравенства в ограничениях для этой задачи формируют положительный ортант в Rn . Для этого множества можно построить следующий самосогласованный барьер: n P F(x) = − ln x (i) , ν = n i =1 (см. пример .. и теорему ..). Этот барьер называют стандартn ным логарифмическим барьером для R+ . Чтобы решить задачу (.), нам необходимо использовать сужение барьера F(x) на аффинное подпространство {x | Ax = b}. Поскольку это сужение является n-самосогласованным барьером (см. p теорему ..), оценка сложности задачи (.) равна O n · ln(n/ǫ ) итерациям метода отслеживания траектории. Докажем, что стандартный логарифмический барьер является n оптимальным для R+ . Лемма ... Параметр ν любого самосогласованного барьера для n R+ удовлетворяет неравенству ν ¾ n. Доказательство. Выберем n x̄ = e ≡ (1, …, 1)T ∈ int R+ , pi = ei , i = 1, …, n, где ei –– i-й координатный вектор в Rn . Очевидно, что условия теоремы .. выполнены при αi = βi = 1, i = 1, …, n. Поэтому ν¾ n P αi i =1 βi = n. Заметим, что данная нижняя граница действует только для мноn n жества R+ . Нижняя граница для пересечения {x ∈ R+ | Ax = b} может оказаться меньше. “Nesterov-final” — // — : — page — # § .. Приложения структурной оптимизации Рассмотрим теперь квадратичную задачу оптимизации с квадратичными ограничениями: 1 2 minn q0 (x) = α0 + 〈a0 , x 〉 + 〈 A0 x, x 〉, x ∈R 1 2 при qi (x) = αi + 〈ai , x 〉 + 〈 Ai x, x 〉 ¶ βi , (.) i = 1, …, m, где Ai –– некоторые неотрицательно определенные (n × n)-матрицы. Перепишем эту задачу в стандартной форме: min τ, x,τ при q0 (x) ¶ τ, qi (x) ¶ βi , i = 1, …, m, (.) x ∈ R n , τ ∈ R1 . Для допустимого множества в этой задаче можно построить следующий самосогласованный барьер: F(x, τ) = − ln(τ − q0 (x)) − m P i =1 ln(βi − qi (x)), ν =m+1 (см. пример .. и теорему ..). p Таким образом, граница сложности для задачи (.) равна O( m + 1 · ln(m/ǫ )) итерациям метода отслеживания траектории. Отметим, что эта оценка не зависит от n. Во многих приложениях функциональные компоненты задачи включают в себя некоторые негладкие квадратичные составляющие типа k Ax − b k. Покажем, как можно работать с такими компонентами, используя методы внутренней точки. Лемма ... Функция F(x, t) = − ln t 2 − k x k2 является 2-самосогласованным барьером для выпуклого множества K2 = (x, t) ∈ Rn+1 | t ¾ k x k . В разных областях численного анализа это множество может иметь разные названия: конус Лоренца, «конус-рожок», «конус-кулек», конус второго порядка и т. п. “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Доказательство. Зафиксируем точку z = (x, t) ∈ int K2 и ненулевой вектор u = (h, τ) ∈ Rn+1 . Пусть ξ(α) = (t + ατ)2 − k x + αh k2 . Нам нужно сравнить производные для функции ϕ (α) = F(z + αu) = − ln ξ(α) в точке α = 0. Введем обозначения ϕ (·) = ϕ (·) (0), ξ(·) = ξ(·) (0). Тогда ξ′ = 2(t τ − 〈 x, h〉), ξ′′ = 2(τ2 − k h k2 ), ′ 2 ′ 3 ξ′ ξ ξ′′ ξ′ ξ′′ ξ ϕ ′ = − , ϕ ′′ = − , ϕ ′′′ = 3 2 − 2 . ξ ξ ξ ξ ξ Заметим, что неравенство 2ϕ ′′ ¾ (ϕ ′ )2 эквивалентно неравенству (ξ′ )2 ¾ 2ξξ′′ . Таким образом, нам нужно доказать, что для любой пары (h, τ) имеет место неравенство (t τ − 〈 x, h〉)2 ¾ (t 2 − k x k2 )(τ2 − k h k2 ). (.) Очевидно, что можно ограничиться случаем, когда |τ| > k h k (в противном случае правая часть приведенного выше неравенства неположительна). Кроме того, чтобы минимизировать левую часть, надо выбрать signτ = sign〈 x, h〉 (итак, пусть τ > 0) и 〈 x, h〉 = k x k · k h k. Подставляя эти значения в формулу (.), получаем верное неравенство. ξξ′′ 3 1 Наконец, так как 0 ¶ ′ 2 ¶ и [1 − ξ]3/2 ¾ 1 − ξ, мы получаем (ξ ) 2 2 ξ′ · (ξ′ )2 − 32 ξξ′′ |ϕ ′′′ | = 2 3/2 ¶ 2. ′ 2 (ϕ ′′ )3/2 (ξ ) − ξξ′′ Покажем, что барьер из предыдущего утверждения является оптимальным для конуса второго порядка. Лемма ... Параметр ν любого самосогласованного барьера множества K2 удовлетворяет неравенству ν ¾ 2. Доказательство. Выберем z̄ = (0, 1) ∈ int K2 и некоторое h ∈ Rn , k h k = 1. Определим p1 = (h, 1), p2 = (−h, 1), 1 2 α1 = α2 = , 1 2 β1 = β2 = . “Nesterov-final” — // — : — page — # § .. Приложения структурной оптимизации Заметим, что для всех γ ¾ 0 имеют место соотношения z̄ + γ pi = = (±γh, 1 + γ) ∈ K2 и 1 1 z̄ − βi pi = ± h, 6∈ int K2 , 2 2 1 1 1 1 z̄ − α1 p1 − α2 p2 = − h + h, 1 − − = 0 ∈ K2 . 2 2 2 2 Поэтому условия теоремы .. выполнены и ν¾ α1 α + 2 = 2. β1 β2 ... Полуопределенная оптимизация В задачах полуопределенной оптимизации неизвестными переменными являются матрицы. Пусть X = {X (i, j) }ni, j =1 есть симметрическая (n × n)-матрица (обозначение: X ∈ Sn×n ). В линейном пространстве Sn×n можно ввести следующее скалярное произведение: для любых X , Y ∈ Sn×n определим 〈 X , Y 〉F = n P n P 1/2 X (i, j) Y (i, j), k X kF = 〈 X , X 〉F . i =1 j =1 Иногда величину k X kF называют нормой Фробениуса матрицы X . Для симметрических матриц X и Y имеет место следующее тождество: 〈 X , Y · Y 〉F = = n P n P X (i, j) i =1 j =1 n P n P n P Y (i,k) Y ( j,k) = k =1 Y (k, j) k =1 j =1 n P i =1 = n P X ( j,i) Y (i,k) = n P n P n P X (i, j) Y (i,k) Y ( j,k) = i =1 j =1 k =1 n n P P Y (k, j) ( XY )( j,k) = k =1 j =1 (YXY )(k,k) = Trace(YXY ) = 〈YXY , In 〉F . (.) k =1 В задачах полуопределенной оптимизации нетривиальная часть ограничений формируется конусом неотрицательно определенных (n × n)-матриц Pn ⊂ Sn×n . Напомним, что X ∈ Pn , если и только если 〈 Xu, u〉 ¾ 0 для любых u ∈ Rn . Если 〈 Xu, u〉 > 0 при всех ненулевых u, то матрица X называется положительно определенной. Такие матрицы образуют внутренность конуса Pn . Заметим, что Pn –– выпук “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация лое и замкнутое множество. Общая формулировка задачи полуопределенной оптимизации выглядит следующим образом: min〈C, X 〉F , при 〈 Ai , X 〉F = bi , i = 1, …, m, (.) X ∈ Pn , где C и Ai принадлежат Sn×n . Для того чтобы применить к этой задаче метод отслеживания траектории, нужно построить самосогласованный барьер для конуса Pn . Пусть матрица X принадлежит int Pn . Пусть F( X ) = − ln det X . Очевидно, что n Q F( X ) = − ln λi ( X ), i =1 где {λi ( X )}ni=1 –– набор собственных значений матрицы X . Лемма ... Функция F( X ) выпукла, и F ′ ( X ) = − X −1 . Для любого направления ∆ ∈ Sn×n имеют место равенства 〈 F ′′ ( X )∆, ∆〉F = k X −1/2 ∆ X −1/2 k2F = 〈 X −1 ∆ X −1 , ∆〉F = = Trace [X −1/2 ∆ X −1/2 ]2 , D 3 F(x)[∆, ∆, ∆] = − 2〈In , [X −1/2 ∆ X −1/2 ]3 〉F = = −2 Trace [X −1/2 ∆ X −1/2 ]3 . Доказательство. Зафиксируем такие ∆ ∈ Sn×n и X ∈ int Pn , что X + ∆ ∈ Pn . Тогда F( X + ∆) − F( X ) = − ln det( X + ∆) + ln det X = = − ln det(In + X −1/2 ∆ X −1/2 ) ¾ n 1 ¾ − ln Trace(In + X −1/2 ∆ X −1/2 ) = n 1 = −n ln 1 + 〈In , X −1/2 ∆ X −1/2 〉F ¾ n ¾ −〈In , X −1/2 ∆ X −1/2 〉F = −〈 X −1 , ∆〉F . Значит, − X −1 ∈ ∂F( X ). Поэтому функция F выпукла (лемма ..) и F ′ (x) = − X −1 (лемма ..). “Nesterov-final” — // — : — page — # § .. Приложения структурной оптимизации Далее, рассмотрим функцию ϕ (α) ≡ 〈 F ′ ( X + α∆), ∆〉F , α ∈ [0, 1]. Тогда ϕ (α) − ϕ (0) = 〈 X −1 − ( X + α∆)−1 , ∆〉F = = 〈( X + α∆)−1 [( X + α∆) − X ]X −1 , ∆〉F = = α〈( X + α∆)−1 ∆ X −1 , ∆〉F . Таким образом, ϕ ′ (0) = 〈 F ′′ ( X )∆, ∆〉F = 〈 X −1 ∆ X −1 , ∆〉F . Выражение для третьей производной можно получить аналогичным образом, продифференцировав функцию ψ(α) = 〈( X + α∆)−1 · ∆( X + α∆)−1 , ∆〉F . Теорема ... Функция F( X ) является n-самосогласованным барьером для конуса Pn . Доказательство. Зафиксируем X ∈ int Pn и ∆ ∈ Sn×n . Пусть Q = = X −1/2 ∆ X −1/2 и λi = λi (Q), i = 1, …, n. Тогда из леммы .. вытекает, что n P 〈 F ′ ( X ), ∆〉F = λi , 〈 F ′′ ( X )∆, ∆〉F = i =1 n P i =1 D 3 F( X )[∆, ∆, ∆] = −2 λ2i , n P i =1 λ3i . Используя два стандартных неравенства P 3/2 2 P n n n n P P 2 3 2 λi , λi , λi ¶ λi ¶ n i =1 i =1 i =1 i =1 получаем 〈 F ′ ( X ), ∆〉2F ¶ n〈 F ′′ ( X )∆, ∆〉F , 3/2 | D 3 F( X )[∆, ∆, ∆] | ¶ 2〈 F ′′ ( X )∆, ∆〉F . Докажем, что F( X ) = − ln det X является оптимальным барьером для конуса Pn . Лемма ... Параметр ν любого самосогласованного барьера для конуса Pn удовлетворяет неравенству ν ¾ n. “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Доказательство. Выберем X̄ = In ∈ int Pn и направления Pi = ei eTi , i = 1, …, n, где ei –– i-й координатный вектор в Rn . Заметим, что для любого γ ¾ 0 имеет место включение In + γ Pi ∈ int Pn . Кроме того, In − ei eTi 6∈ int Pn , In − n P i =1 ei eTi = 0 ∈ Pn . Поэтому условия теоремы .. выполнены при αi = βi = 1, i = 1, …, n, Pn α и, значит, ν ¾ i=1 i = n. βi Как и в задаче линейной оптимизации (.), в задаче (.) нужно использовать сужение барьера F( X ) на множество L = X | 〈 Ai , X 〉F = bi , i = 1, …, m . По теореме .. это сужение является n-самосогласованным барьером. Таким образом, сложность задачи (.) не превосходит p O( n · ln(n/ǫ )) итераций метода отслеживания траектории. Заметим, что эта оценка является очень обнадеживающей, поскольку размерность задачи (.) равна (1/2)n(n + 1). Оценим арифметические затраты каждой итерации метода (.), применяемого к задаче (.). Отметим, что мы работаем с сужением барьера F( X ) на множество L . По лемме .. каждая итерация метода Ньютона состоит из решения следующей задачи: 1 min 〈U, ∆〉F + 〈 X −1 ∆ X −1 , ∆〉F : 〈 Ai , ∆〉F = 0, ∆ 2 i = 1, …, m , где X ≻ 0 принадлежит L , а U –– комбинация целевой матрицы C и градиента F ′ ( X ). В соответствии со следствием .. решение этой задачи может быть найдено из следующей системы линейных уравнений: m P U + X −1 ∆ X −1 = λ( j) A j , j =1 (.) 〈 Ai , ∆〉F = 0, i = 1, …, m. Из первого уравнения в системе (.) получаем m P ∆ = X −U + λ( j) A j X . j =1 (.) “Nesterov-final” — // — : — page — # § .. Приложения структурной оптимизации Подставляя это выражение во второе уравнение из системы (.), получим линейную систему m P j =1 λ( j) 〈 Ai , XA j X 〉F = 〈 Ai , XUX 〉F , i = 1, …, m, (.) которая может быть записана в матричной форме как Sλ = d, где S(i, j) = 〈 Ai , XA j X 〉F , d ( j) = 〈U, XA j X 〉F , i, j = 1, …, m. Таким образом, для решения системы (.) необходимо произвести следующие операции. ◦ Вычисление матриц XA j X , j = 1, …, m. Вычислительные затраты: O(mn3 ) операций. ◦ Вычисление элементов S и d. Вычислительные затраты: O(m2 n2 ) операций. ◦ Вычисление λ = S−1 d. Вычислительные затраты: O(m3 ) операций. ◦ Вычисление ∆ по формуле (.). Вычислительные затраты: O(mn2 ) операций. n(n + 1) Принимая во внимание неравенство m ¶ , заключаем, что 2 сложность одного шага метода Ньютона не превосходит O(n2 (m + n)m) арифметических операций. (.) Однако если матрицы A j обладают определенной структурой, то эта оценка может быть существенно улучшена. Например, если все матрицы A j имеют ранг : A j = a j aTj , a j ∈ Rn , j = 1, …, m, то вычисление одного шага метода Ньютона можно осуществить за O((m + n)3 ) арифметических операций. (.) Проверку этого утверждения оставим читателю в качестве упражнения. В заключение этого пункта заметим, что во многих важных приложениях можно использовать барьер вида − ln det(·) для описания “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация надграфиков различных функций, зависящих от собственных значений. Рассмотрим, например, матрицу A (x) ∈ Sn×n , которая линейно зависит от x. Тогда выпуклую область (x, t) | max λi (A (x)) ¶ t 1¶i ¶n можно описать следующим самосогласованным барьером: F(x, t) = − ln det(tIn − A (x)). Величина параметра этого барьера равна n. ... Экстремальные эллипсоиды В некоторых приложениях необходимо строить эллипсоидальные аппроксимации многогранных множеств. Рассмотрим наиболее важные примеры этого типа. Минимальный описанный эллипсоид Для данного множества точек a1 , …, am ∈ Rn найти эллипсоид W минимального объема, содержащий все точки {ai }. Запишем эту задачу в математическом виде. Прежде всего заметим, что любой ограниченный эллипсоид W ⊂ Rn можно задать как W = x ∈ Rn | x = H −1 (υ + u), k u k ¶ 1 , где H ∈ int Pn и υ ∈ Rn . Тогда включение a ∈ W эквивалентно неравенству k Ha − υk ¶ 1. Заметим также, что voln W = voln B2 (0, 1) · det H −1 = voln B2 (0, 1) . det H Таким образом, наша задача состоит в следующем: min τ, H,υ,τ при − ln det H ¶ τ, k Hai − υk ¶ 1, i = 1, …, m, (.) H ∈ P n , υ ∈ R n , τ ∈ R1 . Для того чтобы решить эту задачу методом внутренней точки, нужно найти самосогласованный барьер для допустимого множества. К “Nesterov-final” — // — : — page — # § .. Приложения структурной оптимизации данному моменту нам известны такие барьеры для всех составляющих этой задачи, кроме первого неравенства. Лемма ... Функция − ln det H − ln(τ + ln det H) является (n + 1)-самосогласованным барьером для множества (H, τ) ∈ Sn×n × R1 | τ ¾ − ln det H, H ∈ Pn . (Доказательство этого утверждения предоставляется читателю.) Таким образом, можно использовать следующий барьер: F(H, υ, τ) = − ln det H − ln(τ + ln det H) − m P i =1 ln(1 − k Hai − υk2 ), ν = m + n + 1. Соответствующая граница сложности равна O итерациям метода отслеживания траектории. p m + n + 1 · ln m + n ǫ Максимальный вписанный эллипсоид с фиксированным центром Пусть Q –– выпуклый многогранник, заданный набором линейных неравенств: Q = x ∈ Rn | 〈ai , x 〉 ¶ bi , i = 1, …, m , и пусть υ ∈ int Q. Найти такой эллипсоид W наибольшего объема с центром υ, что W ⊂ Q. Зафиксируем некоторое H ∈ int Pn . Эллипсоид W можно представить в виде W = x ∈ Rn | 〈 H −1 (x − υ), x − υ〉 ¶ 1 . Нам понадобится следующий простой результат. Лемма ... Пусть 〈a, υ〉 < b. Неравенство 〈a, x 〉 ¶ b верно для любого x ∈ W тогда и только тогда, когда 〈 Ha, a〉 ¶ (b − 〈a, υ〉)2 . “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Доказательство. Из леммы .. следует, что max 〈a, u〉 | 〈 H −1 u, u〉 ¶ 1 = 〈 Ha, a〉1/2 . u Поэтому нам надо гарантировать, что max〈a, x 〉 = max 〈a, x − υ〉 + 〈a, υ〉 = x ∈W x ∈W = 〈a, υ〉 + max 〈a, u〉 | 〈 H −1 u, u〉 ¶ 1 = x = 〈a, υ〉 + 〈 Ha, a〉1/2 ¶ b. Это доказывает наше утверждение, так как 〈a, υ〉 < b. Заметим, что voln W = voln B2 (0, 1)[det H]1/2 . Таким образом, наша задача состоит в следующем: min τ, H,τ при − ln det H ¶ τ, 〈 Hai , ai 〉 ¶ (bi − 〈ai , υ〉)2 , i = 1, …, m, (.) H ∈ P n , τ ∈ R1 . В силу леммы .. здесь можно использовать самосогласованный барьер вида F(H, τ) = − ln det H − ln(τ + ln det H) − m P − ln[(bi − 〈ai , υ〉)2 − 〈 Hai , ai 〉], i =1 ν =m + n + 1. Оценка сложности отслеживания траек p соответствующего метода тории равна O m + n + 1 · ln((m + n)ǫ ) итерациям. Максимальный вписанный эллипсоид со свободным центром Пусть Q –– выпуклый многогранник, заданный набором линейных неравенств: Q = x ∈ Rn | 〈ai , x 〉 ¶ bi , i = 1, …, m , и пусть int Q 6= ∅. Найти такой эллипсоид W максимального объема, что W ⊂ Q. “Nesterov-final” — // — : — page — # § .. Приложения структурной оптимизации Пусть G ∈ int Pn , υ ∈ int Q. Можно представить W следующим образом: W = x ∈ Rn | k G −1 (x − υ) k ¶ 1 ≡ ≡ x ∈ Rn | 〈G −2 (x − υ), x − υ〉 ¶ 1 . В силу леммы .. неравенство 〈a, x 〉 ¶ b верно для любых x ∈ W в том и только в том случае, если k Ga k2 ≡ 〈G 2 a, a〉 ¶ (b − 〈a, υ〉)2 . Это нам дает выпуклую область для набора параметров (G, υ): k Ga k ¶ b − 〈a, υ〉. Заметим, что voln W = voln B2 (0, 1) det G. Поэтому нашу задачу можно переписать в виде min τ, G,υ,τ при − ln det G ¶ τ, k Gai k ¶ bi − 〈ai , υ〉, i = 1, …, m, (.) G ∈ P n , υ ∈ R n , τ ∈ R1 . В силу лемм .. и .. здесь можно использовать следующие самосогласованные барьеры: F(G, υ, τ) = − ln det G − ln(τ + ln det G)− m P − ln[(bi − 〈ai , υ〉)2 − k Gai k2 ], i =1 ν =2m + n + 1. Соответствующая оценка сложности тогда равна p O( 2m + n + 1 × ln((m + n)/ǫ ) итерациям метода отслеживания траектории. ... Сепарабельная оптимизация В сепарабельной оптимизации все нелинейные составляющие задачи представимы функциями от одной переменной. Общая форму “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация лировка такой задачи выглядит следующим образом: minn q0 (x) = x ∈R при qi (x) = mi P j =1 m0 P j =1 α0, j f0, j 〈a0, j , x 〉 + b0, j , αi, j fi, j 〈ai, j , x 〉 + bi, j ¶ βi , (.) i = 1, …, m, где αi, j –– некоторые положительные коэффициенты, ai, j ∈ Rn , и fi, j (t) –– выпуклые функции одной переменной. Перепишем эту задачу в стандартной форме: τ0 → min x,t,τ при fi, j (〈ai, j , x 〉 + bi, j ) ¶ ti, j , i = 0, …, m, j = 1, …, mi , mi P αi, j ti, j ¶ τi , i = 0, …, m, (.) j =1 τi ¶ βi , i = 1, …, m, n x ∈ R , τ ∈ R m +1 , t ∈ R M , Pm где M = i=0 mi . Таким образом, для того чтобы построить самосогласованный барьер для допустимого множества данной задачи, необходимо знать барьеры для надграфиков одномерных выпуклых функций fi, j . Выпишем такие барьеры для нескольких важных функций. Логарифм и экспонента Функция F1 (x, t) = − ln x − ln(ln x + t) является 2-самосогласованным барьером для множества Q1 = (x, t) ∈ R2 | x > 0, t ¾ − ln x , а функция F2 (x, t) = − ln t − ln(ln t − x) есть 2-самосогласованный барьер для Q2 = (x, t) ∈ R2 | t ¾ e x . Функция энтропии Функция F3 (x, t) = − ln x − ln(t − x ln x) является 2-самосогласованным барьером для множества Q3 = (x, t) ∈ R2 | x ¾ 0, t ¾ x ln x . “Nesterov-final” — // — : — page — # § .. Приложения структурной оптимизации Возрастающие степенные функции Функция F4 (x, t) = −2 ln t − ln(t 2/ p − x 2 ) является 4-самосогласованным барьером для множества Q4 = (x, t) ∈ R2 | t ¾ | x | p , p ¾ 1, а функция F5 (x, t) = − ln x − ln(t p − x) есть 2-самосогласованный барьер для Q5 = (x, t) ∈ R2 | x ¾ 0, t p ¾ x , 0 < p ¶ 1. Убывающие степенные функции Функция F6 (x, t) = − ln t − ln(x − t −1/ p ) является 2-самосогласованным барьером для множества § ª 1 Q6 = (x, t) ∈ R2 | x > 0, t ¾ p , p ¾ 1, x −p а функция F7 (x, t) = − ln x − ln(t − x ) есть 2-самосогласованный барьер для § ª 1 Q7 = (x, t) ∈ R2 | x > 0, t ¾ p , 0 < p < 1. x Опустим формальные доказательства для приведенных примеров, поскольку они достаточно длинны. Можно также показать, что барьеры для всех этих множеств (кроме, быть может, множества Q4 ) являются оптимальными. Докажем это утверждение для множеств Q6 и Q7 . Лемма ... Параметр ν любого самосогласованного барьера для множества § ª 1 Q = (x (1) , x (2) ) ∈ R2 | x (1) > 0, x (2) ¾ (1) p , (x ) где p > 0, удовлетворяет неравенству ν ¾ 2. Доказательство. Зафиксируем некоторое γ > 1 и выберем x̄ = (γ, γ) ∈ ∈ int Q. Введем обозначения p1 = e1 , p2 = e2 , β1 = β2 = γ , Тогда x̄ + ξei ∈ Q для любого ξ ¾ 0 и x̄ − β e1 = (0, γ) ∈ / Q, α1 = α2 = α ≡ γ − 1. x̄ − β e2 = (γ, 0) ∈ / Q, x̄ − α(e1 + e2 ) = (γ − α, γ − α) = (1, 1) ∈ Q. “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Условия теоремы .. выполнены, и поэтому ν¾ α1 α γ−1 + 2 =2 . β1 β2 γ Параметр γ можно выбрать произвольно большим, что и доказывает утверждение леммы. В заключение нашего обсуждения приведем два примера. Геометрическое программирование Исходная формулировка таких задач имеет следующий вид: minn q0 (x) = x ∈R при qi (x) = mi P αi, j j =1 m0 P α0, j j =1 n Q n Q ( j) (x ( j) )σ0, j j =1 ( j) (x ( j))σi, j ¶ 1, i = 1, …, m, (.) j =1 x ( j) > 0, j = 1, …, n, где αi, j –– некоторые положительные коэффициенты. Заметим, что задача (.) не является выпуклой. (n) n Введем в рассмотрение векторы ai, j = (σ(1) i, j , …, σi, j ) ∈ R и сдела(i) ем замену переменных x (i) = e y . Тогда задача (.) преобразуется в выпуклую сепарабельную задачу minn m0 P y ∈R j =1 при mi P j =1 α0, j exp(〈a0, j , y 〉), αi, j exp(〈ai, j , y 〉) ¶ 1, Pm (.) i = 1, …, m. Пусть M = i=0 mi . Сложность решения задачи (.) методом отслеживания траектории оценивается как M O M 1/2 · ln ǫ итераций “Nesterov-final” — // — : — page — # § .. Приложения структурной оптимизации Аппроксимация в l p -нормах Рассмотрим простейшую задачу такого типа: minn m P x ∈R i =1 |〈ai , x 〉 − b(i) | p (.) при α ¶ x ¶ β , где p ¾ 1. Эту задачу можно переписать в эквивалентной стандартной форме: min τ(0) , x,τ при (i) p |〈ai , x 〉 − b | ¶ τ(i) , m P τ(i) ¶ τ(0) , i = 1, …, m, (.) i =1 α ¶ x ¶ β, x ∈ R n , τ ∈ R m +1 . p Верхняя граница сложности для этой задачи будет равна O( m + n × × ln(m + n)/ǫ ) итерациям метода отслеживания траектории. Таким образом, мы обсудили эффективность методов внутренней точки на некоторых примерах однородных формулировок задач оптимизации. Однако эти методы можно применять и к смешанным задачам. Например, к задаче (.) или (.) можно добавить также и ограничения другого типа, скажем квадратичные. Для этого нам нужно уметь строить соответствующие самосогласованные барьеры. Такие барьеры известны для всех важных множеств, встречающихся в практических приложениях. ... Выбор схемы минимизации Мы уже знаем, что много выпуклых задач оптимизации может быть решено с помощью методов внутренней точки. Однако те же задачи можно решить и другим способом, используя методы негладкой оптимизации. В общем случае нельзя указать, какой подход лучше, поскольку это зависит от специфической структуры конкретной задачи. В то же время, оценки сложности методов оптимизации помогают сделать рациональный выбор. Рассмотрим простой пример. “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Предположим, что мы решаем задачу нахождения наилучшей аппроксимации в l p -нормах: minn m P x ∈R i =1 |〈ai , x 〉 − b(i) | p , (.) при α ¶ x ¶ β , где p ¾ 1. Рассмотрим два численных метода решения этой задачи: ◦ метод эллипсоидов (п. ..); ◦ метод внутренней точки, отслеживающий центральную траекторию. Какой метод здесь лучше использовать? Получить ответ на этот вопрос можно исходя из оценок сложности соответствующих методов. Оценим сначала эффективность метода эллипсоидов, примененного к задаче (.). Сложность метода эллипсоидов Число итераций: O(n2 ln(1/ǫ )). Сложность оракула: O(mn) операций. Сложность каждой итерации: O(n2 ) операций. Суммарные затраты: O(n3 (m + n) ln(1/ǫ )) операций. Анализ метода отслеживания траектории более сложен. Во-первых, надо построить барьерную модель задачи: ξ → min x,τ,ξ |〈ai , x 〉 − b(i) | p ¶ τ(i) , i = 1, …, m, m P τ(i) ¶ ξ, α ¶ x ¶ β , при i =1 F(x, τ, ξ)) = m P i =1 − n P i =1 f (τ(i) , 〈ai , x 〉 − b(i) ) − ln(ξ − m P i =1 ln(x (i) − α(i) ) + ln(β (i) − x (i) ) , где f ( y, t) = −2 ln t − ln(t 2/ p − y 2 ). (.) x ∈ R n , τ ∈ R m , ξ ∈ R1 , τ(i) )− “Nesterov-final” — // — : — page — # § .. Приложения структурной оптимизации Мы знаем, что параметр барьера F(x, τ, ξ) есть ν = p 4m + n + 1. Поэтому число итераций метода не превосходит O( 4m + n + 1 · · ln(m + n)/ǫ ). На каждой итерации необходимо вычислять градиент и гессиан барьера F(x, τ, ξ). Введем обозначения g1 ( y, t) = f y′ ( y, t), g2 ( y, t) = ft′ ( y, t). Тогда Fx′ (x, τ, ξ) = m P i =1 g1 (τ(i), 〈ai , x 〉 − b(i) )ai − n P i =1 1 1 − (i) e, x (i) − α(i) β − x (i) i −1 m P Fτ′ (i) (x, τ, ξ) = g2 (τ(i) , 〈ai , x 〉 − b(i) ) + ξ − τ( j) , j =1 m P Fξ′ (x, τ, ξ) = − ξ − τ(i) −1 . i =1 Далее, вводя обозначения ′′ h11 ( y, t) = f yy ( y, t), h12 ( y, t) = f yt′′ ( y, t), h22 ( y, t) = ftt′′ ( y, t), получим ′′ (x, τ, ξ) = Fxx m P i =1 h11 (τ(i), 〈ai , x 〉 − b(i) )ai aTi + + diag 1 1 + (i) , (x (i) − α(i) )2 (β − x (i) )2 Fτ′′(i) x (x, τ, ξ) =h12 (τ(i) , 〈ai , x 〉 − b(i) )ai , −2 m P Fτ′′(i) ,τ(i) (x, τ, ξ) =h22 (τ(i) , 〈ai , x 〉 − b(i) ) + ξ − τ(i) , i =1 Fτ′′(i) ,τ( j) (x, τ, ξ) = ξ − m P τ(i) −2 i =1 , i 6= j, −2 m P ′′ ′′ (i) Fx, (x, τ , ξ ) = 0, F (x, τ , ξ ) = − ξ − τ , ξ τ(i) ,ξ i =1 Fξ′′,ξ (x, τ, ξ) = ξ − m P τ(i) −2 . i =1 Таким образом, сложность оракула второго порядка в методе отслеживания траектории составляет O(mn2 ) арифметических операций. “Nesterov-final” — // — : — page — # Глава . Структурная оптимизация Оценим теперь сложность каждой итерации. Основной объем вычислений приходится на решение системы Ньютона. Введем обозначение −2 m P κ= ξ− τ(i) , si = 〈ai , x 〉 − b(i) , i = 1, …, n, i =1 и Λ0 = diag 1 1 + (i) (x (i) − α(i) )2 (β − x (i) )2 n i =1 , Λ1 = diag(h11 (τ(i), si ))m i =1 , Λ2 = diag(h12 (τ(i) , si ))m i =1 , D = diag(h22 (τ(i), si ))m i =1 . Тогда, используя обозначения A = (a1 , …, am ) и e = (1, …, 1) ∈ Rm , систему Ньютона можно переписать в следующем виде: ∆ x + AΛ2 ∆τ = Fx′ (x, τ, ξ), Λ2 AT ∆ x + [D + κIm ]∆τ + κe∆ξ = Fτ′ (x, τ, ξ), (.) κ〈e, ∆τ〉 + κ∆ξ = Fξ′ (x, τ, ξ) + t, где t –– это параметр штрафа. Из второго уравнения системы (.) получаем ∆τ = [D + κIm ]−1 (Fτ′ (x, τ, ξ) − Λ2 AT ∆ x − κe∆ξ). Подставляя ∆τ в первое уравнение в (.), можно выразить ∆ x = [A(Λ0 + Λ1 − Λ22 [D + κIm ]−1 )AT ]−1 {Fx′ (x, τ, ξ) − − AΛ2 [D + κIm ]−1 (Fτ′ (x, τ, ξ) − κe∆ξ)}. Используя эти соотношения, находим ∆ξ из последнего уравнения системы (.). Таким образом, система Ньютона (.) может быть решена за O(n3 + mn2 ) итераций. Следовательно, суммарные затраты метода отслеживания траектории оцениваются как m+n O n2 (m + n)3/2 · ln ǫ арифметических операций. Сравнивая эту оценку с оценкой трудоемкости метода эллипсоидов, заключаем, что методы внутренней точки являются более эффективными в случаях, когда m не слишком велико, а именно если m ¶ O(n2 ). “Nesterov-final” — // — : — page — # Библиографический комментарий Глава . Нелинейная оптимизация .. Теория сложности для оптимизационных методов, работающих с «черным ящиком» была разработана в книге []. В этой книге читатель может найти множество примеров сопротивляющихся оракулов и нижних границ сложности, аналогичных тем, что приведены в теореме ... . и .. Существует несколько классических монографий [, , ], в которых рассматриваются различные аспекты задач нелинейной оптимизации и численных методов их решения. Для изучения задач последовательной безусловной минимизации наилучшим источником по-прежнему является книга []. Глава . Гладкая выпуклая оптимизация .. Нижние границы сложности для задач с гладкими выпуклыми и сильно выпуклыми функциями можно найти в книге []. Однако доказательство, приведенное в этом параграфе, является новым. .. Градиентное отображение было введено в книге []. Оптимальный метод для задач с гладкими и сильно гладкими выпуклыми функциями был предложен в книге []. Вариант при наличии ограничений в этом методе взят из монографии []. .. Оптимальные методы для минимаксных задач разработаны в книге []. При этом подход, рассмотренный в п. .., является новым. Глава . Негладкая выпуклая оптимизация .. Полное исследование различных вопросов выпуклого анализа можно найти в книге []. Однако классическая книга [] все еще представляется полезной. .. Изучение нижних границ вычислительной сложности для задач негладкой минимизации можно найти в книге []. Общая схема доказательства скорости сходимости была предложена в рабо- “Nesterov-final” — // — : — page — # Библиографический комментарий те []. Детальные библиографические справки по истории методов негладкой минимизации приведены в работе []. .. Пример плохого поведения метода Келли взят из книги []. Изложение метода уровней здесь близко к работе []. Глава . Структурная оптимизация Эта глава содержит упрощенное изложение основных концепций из работы []. Добавлено несколько полезных неравенств и слегка упрощена схема отслеживания траектории. Мы предлагаем читателю монографии [], [] для изучения многочисленных приложений методов внутренней точки и работы [], [], [] и [] для подробного исследования различных теоретических аспектов задач выпуклой оптимизации. Добавлено при переводе. “Nesterov-final” — // — : — page — # Литература [] Ben-Tal A. and Nemirovskii A. Lectures on Modern Convex Optimizatin Analysis, Alogorithms, and Engineering Applications, SIAM, Philadelphia, . [] Boyd S. and Vandenberghe L. Convex Optimization, Cambridge University Press, . [] Conn A. B., N.I.M. Gould and Toint Ph. L.Trust Region Methods, SIAM, Philadelphia, . [] Dennis J. E. and Schnabel R. B. Numerical Methods for Unconstrained Optimization and Nonlinear Equations, SIAM, Philadelphia, . [] Fiacco A. V. and McCormick G. P. Nonlinear Programming: Sequential Unconstrained Minimization Techniques, John Wiley and Sons, New York, . [] Hiriart-Urruty J.-B. and Lemaréchal C. Convex Analysis and Minimization Algorithms, vols. I and II. Springer-Verlag, . [] Lemarechal C., Nemirovskii A. and Nesterov Yu. New variants of bundle methods. //Mathematical Programmming, , –– (). [] Luenberger D. G. Linear and Nonlinear Programming. nd Ed., Addison Wesley. . [] Немировский А. С., Юдин Д. Б. Информационная сложность и эффективность методов оптимизации. Наука, М.: . [] Нестеров Ю. Е. Методы минимизации негладких и квазивыпуклых функций. Экономика и математические методы, , т. , є , с. ––. [] Нестеров Ю. Е. Метод решения задач выпуклого программирования с трудоемкостью O(1/k 2 ). Доклады АН СССР, , т. , є , с. ––. [] Нестеров Ю. Е. Эффективные методы в нелинейном программировании. М.: Радио и Связь, . “Nesterov-final” — // — : — page — # Литература [] Nesterov Yu. and Nemirovskii A. Interior-Point Polynomial Algorithms in Convex Programming, SIAM, Philadelphia, . [] Поляк Б. Т. Введение в оптимизацию. М.: Наука, . [] Renegar J. A Mathematical View of Interior-Point Methods in Convex Optimization, MPS–SIAM Series on Optimization, SIAM . [] Rockafellar R. T. Convex Analysis, Princeton Univ. Press, Princeton, NJ, . [] Roos C., Terlaky T. and Vial J.-Ph. Theory and Algorithms for Linear Optimization: An Interior Point Approach. John Wiley, Chichester, . [] Vanderbei R. J. Linear Programming: Foundations and Extensions. Kluwer Academic Publishers, Boston, . [] Wright S. Primal-dual interior point methods. SIAM, Philadelphia, . [] Ye Y. Interior Point Algorithms: Theory and Analysis, John Wiley and Sons, Inc., . “Nesterov-final” — // — : — page — # Предметный указатель аналитический центр антиградиент аппроксимация – в l p -нормах – второго порядка – глобальная верхняя – квадратичная – линейная – первого порядка барьер аналитический – объемный – самосогласованный – универсальный бесконечность-норма выпуклая дифференцируемая функция – комбинация , – функция выпуклое множество вычислительные затраты гессиан гиперплоскость опорная – отделяющая градиентное отображение демпфированный метод Ньютона единичный шар задача аппроксимации в l p нормах , – безусловная – геометрического программирования – гладкая – допустимая (разрешимая) – квадратичной оптимизации – – с квадратичными ограничениями , – линейной оптимизации , – негладкая – общая – полуопределенной оптимизации – разрешимости – с линейными ограничениями – сепарабельной оптимизации – строго допустимая (строго разрешимая) – условная – целочисленной оптимизации “Nesterov-final” — // — : — page — # Предметный указатель информационная модель квазиньютоновское правило класс задач конус второго порядка – неотрицательно определенных матриц концепция черного ящика линейное подпространство Крылова матрица неотрицательно определенная – положительно определенная метод аналитических центров – барьерных функций – вписанных эллипсоидов – градиентный – Келли – Ньютона демпфированный , – – стандартный , – объемных центров – оптимальный – отсекающей гиперплоскости – отслеживания траектории – переменной метрики – равномерного перебора – сопряженных градиентов – центров тяжести – штрафных функций – эллипсоидов минимаксная задача минимум глобальный – локальный множество выпуклое – допустимое – – базовое – локализации – уровней , модель выпуклой функции – задачи минимизации – – барьерная , – – функциональная надграфик неравенство Йенсена – Коши––Буняковского норма l1 – l∞ , – Евклидова – локальная – Фробениуса область определения функции общий итеративный метод опорная функция опорный вектор оракул – локальный черный ящик – сопротивляющийся оценивающие последовательности параметр барьера – центрирования полиномиальные методы положительный ортант поляра проекция производная по направлению “Nesterov-final” — // — : — page — # Предметный указатель релаксация рецессивное направление решение глобальное – локальное самосогласованная функция самосогласованный барьер сжимающее отображение система Ньютона скалярное произведение сложность аналитическая – арифметическая – верхние границы – нижние границы сопряженные направления стандартная задача минимизации стандартный логарифмический барьер – симплекс стационарная точка стратегия выбора длины шага стратегия обновления строгая отделимость структурные ограничения субградиент субдифференциал условие Липшица условие оптимальности второго порядка – задачи с ограничениями – минимаксной задачи – первого порядка условие приближенного центрирования условие Слэйтера , функциональные ограничения функция барьерная , – выпуклая – липшицева – самосогласованная – сильно выпуклая – типа максимума – целевая центр аналитический – тяжести центральная траектория – вспомогательная – уравнение число обусловленности эллипсоид Дикина эффективность на задаче – на классе задач