Часть I Введение Глава 1 Введение Уолл-стрит печально известна тем, что не учится на своих ошибках. Возможно, машины способны на большее. - Пусть машины принимают решения Инвестиции на финансовых рынках представляют собой фундаментальную и сложную задачу, как в научной, так и в индустриальной финансовой сфере. Например, паевые фонды инвестируют привлеченный капитал в набор возможностей для инвестирования, чтобы создать ценность для инвесторов фонда; страховые компании инвестируют страховые взносы в финансовый рынок с целью удовлетворения страховых требований в будущем. Обычно инвесторы анализируют и изучают возможность инвестирования с помощью фундаментального и технического анализа, используя различные инструменты и средства, часто вручную. Чтобы соответствовать быстрому развитию инвестиционных возможностей (ср. три задачи в разделе 1.1), количественный (качественный) анализ становится новым способом инвестиционного анализа и автоматизированной торговли. Вычислительные финансы (ВФ), которые используют финансовую теорию с помощью вычислительных методов, которые появляются и быстро развиваются в последние годы. Одной из наиболее изученных областей ВФ являются инвестиции, поскольку компьютер помогает автоматизировать различные задачи и принимать решения в области инвестиций. Например, используя передовые вычислительные инструменты, инвестиционные аналитики могут анализировать огромное количество данных и выявлять недооцененные акции. Кроме того, инвестиционные стратеги могут проводить анализ стратегий на основе исторических данных, чтобы быть уверенными в правильности стратегии в неизвестном будущем. Одной из важнейших инвестиционных задач является распределение капитала, или так называемый "выбор портфеля" (Markowitz 1952). Несмотря на теоретическое совершенство, ошибки оценки в моделях сдерживали их применение в реальных инвестициях. По мнению DeMiguel et al. (2009), 1 наивная стратегии (стратегия диверсификации) могут превзойти различные N модели выбора портфеля. Такие ошибки оценки приводят к портфельным стратегиям без оценки, или online portfolio selection (OLPS - алгоритмическая торговая стратегия), впервые предложенная Cover (1991). Далее мы следуем этому подходу и изучаем проблему OLPS. В этой главе сначала представлена история OLPS и кратко изложено содержание, которое будет рассмотрено в этой книге. ВВЕДЕНИЕ 1.1 Справочная информация Индустрия управления финансовыми инвестициями часто сталкивается с различными проблемами и требует новых решений для поставленных задач. Ниже мы представим три показательные задачи и кратко предложим, как решить эти проблемы с помощью методов машинного обучения. 1.1.1 Задача 1: Объемные финансовые инструменты Одной из проблем последнего времени является растущее количество финансовых инструментов,* как с точки зрения категорий, так и активов в каждой категории. С одной стороны, финансовые инновации (Miller 1986) за последнее десятилетие создали различные виды инструментов, такие как процентные свопы, кредитные дефолтные свопы и опционы. С другой стороны, с развитием глобальной экономики тысячи компаний и торговых инструментов котируются на различных биржах.† “Большие данные”, генерируемые этими инструментами и компаниями, очень трудно обрабатывать и анализировать инвесторам. 1.1.2 Задача 2: Поведенческие предубеждения человека Вторая проблема - это поведенческие предубеждения людей при принятии решений (Barberis and Thaler 2003). Из-за субъективной природы человека многие традиционные инвестиционные стратеги страдают от этих предубеждений и принимают неоптимальные решения при взаимодействии жадности и страха. На самом деле, использование последовательных предубеждений на рынках является одним из источников прибыли для многих трейдеров (Reinganum 1983; Dimson 1988; Jegadeesh 1990). Таким образом, для индивидуального инвестора или организации лучше избегать таких поведенческих предубеждений или даже использовать другие предубеждения, что трудно для большинства человеческих инвесторов. 1.1.3 Вызов 3: Высокочастотная торговля Развитие информационных технологий значительно ускорило развитие торговли. Одним из примеров является высокочастотная торговля (HFT highfrequency trading) (Aldridge 2010), которая завершает покупку и продажу в течение времени от нескольких секунд до одного дня. С одной стороны, внутридневные данные намного объемнее и быстрее, чем низкочастотные, и, следовательно, требуют высокоскоростных инструментов и методик. С другой стороны, из-за высокой скорости HFT требует быстрой реакции на поведение рынка, иначе возможности исчезнут. Хотя иногда инвесторы-люди могут заметить возможность, но они слишком медлительны для открытия торговых позиций. Обе характеристики HFT требуют новых инструментов и методик. * К финансовым инструментам относятся любые торгуемые активы, такие как акции, фьючерсы и облигации. † Биржи предоставляют услуги торговли финансовыми инструментами для трейдеров и брокеров. Например, Нью-Йоркская фондовая биржа (NYSE) является фондовой биржей. 1.1.4 Алгоритмическая торговля и машинное обучение Для решения трех вышеперечисленных проблем появились алгоритмические методы торговли, которые помогают инвестиционной деятельности с помощью вычислительных технологий. Однако с развитием вычислительных технологий, сегодня машины могут обрабатывать гораздо большее количество инструментов и компаний, чем люди. Они также обрабатывают данные с гораздо большей скоростью, чем люди, и поэтому подходят для сценариев HFT высокочастотной торговли. С другой стороны, машина свободна от человеческих поведенческих предубеждений и выдает точно такие же результаты, если входные данные одинаковы. В основном существуют две области алгоритмической торговли (Harris 2003), одина из которых находится на стороне продажи*, а другая - на стороне покупки.† Алгоритмическая торговля на стороне продажи (Bertsimas and Lo 1998; Almgren and Chriss 2000; Nevmyvaka et al. 2006; Bayraktar 2011) касается автоматического разбиения крупного заказа на более мелкие, чтобы минимизировать воздействие крупного заказа на рынок, а алгоритмическая торговля на стороне покупки (Qian et al. 2007; Chan 2008; Durbin 2010; Kearns et al. 2010) принимает интеллектуальные инвестиционные решения для достижения определенных целей, таких как максимизация прибыли, минимизация риска или и то, и другое. Машинное обучение (Mitchell 1997), научная дисциплина о разработке алгоритмов, которые могут выявлять сложные взаимосвязи между огромными объемами исторических данных и принимать разумные решения на основе новых данных, успешно применяется в различных областях (Manning and Schütze 1999; Baldi and Brunak 2001), включая алгоритмическую торговлю в финансах. Для стороны продажи существует несколько моделей среди поданных заявок (Harris 2003). Чтобы оптимально исполнить крупный заказ одного клиента, методы машинного обучения (Невмывака и др. 2006; Агарвал и др. 2010; Ганчев и др. 2010) могут воспользоваться закономерностями и подать на биржу более мелкие заказы, взвешенные по времени/объему, так, чтобы воздействие на рынок было минимальным. Для стороны покупателей хорошо задокументированы некоторые закономерности на финансовых рынках (или, на жаргоне, "рыночные аномалии") (Dimson 1988; Cont 2001), такие как календарные аномалии (Haugen and Lakonishok 1987),‡ фундаментальные аномалии (Fama and French 1992),§ и технические аномалии (Bondt and Thaler 1985; Chan et al. 1996),¶ . Чтобы получить прибыль от этих закономерностей, было предложено несколько алгоритмов машинного обучения (El-Yaniv 1998; Yan and Ling 2007; Györfi et al. 2012) для алгоритмической торговли на стороне покупки. Их основная идея заключается в выявлении шаблонов с помощью методов машинного обучения и получении прибыли за счет торговли этими шаблонами. * Под стороной продажи часто подразумеваются инвестиционные банки, которые продают инвестиционные услуги, такие как маршрутизация заказов на биржах, фирмам по управлению активами. † Под стороной покупки обычно подразумеваются фирмы по управлению активами, которые покупают услуги у стороны продажи. Например, Citadel, фирма по управлению активами (сторона покупки), может отправлять свои заказы на покупку через Goldman Sachs, инвестиционный банк (сторона продажи). ‡Календарные аномалии означают закономерности в доходности активов от года к году или от месяца к месяцу. Одним из известных примеров является эффект января. §Фундаментальные аномалии - это закономерности в доходности активов, связанные с фундаментальными ценностями компании, такие как эффект размера и эффект стоимости. ¶Технические аномалии - это закономерности, связанные с историческими ценами, такие как импульс и контрарность. ЧТО ТАКОЕ ОНЛАЙН ПОДБОР ПОРТФЕЛЯ 1.2 ВВЕДЕНИЕ Что такое онлайн подбор портфеля? В этой книге исследуется основная проблема алгоритмической торговли со стороны покупателя под названием "Online Portfolio Selection" (Cover 1991; Ordentlich and Cover 1996), которая последовательно распределяет капитал между набором активов с целью максимизации конечной доходности инвестиций в долгосрочной перспективе. OLPS играет важную роль в широком спектре приложений для финансовых инвестиций таких как автоматизированное управление состоянием, управление хедж-фондами и количественная(качественная) торговля. Далее, чтобы лучше понять идею, мы начнем с конкретного примера реальных приложений OLPS. Предположим, что у Кирилла, 23-летнего мужчины, есть капитал в размере $10 000, и он хочет увеличить его до $1 000 000* , когда выйдет на пенсию в 60 лет, чтобы сохранить текущий уровень жизни. Предположим, что у него нет дополнительного дохода для инвестиций, и он полагается только на первоначальный капитал. Он хотел бы достичь этой цели с помощью инвестиций на финансовых рынках. Предположим, что его инвестиции состоят из трех активов, Microsoft (акции, тикер: "MSFT"), Goldman Sachs (акции, тикер: "GS") и казначейский вексель.† Все исторические записи по этим трем активам, в основном ценовые котировки, находятся в открытом доступе. Затем, каждый месяц,‡ Кирилл получает обновленную информацию о трех активах и сталкивается с важной задачей принятия решений, а именно: “Как распределить (ребалансировать) свой капитал§ между тремя активами каждый месяц так, чтобы его капитал с большей вероятностью увеличился в будущем?”. Идея изучения технологии OLPS заключается в том, чтобы помочь Кириллу автоматизировать последовательность принятия решений о распределении/ребалансировке таким образом, чтобы максимизировать доходность его инвестиций в долгосрочной перспективе. В литературе существуют две основные школы принципов и теорий выбора портфеля: (i) теория средней дисперсии Марковица (Markowitz 1952, 1959), которая заключается в компромиссе между ожидаемой доходностью (средним значением) и риском (дисперсией) портфеля, что подходит для выбора портфеля на один период, и (ii) теория роста капитала (или инвестиции Келли) (Kelly 1956; Breiman 1961; Thorp 1971; Finkelstein and Whitley 1981), которая направлена на максимизацию ожидаемой логарифмической доходности портфеля и, естественно, подходит для инвестиций на несколько периодов. Из-за последовательного характера задачи выбора портфеля в реальном мире, многие современные методы OLPS часто разрабатывают алгоритмы, следуя второму семейству принципов и теорий. Обратите внимание, что в данной книге основное внимание уделяется алгоритмическим аспектам, а не теории (Breiman 1960; Thorp 1969, 1997; Hakansson 1970, 1971; MacLean et al. 2011). Наше исследование часто касается управления инвестициями с использованием нескольких видов активов, которые могут включать ценные бумаги с фиксированным доходом, акции и производный финансовый инструменты (деривативы). Наше исследование также отличается от другого большого массива существующих работ, в которых предпринимались попытки прогнозирования финансовых временных рядов с применением методов вычислительного интеллекта и ведения торговли одной акцией (Katz and McCormick 2000; Huang et al. 2011), таких как обучение с подкреплением (Moody et al. 1998; Moody and Saffell 2001), онлайн-предсказание (Koolen and Vovk 2012), бустинг и экспертное взвешивание (Creamer 2007, 2012; Creamer and Freund 2007, 2010; Creamer and Stolfo 2009), нейронные сети (Kimoto et al. 1993; Dempster et al. 2001), деревья решений (Tsang et al. 2004) и машины опорных векторов (Tay and Cao 2001; Cao and Tay 2003; Lu et al. 2009). Наконец, мы подчеркиваем характер "онлайн" алгоритмов для решения проблемы выбора портфеля, при котором алгоритмы должны быть достаточно вычислительно эффективными для обработки крупномасштабных приложений (например, высокочастотной торговли), хотя наши алгоритмы не ограничиваются высокочастотной торговлей. * Здесь миллион - это произвольное число; конечно, чем больше, тем лучше. :) † Казначейский вексель часто рассматривается как безрисковый актив, приносящий гарантированный безрисковый доход. Когда он не хочет покупать акции, он может поместить все деньги в казначейские векселя, вместо наличных. ‡Здесь "месяц" представляет собой период, который может составлять один день, одну неделю, один месяц и т.д. §Например, он может купить акции MSFT на $5000, акции GS на $3000 и казначейские векселя на $2000. МЕТОДОЛОГИЯ 1.3 Методология OLPS для реальных торговых задач сложна тем, что информация о рынке (в основном, рыночные данные) поступает последовательно, и портфельный менеджер должен немедленно принять решение на основе известной информации. Задача является эндогенно-онлайновой (внутренней онлайновой). Для разработки стратегий для этой задачи были исследованы два типа методик машинного обучения. Первая методика - это пакетное обучение, когда модель обучается на основе пакета обучающих примеров. Таким образом, мы предполагаем, что вся информация о ценах (и, возможно, другая информация) является полной в одной точке принятия решения, и поэтому можно использовать методы пакетного обучения для обучения портфелей. В этом режиме одно решение всегда не имеет отношения к предыдущим решениям. В частности, мы используем такой режим в одном из предложенных алгоритмов, который использует непараметрическое обучение (или обучение на основе экземпляров, или обучение на основе случаев; Aha 1991; Aha et al. 1991; Cherkassky and Mulier 1998). При эффективном принципе торговли такой режим может достичь цели нашего проекта. Вторая методика - онлайн-обучение (или инкрементное обучение), когда модель обучается последовательно на основе одного экземпляра (ShalevShwartz 2012; Loveless et al. 2013). Онлайн-обучение - это процесс решения последовательности задач, учитывая (возможно, частично) решения предыдущих задач и, возможно, дополнительную побочную информацию. Это определение естественным образом подходит к нашей задаче, которая по своей природе является онлайновой. В отличие от пакетного, в этом обучении одно решение часто связано с предыдущими решениями. В частности, в оставшихся трех из четырех алгоритмов мы используем два типа методов онлайн-обучения (Crammer et al. 2006, 2008, 2009; Dredze et al. 2008) для решения задачи. Кроме того, для достижения цели нашего проекта также важно использовать эффективный принцип торговли при разработке конкретной стратегии. В этой книге мы представим различные классические и современные торговые принципы, которые обычно используются для разработки стратегий OLPS. После разработки торговой стратегии нам необходимо оценить эффективность предложенной стратегии, используя методику обратного тестирования(анализа). В частности, мы подаем исторические рыночные данные в тестовую среду для оценки стратегии и изучения ее эффективности. Благодаря обширному набору оценок и анализу результатов обратного тестирования мы можем решить, насколько вероятно, что предложенная торговая стратегия сможет выжить в реальных условиях. В этой книге мы разработали систему обратного тестирования с открытым исходным кодом, названную Online Portfolio Selection, которая позволяет нам сравнивать эмпирические показатели различных стратегий и алгоритмов на одной платформе. На протяжении всей книги все алгоритмы и стратегии будут оцениваться на этой платформе. ВВЕДЕНИЕ 1.4 Обзор книги Эта книга состоит из четырех частей, включая введение, принципы, алгоритмы и эмпирические исследования. Рисунок 1.1 дает представление об организации книги в виде различных частей и глав. Ниже приведено основное содержание каждой части и каждой главы. Часть I: Введение Формулировка проблемы Часть II: Принципы Эталоны Следуй за победителем Следуй за лузером На основе сопоставления шаблонов Часть III: Алгоритмы Пассивно-агрессивный возврат к среднему Непараметрическое обучение на основе корреляции Доверительно-взвешенный возврат к среднему Возврат скользящей средней онлайн Часть IV: Эмпирические исследования Реализации Эмпирические результаты Часть V: Заключение Рисунок 1.1 Организация книги. Угрозы валидности Мета-алгоритмы ОБЗОР КНИГИ Часть I представляет предпосылки, мотивы и основные определения проблемы OLPS. В частности, в главе 1 представлены основы вычислительных финансов, алгоритмической торговли, машинного обучения и их связь с OLPS. В главе 2 формально формулируется проблема OLPS как научная задача. В части II кратко изложены основные принципы и алгоритмы OLPS. В частности, в главе 3 представлено семейство стратегий, известных как эталонные принципы OLPS. В главе 4 представлен принцип "следовать за победителем", который является широко известным как стратегия изучения предположения "следования за трендом" для инвестиций. В главе 5 представлен принцип "следовать за проигравшим", который часто известен как стратегия изучения предположения о "среднем возврате" для инвестиций. В главе 6 представлен принцип подбора паттернов для OLPS. Наконец, в главе 7 представлен принцип мета-обучения, который позволяет исследовать сочетание нескольких принципов и стратегий для OLPS. В части III предлагаются четыре алгоритма OLPS, относящиеся к двум категориям, а именно: подход на основе сопоставления шаблонов и подход "следуй за проигравшим". Первый алгоритм - это алгоритм сопоставления шаблонов, " Непараметрическое обучение на основе корреляции" (CORN), описан в главе 8. Остальные три алгоритма - это алгоритмы возврата к среднему значению. То есть, мы предлагаем алгоритм "пассивноагрессивного возврата среднего" (PAMR) в главе 9, алгоритм "доверительновзвешенного возврата среднего" (CWMR) в главе 10 и "Возврат скользящей средней онлайн" (OLMAR) в главе 11. В части IV представлены наши эмпирические исследования. В главе 12 представлен метод эмпирических исследований, а в главе 13 проводится подробная оценка предложенных алгоритмов на реальных наборах данных и сравнение с набором существующих алгоритмов. Глава 14 защищает методики, использованные при постановке модели и в эмпирических исследованиях. Наконец, глава 15 завершает книгу некоторыми направлениями дальнейшей работы. Глава 2 Формулировка проблемы В этой главе представлена постановка задачи онлайн-выбора портфеля (OLPS) и формально сформулирована задача математически в виде последовательной задачи принятия решений. Далее мы смягчаем постановку задачи, добавляя два практических ограничения: транзакционные издержки и маржинальную покупку. Наконец, мы представляем идею того, как оценить эффективность стратегии. В частности, эта глава организована следующим образом. В разделе 2.1 формально формулируется задача OLPS как последовательная проблема принятия решений. В разделе 2.2 ослабляются ограничения на транзакционные издержки и маржинальную покупку. В разделе 2.3 представлены несколько метрик оценки для данной задачи. Наконец, в разделе 2.4 подводится итог данной главы. ФОРМУЛИРОВКА ПРОБЛЕМЫ 2.1 Постановка проблемы Рассмотрим задачу OLPS: предположим, что инвестор стремится вложить свой капитал в конечное число 𝑚 ≥ 2 инвестиционных активов* на конечное число 𝑛 ≥ 1 торговых периодов.† В -ый период (𝑡 = 1 , . . . , 𝑛), цены активов (цены закрытия) представлены вектором 𝑝𝑡 ∈ ℝ𝑚 + , и каждый элемент 𝑝𝑡,𝑖 , 𝑖 = 1 , . . . , 𝑚, представляет собой цену закрытия актива 𝑖. Изменения их цен представлены вектором относительных цен 𝑥𝑡 ∈ ℝ𝑚 +, каждый компонент, которого обозначает отношение цены 𝑡-го закрытия к цене 𝑝 последнего закрытии, то есть 𝑥𝑡,𝑖 = 𝑡,𝑖 .‡ Таким образом, инвестиции в актив 𝑝𝑡−1,𝑖 𝑖 в течение периода 𝑡 увеличиваются в 𝑥𝑡,𝑖 раз.§ Обозначим 𝑥1𝑛 = {𝑥1 , … , 𝑥𝑛 } как последовательность векторов относительных цен для 𝑛 периодов, а 𝑥𝑠𝑒 = {𝑥𝑠 , … , 𝑥𝑒 }, 1 ≤ 𝑠 < 𝑒 ≤ 𝑛 как рыночное окно векторов относительных цен, начиная с периода 𝑠 до периода 𝑒. Инвестиции в рынок на -й период задаются портфельным вектором 𝑏𝑡 = (𝑏𝑡,1 … 𝑏𝑡,𝑚 ), где 𝑏𝑡,𝑖 , 𝑖 = 1 , . . . , 𝑚, представляет собой долю богатства, вложенную в актив 𝑖 в начале 𝑡-го периода. Как правило, портфель самофинансируется, и маржа/шорт не допускается; поэтому каждая позиция портфеля неотрицательна и складывается в единицу, т.е. 𝑏𝑡 ∈ Δm , где Δm = {𝑏𝑡 ≽ 0, ∑𝑚 𝑖=1 𝑏𝑡,𝑖 = 1}.** Процедура инвестирования представлена портфельной 1 1 стратегией, то есть 𝑏1 = ( , … , ) , и следующей последовательностью 𝑚 𝑚 отображений: 𝑚(𝑡−1) 𝑏𝑡 ∶ ℝ+ → Δm , t = 2,3, …, где 𝑏𝑡 = 𝑏𝑡 (𝑥1𝑡−1 ) портфель, определенный в начале t-го периода на основе наблюдения за поведением рынка в прошлом. Обозначим через 𝑏1𝑛 = {𝑏1 , . . . , 𝑏𝑛 } стратегию для 𝑛 периодов, что является выходом стратегии OLPS. * Когда 𝑚 = 1 , проблема сводится к торговле одной акцией, что выходит за рамки данной книги. † Период может составлять неделю, день, час или даже секунду в высокочастотной торговле. ‡ Здесь мы принимаем простую валовую доходность, тогда как можно выбрать простую чистую доходность, т. е. 𝑝𝑡,𝑖 −𝑝𝑡−1,𝑖 𝑝𝑡−1,𝑖 . Для расчета первого периода предположим, что у нас есть 𝑝0,𝑖 . § Например, 𝑥𝑡 ,𝑖 = 2 означает, что инвестиции в актив увеличатся на 100%, или удвоятся по сравнению с первоначальными инвестициями. 𝑥𝑡 ,𝑖 = 1 означает, что капитал останется первоначальным. ** ≽ 0 означает, что каждый элемент вектора неотрицателен. ФОРМУЛИРОВКА ПРОБЛЕМЫ В -ый период портфель 𝑏𝑡 приносит доходность за период 𝑠𝑡 , то есть стоимость увеличивается в 𝑠𝑡 = 𝑏𝑡T 𝑥t = ∑𝑚 мы 𝑖=1 𝑏𝑡,𝑖 𝑥𝑡,𝑖 раз.† Поскольку реинвестируем и принимаем относительные цены, стоимость портфеля будет расти мультипликативно(многократно). Таким образом, через 𝑛 периодов, портфельная стратегия 𝑏1𝑛 приведет к кумулятивному стоимости портфеля 𝑆𝑛 , что увеличит первоначальную стоимоть в ∏𝑛𝑡=1 𝑏𝑡T 𝑥t раз, то есть, 𝑛 𝑆𝑛 (𝑏1n , 𝑥1n ) = 𝑆0 ∏ 𝑏𝑡T 𝑥t 𝑡=1 где 𝑆0 обозначает начальную стоимость портфеля и для удобства обычно устанавливается равным $1. В P 2.1 мы представляем структуру вышеупомянутой задачи. В этой задаче целью портфельного менеджера является создание портфельной стратегии (𝑏1n ) на основе отношения рыночной цены (𝑥𝑛 ), направленной на достижение определенных целей. Менеджер рассчитывает портфели последовательно. Для каждого периода 𝑡, менеджер имеет доступ к последовательности прошлых векторов относительных цен 𝑥1𝑡−1 . Менеджер рассчитывает новый портфель 𝑏𝑡 для следующего вектора относительных цен 𝑥𝑡 , где критерий принятия решения различается у разных менеджеров. Затем трейдеры ребалансируют новый портфель, покупая и продавая базовые акции. В конце торгового дня рынок покажет 𝑥𝑡 . Результирующий портфель 𝑏𝑡 оценивается по доходности 𝑠𝑡 портфеля за период. Эта процедура повторяется до последнего периода, и портфельная стратегия оценивается по совокупной стоимости портфеля 𝑆𝑛 . Важно отметить, что мы делаем несколько общих и распространенных предположений в приведенной выше модели: 1. Транзакционные издержки: явных или неявных транзакционных издержек‡ не существует. 2. Ликвидность рынка: можно купить и продать необходимое количество, даже дробное, по последней цене закрытия любого данного торгового периода. 3. Влияние на рынок: любая стратегия выбора портфеля не должна влиять на рынок или цены других акций. † Например, Кирилл покупает MSFT на 50% своего капитала ($5000), GS на 30% своего капитала ($3000) и T-bill на оставшиеся 20% ($2000). Если MSFT вырастет в 2 раза, GS упадет в 0,5 раза, а T-bill останется равным 1. Тогда его капитал увеличится в 0,5 × 2 + 0,3 × 0,5 раз. 0,2 × 1 = 1,35, или увеличение на 35%. ‡Явные затраты включают комиссионные, налоги, гербовые сборы и пошлины. Неявные затраты включают спрэд между спросом и предложением, альтернативные издержки и издержки проскальзывания. ТРАНЗАКЦИОННЫЕ ИЗДЕРЖКИ И МОДЕЛИ МАРЖИНАЛЬНОЙ ПОКУПКИ P 2.1: Выбор портфеля в режиме онлайн. Input: 𝑥𝑛 : Историческая относительная последовательность рыночных цен Output: 𝑆𝑛 : Окончательная суммарная стоимость портфеля 1 1 Инициализация 𝑆0 = 1, 𝑏1 = ( , … , ) 𝑚 𝑚 for 𝑡 = 1,12 , . . . , 𝑛 do Портфельный менеджер изучает портфель bt ; Рынок представляет относительный вектор цен xt ; Портфель получает доходность за период st = bTt xt и обновляет совокупный доход St = St−1 × bTt xt ; Портфельный менеджер обновляет свои правила принятия решений; end Предшествующие предположения нетривиальны. Мы проанализируем и обсудим их последствия и влияние на наши эмпирические исследования в разделах 13.4 и 14.1. Наконец, поскольку мы собираемся разработать интеллектуальные алгоритмы обучения, которые соответствуют вышеуказанной модели, давайте определим цель предлагаемых алгоритмов обучения. Для задачи выбора портфеля можно выбрать максимизацию доходности с поправкой на риск (Markowitz 1952; Sharpe 1964) или максимизацию суммарной (кумулятивной) доходности (Kelly 1956; Thorp 1971) в конце периода. Пока модель работает в режиме онлайн, который содержит несколько периодов, мы выбираем максимизировать суммарную прибыль (Hakansson 1971),* что также является целью большинства существующих алгоритмических исследований. * Однако такая цель не запрещает нам сравнивать различные стратегии с помощью показателей с поправкой на риск, таких как коэффициент Шарпа и коэффициент Калмара. ФОРМУЛИРОВКА ПРОБЛЕМЫ 2.2 Транзакционные издержки и модели маржинальной покупки Хотя наша модель лаконична и проста для понимания, она игнорирует некоторые практические вопросы в реальных торговых ситуациях. Теперь мы ослабим два ограничения, чтобы решить эти проблемы. В действительности, важной и неизбежной проблемой являются транзакционные издержки, которые включают комиссионные сборы и налоги, налагаемые брокерами и правительствами, во время проведения ребалансировки.† Обратите внимание, что транзакционные издержки навязаны рынками, и поведение портфеля не может изменить свойства транзакционных издержек, таких как комиссионные или налоговые ставки. Чтобы решить эту проблему, первый способ, который обычно используется в существующих стратегиях, заключается в том, что модель выбора портфеля не учитывает транзакционные издержки, а второй способ заключается в непосредственном включении издержек в модель (Györfi and Vajda 2008). В данной книге мы придерживаемся первого пути и принимаем упрощенную модель пропорциональных транзакционных издержек (Blum and Kalai 1999; Borodin et al. 2004).‡ В частности, при ребалансировке портфеля возникают транзакционные издержки при каждой операции покупки и продажи, на основе коэффициента стоимости сделки 𝛾 ∈ (0, 1). В начале периода 𝑡 управляющий портфелем ребалансирует свое состояние для нового портфеля 𝑏𝑡 , из скорректированного по цене последнего закрытия портфеля 𝑏̂𝑡−1 , каждый компонент которого рассчитывается как 𝑏𝑡−1,𝑖 × 𝑥𝑡−1,𝑖 𝑇 𝑏𝑡−1 𝑥𝑡−1 Такая ребалансировка влечет за собой транзакционные издержки 𝑏̂𝑡−1,𝑖 = 𝑚 𝛾 × ∑|𝑏𝑡,𝑖 − 𝑏̂𝑡−1,𝑖 | 2 𝑖=1 где начальный портфель установлен на (0, . . . , 0). Такая совокупная стоимость после 𝑛 периодов может быть выражено как 𝑛 𝑚 𝛾 𝛾 𝑆𝑛 = 𝑆0 ∏ [(𝑏𝑡 ∙ 𝑥𝑡 ) × (1 − × ∑|𝑏𝑡,𝑖 − 𝑏̂𝑡−1,𝑖 |)] 2 𝑡=1 𝑖=1 † Помимо комиссионных и налогов, некоторые другие факторы, такие как спрэды на торгах, также неявно влекут за собой транзакционные издержки для портфеля. ‡Блюм и Калай (1999, с. 195) также предоставляют точную модель, с которой производительность наших алгоритмов почти такая же, как и с упрощенной, но точная модель требует гораздо больше времени для вычисления. ФОРМУЛИРОВКА ПРОБЛЕМЫ Другим практическим вопросом является маржинальная покупка, которая позволяет управляющим портфелями покупать ценные бумаги на денежные средства, заимствованные у брокеров по ценным бумагам, используя свои собственные позиции по акциям в качестве залога. Следуя существующим исследованиям (Cover 1991; Helmbold et al. 1998; Agarwal et al. 2006), мы ослабляем это ограничение и оцениваем его эмпирически. Мы предполагаем, что маржа устанавливается в размере 50% аванса и 50% кредита,* по годовой процентной ставке 6% (эквивалентно, соответствующая ежедневная процентная ставка заимствования, 𝑐, устанавливается равной 0.000238). При такой настройке для каждого актива создается новый актив, названый "маржинальны компонентом", и его относительная цена за период 𝑡 равна 2 × 1+𝑐 𝑥𝑡,𝑖 − 1 − 𝑐. В случае, если 𝑥𝑡,𝑖 ≤ , что означает падение акции более чем 2 наполовину, мы просто устанавливаем его маржинальный компонент равным 0 (Li et al. 2012).† В результате, если маржинальная покупка разрешена, общее количество активов становится равным 2𝑚. Добавив такой "компонент маржи", мы можем увеличить потенциальную прибыль или убыток по -му активу.‡ *То есть, если у человека есть акции на 100 долларов (первоначальный взнос или залог), он может взять в долг не более 100 долларов наличными (кредит). † Такая мера не является совершенной, поскольку она вручную изменяет компонент маржи, хотя и менее 5 на набор данных. Можно обратиться к работе Györfi et al. (2012, глава 4) для поиска других решений проблемы возможности разорения. ‡ Например, возьмем два актива с ценовыми родственниками (1,1, 0,9). После корректировки вектор относительных цен становится (1.1, 0.9, 1.2, 0.8). Накладывая стоимость на два последних компонента маржи, прибыль или убыток портфеля увеличивается. То есть 10% прибыли (1,1) становится 20% (1,1 × 2 − 1 − 𝑐), а 10% убытка (0,9) также становится 20% (0,9 × 2 − 1 − 𝑐). Обратите внимание, что вектор портфеля, представляющий пропорции капитала, по-прежнему является симплексом. ОЦЕНКА 2.3 Оценка Одним из стандартных критериев оценки стратегии OLPS является суммарная стоимость портфеля в конце торговых периодов. Поскольку мы задаем начальную стоимость, 𝑆0 = 1 и, таким образом, 𝑆𝑛 также обозначает кумулятивную доходность портфеля, которая представляет собой отношение конечного суммарной стоимости портфеля к его начальной стоимости. Другим эквивалентным критерием, учитывающим эффект компаундирования (смешивания), является годовая процентная доходность (APY), то есть 𝐴𝑃𝑌 = 𝑦 √𝑆𝑛 − 1, где 𝑦 - количество лет, соответствующих 𝑛 периодам.§ APY измеряет средний прирост стоимости портфеля, которую можно достичь за год с помощью стратегии. Как правило, чем выше суммарная стоимость портфеля или годовая процентная доходность, тем выше эффективность стратегии. Помимо показателей абсолютной доходности, важно также оценить риск стратегии и доходность с поправкой на риск (Sharpe 1963, 1994). Одним из распространенных критериев является годовое стандартное отклонение доходности портфеля за период для измерения риска волатильности и годовой коэффициент Шарпа (SR) (Sharpe 1966) для оценки доходности с поправкой на риск волатильности. Чтобы получить годовое стандартное отклонение, мы вычисляем стандартное отклонение ежедневной доходности и умножаем на √252.* Для получения доходности с поправкой на риск волатильности мы рассчитать годовой SR как 𝑆𝑅 = 𝐴𝑃𝑌 − 𝑅𝑓 σp где 𝑅𝑓 - безрисковая доходность† , а 𝜎𝑝 - годовое стандартное отклонение. Чем выше годовой SR, тем лучше доходность стратегии (волатильность) с поправкой на риск. Специалисты по управлению портфелем часто проводят анализ просадки (Magdon-Ismail and Atiya 2004), чтобы измерить падение от исторического пика суммарной стоимости портфеля. Формально, просадка стратегии (𝐷𝐷) в период 𝑡 определяется как 𝐷𝐷(𝑡) = sup[0, sup 𝑆𝑖 − 𝑆𝑡 ]. Максимальная просадка i∈(0,t) (𝑀𝐷𝐷) является максимальной из просадок за все периоды и может эффективно измерить риск просадки по стратегии. Формально, максимальная просадка для горизонта n, 𝑀𝐷𝐷(𝑛),определяется как 𝑀𝐷𝐷(𝑛) = sup[𝐷𝐷 (𝑡)] 𝑡∈(0,𝑛) Кроме того, практикующие специалисты также используют коэффициент Калмара (CR) (Young 1991) для измерения доходности стратегии с поправкой на риск просадки: 𝐴𝑃𝑌 𝐶𝑅 = 𝑀𝐷𝐷 Чем меньше максимальная просадка, тем больше риск просадки, с которым может мириться стратегия. Чем выше коэффициент Кальмара, тем лучше доходность стратегии с поправкой на риск (просадки). Чтобы проверить, может ли простая удача обеспечить доходность, достигнутую стратегией, специалисты по управлению портфелем (Grinold and Kahn 1999) могут провести статистические тесты. Поскольку все тестовые наборы данных являются лишь выборками из рыночной популяции, такие тесты могут оценить стратегию на будущее. Мы проводим t-тест Стьюдента для определения вероятности того, что наблюдаемая прибыльность объясняется только случайностью (при предположении, что стратегия не является прибыльной в совокупности). Поскольку прибыльность выборки сравнивается с отсутствием прибыльности, 0 вычитается из средней прибыли/убытка выборки. Обратите внимание, что (дневная) прибыль/убыток равна (дневной) доходности минус 1. Стандартная ошибка среднего рассчитывается как стандартное отклонение, деленное на квадратный корень из числа периодов. t-статистика это выборочное среднее значение прибыли‡, деленное на выборочную стандартную ошибку. Наконец, вероятность t-статистики может быть рассчитана со степенью свободы, равной числу периодов минус 1. Обратите внимание, что t-тест Стьюдента предполагает, что базовое распределение данных является нормальным. Согласно центральной предельной теореме, с увеличением объема выборки распределение среднего значения выборки приближается к нормальному. Если выборка данных содержит большое количество торговых операций, что часто бывает в наших эмпирических оценках, мы можем рассматривать распределение прибыли/убытков как нормальное. Чем меньше вероятность, тем выше доверие к стратегии. §Один год состоит из 252 торговых дней или 50 торговых недель * Здесь 252 обозначает среднее число годовых торговых дней. Для других частот мы можем выбрать соответствующие им числа. † Обычно она равна доходности казначейских векселей, и мы фиксируем ее на уровне 4% в год, или 0,000159 в день. ‡ Предположим, что мы сравниваем выборочное среднее значение прибыли с 0. ФОРМУЛИРОВКА ПРОБЛЕМЫ 2.4 Резюме Онлайн-выбор портфеля (OLPS) является фундаментальной и практической вычислительной финансовой проблемой. Математически ее можно сформулировать как задачу последовательного принятия решений, целью которой является определение наилучшей последовательности решений для максимизации инвестиционных целей в долгосрочной перспективе. Она широко изучалась в литературе, и в последние годы наблюдается быстрый рост плодотворных исследований. В следующей части мы представим семейство важных принципов, широко используемых для решения этой сложной задачи. Часть II Принципы ПРИНЦИПЫ Существующие подходы к онлайн-выбору портфеля (OLPS) следуют предыдущим формулировкам задач и выводят явные схемы обновления портфеля. В таблице II.1 (Li and Hoi 2014) обобщены основные принципы и несколько показательных алгоритмов, а четыре алгоритма подробно проиллюстрированы в последующих главах. В частности, сначала мы представляем несколько эталонные(бенчмарки) алгоритмов. Затем мы представляем три категории принципов или алгоритмов с явными схемами обновления портфеля, которые классифицируются в соответствии с направлениями передачи веса. Первый подход, follow the winner(следуй за победителем), увеличивает веса более успешных экспертов или акций, часто основываясь на их исторических показателях. Напротив, второй подход, follow the loser(следуй за проигравшим), увеличивает веса менее успешных экспертов или акций, или передает веса от победителей к проигравшим. Третья категория, подход на основе сопоставления моделей, строит портфели на основе схожих исторических моделей и не имеет явных направлений. Наконец, мы рассмотрим некоторые связанные мета-алгоритмы, применяемые к набору экспертов, каждый из которых оснащен любыми алгоритмами из предыдущих трех категорий. Данная часть организована следующим образом. В главе 3 рассматриваются бенчмарки, используемые в данном исследовании. В главе 4 рассматривается первый принцип – следовать за победителем. В главе 5 рассматривается второй принцип - следование за проигравшим. Затем в главе 6 представлен третий принцип, подходы на основе сопоставления моделей. Последний принцип, мета-алгоритмы, представлен в главе 7. Таблица II.1 Принципы и показательные алгоритмы выбора портфеля в режиме онлайн Классификации Эталонные Алгоритмы 1. 2. 3. Следуй за победителем 1. 2. 3. 4. 5. Следуй за проигравшим 1. 2. 3. 4. Подходы, основанные на сопоставлении шаблонов 5. 1. 2. 3. 4. 5. Buy and Hold Best Stock Constant Rebalanced Portfolios Universal Portfolios Exponential Gradient Follow the Leader Follow the Leader Aggregating-Type Algorithms Anticorrelation Passive–Aggressive Mean Reversion Confidence Weighted Mean Reversion Online Moving Average Reversion Robust Median Reversion Nonparametric Histogram LogOptimal Strategy Nonparametric Kernel-Based LogOptimal Strategy Nonparametric Nearest Neighbor Log-Optimal Strategy Correlation-Driven Nonparametric Learning Strategy Nonparametric Kernel-Based Репрезентативные ссылки Kelly (1956); Cover (1991) 1. Cover (1991) 2. Helmbold et al. (1998) 3. Gaivoronski and Stella (2000) 4. Agarwal et al. (2006) 5. Vovk and Watkins (1998) 1. Borodin et al. (2004) 2. Li et al. (2012) 3. Li et al. (2013) 4. Li et al. (2015) 5. Huang et al. (2013) 1. Györfi et al. (2006) 2. Györfi et al. (2006) 3. Györfi et al. (2008) 4. Li et al. (2011a) 5. Györfi et al. (2007) 6. 7. Метаалгоритмы 1. 2. 3. 4. 5. Semi-Log-Optimal Strategy Nonparametric Kernel-Based Markowitz-Type Strategy Nonparametric Kernel-Based GVType Strategy Aggregating Algorithm Fast Universalization Algorithm Online Gradient Updates Online Newton Updates Follow the Leading History Источник: Li and Hoi (2014). 6. Ottucsák and Vajda (2007) 7. Györfi and Vajda (2008) 1. Vovk (1990); Vovk and Watkins (1998) Akcoglu et al. (2005) Das and Banerjee (2011) Das and Banerjee (2011) Hazan and Seshadhri (2009) 2. 3. 4. 5. Глава 3 Эталоны 3.1 Стратегия покупки и удержания (Buy-and-Hold Strategy) Наиболее распространенной базовой стратегией является стратегия Buy-and-Hold (BAH), в которой человек инвестирует в рынок с первоначальным портфелем 𝑏1 и держит до конца. Покупает активы только в начале первого периода и не проводит ребалансировку в последующие периоды, в то время как владение портфелем неявно изменяется в соответствии с колебаниями рынка. В частности, в 𝑏 ⊙𝑥 конце периода 𝑡 , владение портфелем становится 𝑡𝑇 𝑡 , где ⊙ обозначает 𝑏𝑡 𝑥𝑡 поэлементное произведение.* BAH конечное совокупная стоимость портфеля это первоначальное портфельно-взвешенное среднее значение доходности отдельных активов, т.е, 𝑆𝑛 (𝐵𝐴𝑁(𝑏1 )) = 𝑏1 ∙ (⊙𝑛𝑡=1 𝑥𝑡 ) где 𝑏 ∙ 𝑥 обозначает внутреннее произведение 𝑏 𝑇 𝑥. Стратегия BAH с 1 1 равномерным портфелем 𝑏1 = ( , … , ) называется равномерной стратегией 𝑚 𝑚 BAH, которая обычно принимается в качестве рыночной стратегии для получения рыночного индекса.† * Например, если предположить, что два актива с векторами относительных цен (2, 1) и портфель в начале за период составляет (0.5, 0.5), то фактические веса в конце периода становятся (0.5×2,0.5×1) 0.5×2+0.5×1 = (0.67,0.33). † Рыночный индекс может быть рассчитан и другими методами, такими как индекс, взвешенный по капитализации и взвешенный индекс рыночной доли. ЭТАЛОНЫ 3.2 Лучшая фондовая стратегия (Best Stock Strategy) Другим распространенным ориентиром является Лучшая фондовая стратегия, которая представляет собой специальную стратегию BAH, инвестирующую весь капитал в лучшие акции в ретроспективе (опираясь на прошлое). Ее первоначальный портфель 𝑏 0 может можно рассчитать как, 𝑏 0 = arg 𝑚𝑎𝑥𝑏∈Δ𝑚 𝑏 ∙ (⊙𝑛𝑡=1 𝑥𝑡 ), что, таким образом, является ретроспективной стратегией. Конечный совокупный доход стратегии равен 𝑆𝑛 (𝐵𝑒𝑠𝑡) = max 𝑏 ∙ (⊙𝑛𝑡=1 𝑥𝑡 ) = 𝑆𝑛 (𝐵𝐴𝑁(𝑏 0 )) 𝑏∈Δ𝑚 3.3 Постоянно ребалансированные портфели (Constant Rebalanced Portfolios) Одним из сложных эталонов является стратегия Постоянной ребалансировки (CRP), когда ребалансируется до фиксированного портфеля 𝑏 каждый период.* В частности, портфельная стратегия может быть представлена как 𝑏1𝑛 = {𝑏, 𝑏 , . . . , 𝑏} , где 𝑏 - заранее определенный портфель. Таким образом, конечное суммарная стоимость портфеля CRP может быть рассчитано как 𝑛 𝑆𝑛 (𝐶𝑅𝑃(𝑏)) = ∏ 𝑏 𝑇 𝑥𝑡 𝑡=1 1 1 Один специальный CRP с равномерным портфелем 𝑏 = ( , … , ) называется 𝑚 𝑚 Однородные Постоянно Сбалансированные Портфели (Uniform Constant Rebalanced Portfolios (UCRP)). Еще одной специальной CRP является оптимальная автономная стратегия(the optimal offline)† CRP, портфель которой может быть рассчитан как 𝑛 ∗ 𝑏 = arg max 𝑆𝑛 (𝐶𝑅𝑃(𝑏)) = arg max ∏ 𝑏 𝑇 𝑥𝑡 𝑛 𝑏 ∈Δ𝑚 𝑏∈Δ𝑚 𝑡=1 которая является выпуклой и может быть эффективно решена. CRP с 𝑏 ∗ обозначается как Лучшие Постоянно Сбалансированные Портфели (Best Constant Rebalanced Portfolios) (BCRPs), которые достигают конечной суммарной доходности как 𝑆𝑛 (𝐵𝐶𝑅𝑃) = max 𝑆𝑛 (𝐶𝑅𝑃(𝑏)) = 𝑆𝑛 (𝐶𝑅𝑃(𝑏 ∗ )) 𝑏∈Δ𝑚 ЭТАЛОНЫ Обратите внимание, что BCRP - это ретроспективная стратегия, которая может быть рассчитана только при наличии полной рыночной последовательности. Cover (1991) доказал, что BCRP является лучшей стратегией на независимом и идентично распределенном (i.i.d.) рынке, и показал ее преимущества в качестве целевой, то есть BCRP превосходит стратегию Best Stock, индекс Value Line (среднее геометрическое значение доходности активов) и индекс Dow Jones (среднее арифметическое значение доходности активов, или BAH). Кроме того, BCRP инвариантна при перестановках рыночной последовательности, то есть она не зависит от порядка возникновения 𝑥1 , 𝑥 2 , . . . , 𝑥𝑛 . Одним из желаемых теоретических результатов для алгоритма OLPS является универсальность (Cover 1991; Ordentlich 2010). Алгоритм Alg является универсальным, если среднее (внешнее) сожаление (Stoltz and Lugosi 2005; Blum and Mansour 2007) для 𝑛 периодов асимптотически приближается к 0, то есть, 1 𝑛 1 𝑛→∞ 𝑟𝑒𝑔𝑟𝑒𝑡𝑛 (𝐴𝑙𝑔) = (log 𝑆𝑛 (𝐵𝐶𝑅𝑃) − log 𝑆𝑛 (𝐴𝑙𝑔)) → 𝑛 0, (3.1) Другими словами, для произвольной последовательности ценовых коэффициентов универсальный алгоритм асимптотически приближается к той же экспоненциальной скорости роста, что и стратегия BCRP. Так как CRP ребалансируется в фиксированный портфель каждый период, его частые транзакции повлекут за собой высокие транзакционные издержки. Helmbold и др. (1998) предложили полупостоянный ребалансированный портфель, который ребалансируется не каждый период, а в отдельные периоды. *CRP отличается от BAH тем, что первый активно ребалансируется до заранее определенного портфеля для каждого периода, а второй не ребалансируется в течение всего торгового периода. Однако портфель, которым владеет BAH, пассивно изменяется при колебании цен на акции. † В отличие от онлайн случая, офлайн предполагает, что доступны все относительные цены за 𝑛 периодов. Глава 4 Следуй за победителем Первый принцип - следуй за победителем характеризуется увеличением весов более успешных экспертов или акций. Алгоритмы этой главы часто нацелены не на рынок и лучшую акцию, а на отслеживание стратегии BCRP, то есть их цель - быть универсальными. Эта глава организована следующим образом. В разделе 4.1 представлен алгоритм универсальных портфелей Ковера (УП), а в разделе 4.2 - алгоритм экспоненциального градиента (ЭГ). В разделах 4.3 и 4.4 представлены подходы следования за лидером (FTL) и следования за регуляризованным лидером (FTRL), соответственно. Наконец, в разделе 4.5 подытоживается принцип следования за победителем. СЛЕДУЙ ЗА ПОБЕДИТЕЛЕМ 4.1 Универсальные портфели (Universal Portfolios) Основная идея алгоритмов типа Universal Portfolios (UP) заключается в том, чтобы распределить капитал между кругом специалистов одного класса, позволить спецам работать, а затем объединить их стоимость. Они аналогичны стратегии Buy-and-Hold (BAH). В частности, круг спецов BAH принадлежат к специальной стратегии, инвестирующей в один актив, и поэтому количество спецов равно количеству активов. Другими словами, BAH покупает отдельные акции, отпускает акции и, наконец, объединяет их личное состояние. С другой стороны, круг специалистов в алгоритмах типа UP может быть любой класс стратегий, который инвестирует во все рынки. Кроме того, алгоритмы типа UP также похожи на мета-алгоритмы (MA) из главы 7, в то время как последние применяются к специалистам нескольких классов. (специалисты = эксперты) Cover (1991) предложил универсальную портфельную стратегию, Cover и Ordentlich (1996) доработали алгоритм как μ-взвешенный универсальный портфель, в котором 𝜇 обозначает заданное распределение на пространстве допустимых портфелей Δ𝑚 . Интуитивно, УП Ковера работает аналогично фонду фондов (FOF),* и его основная идея заключается в покупке и удержании параметризованных стратегий CRP на всей симплексной области. В частности, первоначально инвестирует часть 𝑑𝜇(𝑏) каждому портфельному управленцу, работающему по CRP-стратегии с 𝑏 ∈ Δ𝑚 , и позволяет менеджерам CRP работать. Тогда в конце каждый менеджер увеличит свой доход до 𝑆𝑛 𝑑𝜇(𝑏) . И, наконец, UP Ковера объединяет доход отдельных экспертов в непрерывный ряд портфельных стратегий. Заметим, что 𝑆𝑛 (𝑏) = 𝑒 𝑛𝑊𝑛 (𝑏) , что означает, что портфель растет с экспоненциальной скоростью 𝑊𝑛 (𝑏). Формально, его схема обновления (Cover and Ordentlich 1996, Определение 1) может быть интерпретирована как историческое Средневзвешенное значение производительности всех действительных постоянно ребалансируемых портфелей (CRP), 𝑏𝑡+1 = ∫Δ 𝑏𝑆𝑡 (𝑏)𝑑𝜇(𝑏) m ∫Δ 𝑆𝑡 (𝑏)𝑑𝜇(𝑏) m Отметим, что в начале периода 𝑡 + 1 доход одного менеджера CRP (историческая производительность) равен 𝑆𝑡 (𝑏)𝑑𝜇(𝑏). С учетом начальной стоимости 𝑆0 = 1, конечное совокупная стоимость представляет собой. Средневзвешенный доход менеджеров CRP (Cover and Ordentlich 1996, Eq. (24)): 𝑆𝑛 (𝑈𝑃) = ∫ 𝑆𝑛 (𝑏)𝑑𝜇(𝑏) (4.1) Δm * FOF держит портфель других инвестиционных фондов, а не инвестирует напрямую в акции, фьючерсы, и т.д СЛЕДУЙ ЗА ПОБЕДИТЕЛЕМ Один особый случай, когда 𝜇 равно равномерному распределению; обновление портфеля сводится к 𝑈𝑃 Ковера (Cover 1991, Eq. (1.3)). Другой специальный 1 1 случай - распределение Дирихле ( , . . . , ) взвешенный UP (Cover and 2 2 Ordentlich 1996), который, как доказано, является более оптимальным распределением. В качестве альтернативы, если функция потерь определяется как отрицательная логарифмическая функция доходности портфеля, УП Ковера фактически является экспоненциально взвешенным средним прогнозистом (Cesa-Bianchi and Lugosi 2006). Сожаление (Cover 1991), достигаемое UP Ковера, составляет 𝑂(𝑚 𝑙𝑜𝑔 𝑛), а его временная сложность - 𝑂(𝑛𝑚 ), где 𝑚 обозначает количество акций, а 𝑛 - количество периодов. Cover и Ordentlich 1 1 (1996) доказали, что ( , . . . , ) взвешенный УП имеет тот же масштаб 2 2 ограничения сожаления, но лучший постоянный термин (Cover and Ordentlich 1996, Theorem 2). Поскольку УП Ковера основан на идеальной модели рынка, одним из направлений исследований является расширение алгоритма для обработки различных реалистичных предположений. Cover и Ordentlich (1996) рассматривали побочную информацию, включая мнения экспертов и фундаментальные данные. Cover и Ordentlich (1998) расширили алгоритм для учета коротких продаж и маржи, а Blum и Kalai (1999) учли транзакционные издержки. Другим направлением исследований является обобщение УП Ковера с различными базовыми классами, а не со стратегией CRP. Jamshidian (1992) обобщил алгоритм для рынков с непрерывным временем и представил его долгосрочные показатели. Vovk и Watkins (1998) применили агрегирующий алгоритм (АА) (Vovk 1990) к конечному числу произвольных инвестиционных стратегий, из которых УП Ковера становится специализированным случаем при применении к бесконечному числу CRP. Ordentlich и Cover (1998) проанализировали минимальное соотношение конечной стоимости, достигаемого любой инвестиционной стратегией без предвидения, и BCRP и представили стратегию для достижения такого оптимального соотношения. Cross и Barron (2003) обобщили UP Ковера с класса стратегий CRP на любой класс целей с параметрами и предложили универсальную стратегию, благоприятную для вычислений. Akcoglu et al. (2005) распространили UP Ковера с параметризованного класса CRP на широкий класс инвестиционных стратегий, включая торговые стратегии, действующие на одной акции, и портфельные стратегии, действующие на всем фондовом рынке. Kozat и Singer (2011) предложили аналогичный универсальный алгоритм, основанный на классе полупостоянных ребалансированных стратегий портфелей (Helmbold et al. 1998), что обеспечивает хорошую асимптотическую производительность в случае ненулевых транзакционных издержек. Помимо нашего интуитивного анализа, были предложены различные работы, в которых обсуждалась связь УП Ковера с универсальным прогнозированием (Feder et al. 1992), сжатием данных (Rissanen 1983) и теорией средней дисперсии Markowitz (Markowitz 1952). Algoet (1992) обсудил универсальную схему для прогнозирования, азартных игр и выбора портфеля. Cover (1996) и Ordentlich (1996) обсудили связь между выбором UP и сжатием данных. Belentepe (2005) представил статистический взгляд на стратегию УП Ковера и заявил о ее приблизительной эквивалентности теории портфеля средней дисперсии. Хотя УП Ковера имеет жесткую границу сожаления, его реализация экспоненциальна числу акций, что ограничивает его практическую применимость. Для решения вычислительной проблемы Kalai и Vempala (2002) представили эффективную реализацию, основанную на быстром перемешивании неоднородных случайных блужданий, улучшив время работы с первоначального O(nm ) до O(m7 n8 ). 4.2 ЭКСПОНЕНЦИАЛЬНЫЙ ГРАДИЕНТ Экспоненциальный градиент(Exponential Gradient) Алгоритмы типа экспоненциального градиента (тип EG) фокусируются на следующей формулировке оптимизации: 𝑏𝑡+1 = arg max 𝜂 log 𝑏 ∙ 𝑥𝑡 − 𝑅(𝑏, 𝑏𝑡 ), (4.2) 𝑏∈Δ𝑚 где R(b, bt ) обозначает член регуляризации, а η > 0 - скорость обучения. Одна из простых интерпретаций состоит в том, чтобы отслеживать лучшие акции за последний период, сохраняя при этом предыдущую информацию о портфеле с помощью термина регуляризации. Helmbold и др. (1998) предложили стратегию EG, которая основана на том же алгоритме для оценки смеси (Helmbold и др. 1997). Следуя уравнению 4.2, EG использует относительную энтропию в качестве регуляризирующего члена, то есть, m bi R(b, bt ) = ∑ bi log bt,i i=1 Формула EG является выпуклой по 𝑏; однако ее трудно решить, поскольку функция log нелинейна. Поэтому авторы приняли разложение Тейлора первого порядка log-функции при 𝑏𝑡 , то есть, 𝑥𝑡 log 𝑏 ∙ 𝑥𝑡 ≈ log 𝑏𝑡 ∙ 𝑥𝑡 + (𝑏 − 𝑏𝑡 ) 𝑏𝑡 ∙ 𝑥𝑡 Тогда нелинейный логарифмический член становится линейным, и оптимизация легко решается. Решив оптимизацию, мы можем получить правило обновления EG в виде 𝑏𝑡+1,𝑖 = 𝑏𝑡,𝑖 exp (𝜂 𝑥𝑡,𝑖 ) 𝑏𝑖 ∙ 𝑥𝑡 ⁄ 𝑍 , 𝑖 = 1, … , 𝑚 где Z - нормирующий член, такой, что веса портфеля в сумме равны 1. Помимо мультипликативного правила обновления (EG), задача оптимизации может быть решена с помощью градиентной проекции (GP) и максимизация ожиданий (EM) (Helmbold et al. 1997). Вместо относительной энтропии EG, GP использует регуляризацию L2-нормы, а EM - регуляризацию 𝜒 2 , то есть, 𝑅(𝑏, 𝑏𝑡 ) = 1 𝑚 2 ∑ (𝑏𝑖 − 𝑏𝑡,𝑖 ) 2 𝑖=1 1 𝑚 (𝑏𝑖 − 𝑏𝑡,𝑖 ) ∑ 𝑏𝑡,𝑖 {2 𝑖=1 𝐺𝑃 2 𝐸𝑀 Решая соответствующие задачи оптимизации, мы можем получить правило обновления GP в виде 𝑚 𝑏𝑡+1,𝑖 𝑥𝑡,𝑗 𝑥𝑡,𝑖 1 = 𝑏𝑡,𝑖 + 𝜂 ( − ∑ ) 𝑏𝑖 ∙ 𝑥𝑡 𝑚 𝑏𝑖 ∙ 𝑥𝑡 𝑗=1 и правило обновления EM как 𝑏𝑡+1,𝑖 = 𝑏𝑡,𝑖 + (𝜂 ( 𝑥𝑡,𝑖 − 1) + 1) 𝑏𝑖 ∙ 𝑥𝑡 Последнее можно также рассматривать как аппроксимацию первого порядка EG. Одним из ключевых параметров для алгоритмов типа EG является скорость обучения 𝜂. Для достижения универсальной границы cожаления должна быть мала. Однако при 𝜂 → 0 обновление приближается к равномерному,* что приводит к деградации до UCRP. Такой анализ будет проверен эмпирически в разделе 13.6. EG имеет границу сожаления 𝑂(√𝑛𝑙𝑜𝑔 𝑚) и время работы 𝑂(𝑚𝑛). Граница сожаления не такая жесткая, как у UP Ковера, однако линейное время существенно превосходит время UP. Кроме того, авторы также предложили вариант с преобразованием всех ценовых родственников, который имеет жесткую границу сожаления 𝑂(𝑚 𝑙𝑜𝑔 𝑛). Хотя официально этот вариант не был предложен для OLPS (Helmbold et al. 1997), GP может прямолинейно с сожалением 𝑂(𝑚𝑛), что значительно хуже, чем у EG. Das и Banerjee (2011) обобщили алгоритмы типа EG до MA, названных онлайн обновлениями градиента, которые объединяют круг экспертов таким образом, что общая система работает не хуже, чем любая выпуклая комбинация ее экспертов. * В случае 𝜂 = 0, 𝑏𝑡+1,𝑖 = 𝑏𝑡,𝑖 = ∙∙∙ = 𝑏1,𝑖 = 1 𝑚 . СЛЕДУЙ ЗА ЛИДЕРОМ 4.3 Следуйте за лидером(Follow the Leader) СЗЛ стратегии напрямую отслеживают BCRP до момента времени 𝑡 : 𝑡 𝑏𝑡+1 = 𝑏𝑡∗ = arg max ∑ log(𝑏 ∙ 𝑥𝜏 ) 𝑏∈Δ𝑚 (4.3) 𝜏=1 Интуитивно понятно, что эта категория следует за лидером BCRP в течение известных периодов, а конечным лидером является BCRP в течение всех периодов. Ordentlich (1996, глава 4.4) кратко упомянул стратегию получения портфелей путем смешивания BCRP на сегодняшний день и однородного портфеля: 𝑡 1 1 𝑏𝑡+1 = 𝑏𝑡∗ + 1. 𝑡+1 𝑡 + 1𝑚 Тем не менее, его наихудшая граница сожаления хуже, чем у Cover's UP. Гайворонский и Стелла (2000) предложили последовательные постоянно ребалансируемые портфели (SCRP) и взвешенные последовательные постоянно ребалансируемые портфели (WSCRP) для стационарных рынков. Для каждого периода SCRP непосредственно принимает BCRP на сегодняшний день, 𝑏𝑡+1 = 𝑏𝑡∗ . Далее авторы решили задачу оптимального портфеля b∗t с помощью стохастической оптимизации (Birge and Louveaux 1997), что привело к обновлению (Gaivoronski and Stella 2000, Алгоритм 1). С другой стороны, WSCRP выводит выпуклую комбинацию SCRP и предыдущего портфеля: 𝑏𝑡+1 = (1 − γ)𝑏𝑡∗ + γbt , где γ ∈ [0,1] представляет собой параметр компромисса. Границы сожаления, достигаемые SCRP и WSCRP, составляют O(m log n), что совпадает с границами сожаления для UP Ковера. Вместо предположения о стационарном рынке некоторые алгоритмы этой категории предполагают, что исторический рынок нестационарен. Gaivoronski и Stella (2000) предложили портфели с переменной ребалансировкой (VRP), которые рассчитывают BCRP на последнем скользящем окне. Точнее говоря, VRP обновляет портфель следующим образом 𝑡 𝑏𝑡+1 = 𝑏𝑡∗ = arg max 𝑏∈Δ𝑚 ∑ log(𝑏 ∙ 𝑥𝜏 ) 𝜏=1−𝑊+1 где W обозначает заданный размер окна. Gaivoronski и Stella (2003) далее предложили адаптивный выбор портфеля (APS). Изменяя цель, APS может решать три задачи выбора портфеля, а именно: адаптивный портфель Markowitz, лог-оптимальный портфель с постоянным ребалансированием и отслеживание индекса. Чтобы решить проблему транзакционных издержек, они также предложили пороговый выбор портфеля, который перебалансирует портфель только в том случае, если ожидаемая доходность нового портфеля превышает доходность последнего портфеля на пороговое значение. 4.4 СЛЕДУЙТЕ ЗА РЕГУЛЯРИЗИРОВАННЫМ ЛИДЕРОМ Следуйте за регуляризированным лидером(Follow the Regularized Leader) Подход FTRL добавляет член регуляризации в уравнение 4.3: 𝑡 𝑏𝑡+1 = 𝑏𝑡∗ = arg max ∑ log(𝑏 ∙ 𝑥𝜏 ) − 𝑏∈Δ𝑚 𝜏=1 𝛽 𝑅(𝑏) 2 (4.4) где β обозначает параметр компромисса, а 𝑅(𝑏) - член регуляризации на 𝑏. Обратите внимание, что первый член включает всю историческую информацию; таким образом, член регуляризации относится только к следующему портфелю, что отличается от алгоритма EG. Одним из типичных 2 регуляризаторов является L2-норма, то есть 𝑅(𝑏) = ||𝑏|| . Agarwal и др. (2006) предложили онлайн шаг Ньютона (ONS), решая задачу оптимизации (4.4) с регуляризацией L2-нормы через онлайн выпуклую оптимизацию(Zinkevich 2003; Hazan 2006; Hazan и др. 2006, 2007). Как и в обычном автономном методе Ньютона, основная идея ONS заключается в замене логарифмического члена через его разложение Тейлора второго порядка на 𝑏𝑡 , а затем в решении замкнутых обновлений. Наконец, правило обновления ONS имеет вид 𝐴𝑡 1 1 𝑏1 = ( ,∙∙∙, ) , 𝑏𝑡+1 = ∏ (𝛿𝐴−1 𝑡 ct ), 𝑚 𝑚 Δ𝑚 𝑥 𝑥𝜏𝑇 c 𝐴𝑡 = ∑𝑡𝜏=1((𝑏 𝜏 2 𝜏 𝑥𝜏 ) 1 𝑥𝜏 𝛽 𝑏𝜏 𝑥𝜏 ) + 𝐼𝑚 and 𝑐𝑡 = (1 + ) ∑𝑡𝜏=1( ), где 𝛽 является компромиссным параметром δ – масштаб, 𝐼𝑚 обозначает диагональную 𝐴 матрицу 𝑚 × 𝑚, и ∏Δ𝑡𝑚(∙), точная проекция на область симплекса. Граница сожаления ONS составляет 𝑂(𝑚1.5 𝑙𝑜𝑔(𝑚𝑛)), что немного хуже, чем у Cover's UP. Так как он итеративно обновляет информацию первого и второго порядка, его затраты составляют 𝑂(𝑚3 ) за период, что не зависит от количества периодов. Таким образом, общие временные затраты составляют 𝑂(𝑚3 𝑛). В то время как FTRL фокусируется на инвестировании в худшем случае, Hazan и Kale (2009, 2012) связали инвестирование в худшем случае с практически широко используемым инвестированием в среднем случае, то есть с моделью геометрического броуновского движения (GBM) (Bachelier 1900; Osborne 1959; Cootner 1964). Авторы разработали инвестиционную стратегию, которая является универсальной в наихудшем случае и способна использовать модель GBM. Алгоритм, или так называемый Exp-Concave-FTL, имеет формулировку, аналогичную ОНС, а именно, 𝑡 1 𝑏𝑡+1 = arg max ∑ log(𝑏 ∙ 𝑥𝜏 ) − ‖𝑏‖2 𝑏∈Δ𝑚 2 𝜏=1 Задача оптимизации может быть эффективно решена с помощью онлайновой выпуклой оптимизации, которая обычно требует высокой временной сложности (т.е. аналогично ОНС). Если цена акций следует модели GBM, то круг сожаления становится 𝑂(𝑚 𝑙𝑜𝑔 𝑄), где Q - квадратичная изменчивость, рассчитанная как 𝑛 − 1 раз выборочная дисперсия относительных векторов цен. Поскольку Q обычно намного меньше 𝑛, граница сожаления значительно улучшается по сравнению с предыдущим значением 𝑂(𝑚 𝑙𝑜𝑔 𝑛). Помимо улучшенной границы сожаления, авторы также обсудили взаимосвязь между их алгоритмом и частотой торговли. Авторы утверждали, что увеличение частоты торговли уменьшает дисперсию минимальноинвариантного CRP, в то время как сожаление остается неизменным. Поэтому ожидается, что с увеличением частоты торговли улучшится производительность, что и было эмпирически замечено Agarwal et al. (2006). Das и Banerjee (2011) расширили подход FTRL до обобщенного ОУ, названного онлайн обновлением Ньютона (ONU), который гарантирует, что общая производительность не хуже, чем у любой выпуклой комбинации базовых экспертов. РЕЗЮМЕ 4.5 Резюме Следование за победителем - основной принцип исследований в области OLPS. Хотя большинство алгоритмов этой категории гарантируются теорией (regret bound), их эмпирические показатели не являются выдающимися (ср. эмпирические результаты в главе 13). Мы считаем, что основная причина этого явления заключается в том, что их цель в ретроспективе, или BCRP, предполагает, что ценовые коэффициенты следуют i.i.d., что может противоречить эмпирическим данным реальных рынков. В следующей главе будет представлен другой принцип - "следуй за проигравшим", который делает другое предположение относительно поведения рынка. Глава 5 Следуй за проигравшим Стратегия Best Constant Rebalanced Portfolios (BCRP) является оптимальной, если рынок является независимым и идентично распределенным (i.i.d.; Cover 1991); однако это предположение может не соответствовать реальному рынку и, таким образом, может привести к ухудшению показателей категории "следовать за победителем". Вместо того чтобы отслеживать победителей, подход "следуй за проигравшим" часто характеризуется перенаправление денег от победителей к проигравшим (от переоцененных к недооцененным). В основе лежит идея возврата к среднему (противоположного) (Bondt and Thaler 1985), которая означает, что хорошо (плохо) работающие активы будут работать плохо (хорошо) в последующие периоды. Таким образом, подход "следуй за проигравшим" часто характеризуется переводом капитала из плохо работающих активов (проигравших) в хорошо работающие активы (победителей). Хотя этот принцип активно исследуется в финансовых журналах, он не получил широкого распространения в теме онлайн-подбора портфеля. Тем не менее, некоторые алгоритмы все же следуют этому принципу. Одним из известных примеров является эталон CRP. Более того, алгоритм Cover's UP, который покупает и держит стратегии CRP, также можно рассматривать как подход "следуй за проигравшим" с точки зрения базовых акций, в то время как мы относим его к категории "следуй за победителем" с точки зрения экспертов. Эта глава организована следующим образом. Раздел 5.1 иллюстрирует идею возврата к среднему, которая является ключевой в основе принципа "следуй за проигравшим". В разделе 5.2 представлена репрезентативная стратегия этой категории, или стратегия Anticor. Наконец, в разделе 5.3 подводится итог принципа "следуй за проигравшим". СЛЕДУЙ ЗА ПРОИГРАВШИМ 5.1 Возврат к среднему (Mean Reversion) Помимо идеи, связанной с импульсом, которая предполагает, что цена акций продолжит свой предыдущий тренд, существует и другая идея, или идея возврата к среднему значению (contrarian противоположный), которая предполагает, что цены активов вернутся к своим средним значениям. Таким образом, алгоритмы следования за проигравшим будут кэш из превосходящих активов в отстающие. В этом разделе приводится простой, но убедительный пример, демонстрирующий идею возврата к среднему. Рассмотрим колеблющийся рынок с двумя активами (A,B), и последовательность относительных цен 1 1 2 2 ( , 2) , (2, ) , …, где каждый актив никуда не денется, а активно движется в пределах определенного диапазона (табл. 5.1). Очевидно, что в долгосрочной перспективе рыночная стратегия не может обеспечить аномальную доходность, так как совокупная стоимость каждой акции остается одинаковыми через 2n 5 n периодов. Однако BCRP в ретроспективе может достичь темпа роста ( ) за -ый 4 торговый период. Таблица 5.1 Мотивирующий пример для демонстрации торговой идеи возврата к среднему № Периода 1 2 3 ⋮ Рынок (A,B) 1 ( , 2) 2 1 (2, ) 2 1 ( , 2) 2 ⋮ BCRP 1 1 ( , ) 2 2 1 1 ( , ) 2 2 1 1 ( , ) 2 2 ⋮ BCRP Возврат 5 4 5 4 5 4 ⋮ Скорректированные веса 1 4 ( , ) 5 5 4 1 ( , ) 5 5 1 4 ( , ) 5 5 ⋮ Примечания 𝐵→𝐴 𝐴→𝐵 𝐵→𝐴 ⋮ Теперь давайте проанализируем поведение BCRP, чтобы показать лежащую в основе идею торговли с возвратом к среднему значению (табл. 5.1). 1 1 2 2 Предположим, что первоначальный портфель ( , ) в конце периода 1, 1 4 5 5 распределение портфеля с поправкой на цену закрытия становится ( , ) совокупная стоимость увеличивается в 5 4 раз. В начале периода 2 портфельный 1 1 менеджер возвращается к первоначальному портфелю ( , ), переводя кэш из 2 2 более эффективного актива (B) на актив с худшими показателями (A). В начале периода 3 перевод КЭШа с торговой идеей возврата к среднему продолжается. Хотя рыночная стратегия ничего не выигрывает, BCRP может достичь темпов 5 роста за период, с помощью лежащей в основе торговой идеи возврата к 4 среднему, которая предполагает, что если один актив работает хуже, то в последующий торговый период он, как правило, работает лучше. На самом деле он получает прибыль за счет волатильности рынка, или так называемой накачки волатильности (Luenberger 1998, глава 15). Хотя обширные исследования в области финансов показывают, что возврат к среднему является правдоподобной идеей для использования в торговле (Chan 1988; Poterba and Summers 1988; Lo and MacKinlay 1990; Conrad and Kaul 1998), его противоречивый характер скрывает его от сообщества OLPS. Хотя стратегии "следования за победителем" являются обоснованными в теории, они часто плохо работают при использовании реальных данных, что будет показано в эмпирических исследованиях в части IV. Возможно, причина в том, что их принцип импульса не соответствует реальному рынку, особенно на проверенной частоте торговли (например, ежедневной). Поэтому вполне естественно использовать идею возврата к среднему при разработке новых стратегий, чтобы повысить эмпирическую эффективность. 5.2 Антикорреляция Borodin и др. (2004) предложили стратегию следования за проигравшим, названную Антикорреляцией (Anticor). Вместо того чтобы не делать никаких предположений о распределении, как в Cover's UP, Anticor предполагает, что рынок следует принципу возврата к среднему. Чтобы использовать это свойство, он статистически делает ставки на постоянство положительной запаздывающей кросс-корреляции и отрицательной автокорреляции. Антикор принимает логарифмические ценовые коэффициенты (Hull 1997) в 𝑡−𝑤 𝑡 ) двух конкретных окнах рынка, то есть 𝑦1 = log(𝑥𝑡−2𝑤+1 ) и 𝑦2 = log(𝑥𝑡−𝑤+1 Затем вычисляется матрица взаимной корреляции между 𝑦1 и 𝑦2 , 1 𝑇 𝑀𝑐𝑜𝑣 (𝑖, 𝑗) = (𝑦 − 𝑦̅1 ) (𝑦2,𝑖 − 𝑦̅2 ) 𝑤 − 1 1,𝑖 𝑀𝑐𝑜𝑣 (𝑖, 𝑗) (𝑖), 𝜎2 (𝑗) ≠ 0 𝑀𝑐𝑜𝑣 (𝑖, 𝑗) = {𝜎1 (𝑖) × 𝜎2 (𝑗) 𝜎1 0 иначе Следуя принципу возврата к среднему, Anticor переносит веса с активов, которые увеличились больше, на активы, которые увеличились меньше, а соответствующие суммы корректируются матрицей кросс-корреляции. В частности, если актив 𝑖 растет больше, чем актив 𝑗, и они положительно коррелируют, Anticor требует перевода средств с актива 𝑖 на 𝑗 с суммой, равной кросс-корреляции 𝑀𝑐𝑜𝑣 (𝑖, 𝑗) минус их отрицательная автокорреляция (min{0, 𝑀𝑐𝑜𝑣 (𝑖, 𝑖)} и min{0, 𝑀𝑐𝑜𝑣 (𝑗, 𝑗)}). Наконец, эти требования нормируются, чтобы портфель оставался в симплексной области. Учитывая природу возврата к среднему, трудно получить полезную границу сожаления для Anticor. Хотя Anticor эвристичен и не имеет теоретических гарантий, он эмпирически превосходит все другие стратегии в то время. С другой стороны, хотя Anticor достигает хороших результатов, его эвристическая природа не может полностью использовать возврат к среднему. Таким образом, использование этого свойства с помощью алгоритмов систематического обучения является весьма желательным, что мотивирует одну из частей нашего исследования. РЕЗЮМЕ 5.3 Резюме Несмотря на противоречие здравому смыслу, принцип "следуй за проигравшим" весьма полезен для получения высокого суммарного дохода в эмпирических исследованиях. Это может быть связано с тем, что многие финансовые исследования подтвердили, что поведение рынка следует принципу возврата к среднему. Таким образом, чтобы лучше использовать рынок, торговая стратегия должна учитывать поведение рынка. Далее в главах 9, 10 и 11 мы предлагаем три новых алгоритма, основанных на среднем возврате, соответственно. Глава 6 Сопоставление шаблонов Помимо следования за победителем и следования за проигравшим, эта глава использует как победителей, так и проигравших, и она основана на сопоставлении шаблонов(паттернов). Эта категория в основном охватывает непараметрические последовательные инвестиционные стратегии, которые гарантируют оптимальный рост капитала при минимальных предположениях о рынке, то есть стационарности и эргодичности финансовых временных рядов. Основанная на непараметрическом прогнозировании (Györfi and Schäfer 2003), эта категория включает в себя несколько инвестиционных стратегий, основанных на согласовании моделей (Györfi et al. 2006, 2007, 2008; Li et al. 2011a). Отметим, что в сообществах, занимающихся изучением данных, некоторые исследователи фокусируются на обнаружении важных сигналов или закономерностей во временных рядах (Mcinish and Wood 1992; Berndt and Clifford 1994; Agrawal and Srikant 1995; Srikant and Agrawal 1996; Ting et al. 2006; Cañete et al. 2008; Du et al. 2009), что выходит за рамки нашего обсуждения. В целом, подходы, основанные на сопоставлении моделей (Györfi et al. 2006), состоят из двух этапов, а именно, этапа отбора выборки и этапа оптимизации портфеля. Предположим, что мы выбираем портфель на период 𝑡 + 1. Сначала на этапе отбора выборки выбирается набор 𝐶𝑡 из схожих исторических индексов, соответствующие ценовые коэффициенты, которых будут использоваться для прогнозирования следующего индекса. Затем каждому вектору ценовых коэф-ов 𝑥𝑖 , 𝑖 ∈ 𝐶𝑡 , присваивается вероятность 𝑃𝑖 , 𝑖 ∈ 𝐶𝑡 . Существующие методы часто выбирают равномерную вероятность 1 𝑃𝑖 = , где | ∙ | , обозначает кардинальность множества. Во-вторых, на этапе |𝐶𝑡 | оптимизации портфеля формируется оптимальный портфель на основе выбранного набора, то есть, 𝑏𝑡+1 = arg max 𝑈 (𝑏, 𝐶𝑡 ), 𝑏∈Δ𝑚 где 𝑈 (∙) заданная функция полезности, например, логарифмическая полезность. В случае пустого выборочного множества принимается равномерный портфель. В этой главе мы конкретизируем шаг отбора выборки в разделе 6.1 и шаг оптимизации портфеля в разделе 6.2. В разделе 6.3 мы объединяем эти два этапа, чтобы сформулировать конкретные алгоритмы выбора портфеля в OLPS. Основываясь на этом принципе, в главе 8 мы предложили алгоритм непараметрического обучения на основе корреляции (CORN). ПОДБОР ШАБЛОНОВ 6.1 Методы отбора образцов (Sample Selection Techniques) Общая идея этого шага заключается в том, чтобы выбрать похожие образцы из исторических ценовых коэффициентов путем сравнения двух предшествующих рыночных окон. Предположим, что мы находим векторы ценовых коэффициентов, которые похожи на следующий вектор 𝑥𝑡+1 . Основная процедура заключается в переборе всех исторических ценовых коэффициентов 𝑥𝑖 , 𝑖 = 𝑤 + 1, . . . , 𝑡 и подсчете 𝑥𝑖 как одного похожего вектора, если его 𝑖−1 предшествующее рыночное окно 𝑥𝑖−𝑤 похоже на последнее рыночное окно 𝑡 𝑥𝑡−𝑤+1 . Множество 𝐶𝑡 содержит индексы схожих ценовых коэффициентов. Заметим, что рыночное окно представляет собой 𝑤 × -матрицу, и сходство обычно вычисляется на конкатенированных 𝑤 × 𝑚-векторах. Алгоритм 6.1 дополнительно иллюстрирует эту процедуру. Алгоритм 6.1: Процедура выбора выборки (C(xt , w)). Input: x1t ∶ историческая последовательность рынка; w: размер окна. Output: 𝐶𝑡 : индексный набор аналогичных ценовых коэффициентов. Инициализация 𝐶𝑡 = ∅; if 𝑡 ≤ 𝑤 then | return; end for 𝑖 = 𝑤 + 1, 𝑤 + 2, … , 𝑡 𝐝𝐨 𝑖−1 𝑡 | if 𝑥𝑖−𝑤 похож на 𝑥𝑡−𝑤+1 then | | 𝐶𝑡 = 𝐶𝑡 ∪ 𝑖; | end end Непараметрический отбор выборки на основе гистограммы (Györfi and Schäfer 2003) определяет набор дискретизированных разбиений, разбивает как 𝑡 последнее рыночное окно 𝑥𝑡−𝑤+1 , так и исторические рыночные окна 𝑖−1 (𝑥𝑖−𝑤 , 𝑖 = 𝑤 + 1, . . . , 𝑡), и, наконец, выбирает коэффициенты цены 𝑥𝑖 , чье 𝑖−1 предыдущее рыночное окно (𝑥𝑖−𝑤 ) находится в том же разбиении, что и 𝑡 𝑥𝑡−𝑤+1 . В частности, учитывая разбиение 𝑃 = 𝐴𝑗 , 𝑗 = 1, 2, . . . , 𝑑, которое дискретизирует ℝ+ 𝑚 на 𝑑 непересекающихся множеств, и соответствующую функцию дискретизации 𝐺(𝑥) = 𝑗, мы можем определить множество сходства как 𝑖−1 𝑡 ) = 𝐺(𝑥𝑖−𝑤 𝐶𝐻 (𝑥1𝑡 , 𝑤) = {𝑤 < 𝑖 < 𝑡 + 1: 𝐺(𝑥𝑡−𝑤+1 )}. Непараметрический отбор выборки на основе ядра (Györfi et al. 2006) определяет набор сходства, оценивая евклидово расстояние между двумя рыночными окнами, 𝑐 𝑖−1 𝑡 𝐶𝐾 (𝑥1𝑡 , 𝑤) = {𝑤 < 𝑖 < 𝑡 + 1 ∶ ‖𝑥𝑡−𝑤+1 − 𝑥𝑖−𝑤 ‖ ≤ }, 𝑙 где 𝑐 и 𝑙 - пороговые значения, используемые для контроля количества схожих образцов. Непараметрический отбор выборки на основе ближайших соседей (Györfi et al. 2008) ищет коэффициенты цен, чьи предыдущие рыночные окна находятся в пределах 𝑘 ближайших соседей последнего рыночного окна, т.е, 𝑖−1 𝑡 С𝑁 (𝑥1𝑡 , 𝑤) = {𝑤 < 𝑖 < 𝑡 + 1 ∶ 𝑥𝑖−𝑤 входит в число 𝑘 𝑁𝑁𝑠 для 𝑥𝑡−𝑤+1 }, где 𝑘 - пороговый параметр МЕТОДЫ ОПТИМИЗАЦИИ ПОРТФЕЛЯ 6.2 Методы оптимизации портфеля (Portfolio Optimization Techniques) Второй шаг подходов, основанных на сопоставлении моделей, заключается в построении оптимального портфеля на основе выборочного набора Ct . Двумя основными принципами являются портфель роста капитала Kelly’s (1956) и портфель средней дисперсии Markowitz’s (1952). портфель средних отклонений. Györfi et al. (2006) предлагается вычислить лог-оптимальный (Kelly) портфель, основанный на основе схожих ценовых коэффициентов, что четко следует теории портфеля роста капитала. Учитывая выборочное множество 𝐶𝑡 , логарифмическая функция полезности определяется как 𝑈𝐿 (𝑏, 𝐶𝑡 ) = 𝔼{log 𝑏 ∙ 𝑥|𝑥𝑖 , 𝑖 ∈ 𝐶𝑡 } = ∑ 𝑃𝑖 𝑙𝑜𝑔 𝑏 ∙ 𝑥𝑖 𝑖∈𝐶𝑡 где 𝑃𝑖 обозначает вероятность, приписываемую 𝑥𝑖 , 𝑖 ∈ 𝐶𝑡 . Györfi et al. (2006) предположили равномерную вероятность, что эквивалентно, 𝑈𝐿 (𝑏, 𝐶𝑡 ) = ∑ log 𝑏 ∙ 𝑥𝑖 (6.1) 𝑖∈𝐶𝑡 Максимизация вышеуказанной функции приводит к портфелю BCRP (Cover 1991) над аналогичными родственниками по цене. Györfi et al. (2007) ввели полулогарифмически оптимальную функцию полезности, которая аппроксимирует логарифмическую полезность в уравнении 6.1 с целью снижения ее вычислительной сложности; а Vajda (2006) представил соответствующий теоретический анализ и доказал его универсальность. Полулогарифмически оптимальная функция полезности определяется как 𝑈𝑆 (𝑏, 𝐶𝑡 ) = 𝔼{𝑓(𝑏 ∙ 𝑥)|𝑥𝑖 , 𝑖 ∈ 𝐶𝑡 } = ∑ 𝑃𝑖 𝑓( 𝑏 ∙ 𝑥𝑖 ) 𝑖∈𝐶𝑡 где 𝑓(∙) - разложение Тейлора второго порядка для 𝑙𝑜𝑔 𝑧 относительно 𝑧 = 1, то есть, 1 𝑓(𝑧) = 𝑧 − 1 − (𝑧 − 1)2 2 Györfi et al. (2007) принял равномерную вероятность 𝑃𝑖 , следовательно, эквивалентно, 𝑈𝑆 (𝑏, 𝐶𝑡 ) = ∑ 𝑓( 𝑏 ∙ 𝑥𝑖 ) 𝑖∈𝐶𝑡 Ottucsák и Vajda (2007) предложили функцию полезности типа Марковица, которая еще больше обобщает полулогарифмическую стратегию. Основная идея заключается в компромиссе между средним и дисперсией портфеля, что аналогично теории средней дисперсии Марковица. В частности, его функция полезности определяется как где λ- параметр компромисса. В частности, простые численные преобразования показывают, что полулогарифмический оптимальный портфель является одним из частных случаев этой функции полезности. Для решения проблемы с транзакционными издержками Györfi и Vajda (2008) предложили функцию полезности типа 𝐺𝑉 ∗ (Algorithm 2 in Györfi and Vajda (2008)) с учетом транзакционных издержек (Gyorfi and Walk 2012), где 𝑤(∙) ∈ (0, 1) - коэффициент транзакционных издержек, который представляет собой оставшуюся долю после транзакционных издержек. При допущении о равномерной вероятности это эквивалентно вычислению: В любой из вышеперечисленных процедур, если множество подобия непустое, мы можем получить оптимальный портфель на основе похожих ценовых коэффициентов и их предполагаемой вероятности. В случае пустого множества мы можем выбрать либо равномерный портфель, либо последний портфель. 6.3 Комбинации Наконец, давайте объединим эти два этапа и опишем конкретные алгоритмы в подходе на основе сопоставления шаблонов. В таблице 6.1 приведены все существующие комбинации. Одной из функций полезности по умолчанию является лог-оптимальная функция. Györfi and Schäfer (2003) представили непараметрическую гистограммную лог-оптимальную инвестиционную стратегию (𝐵𝐻 ), которая объединяет гистограммный отбор выборки и лог-оптимальную функцию полезности. Györfi et al (2006) представили непараметрическую логоптимальную инвестиционную стратегию на основе ядра (𝐵𝐾 ), которая объединяет выборку на основе ядра и лог-оптимальную функцию полезности. Györfi et al (2008) предложили непараметрическую лог-оптимальную инвестиционную стратегию на основе ближайших соседей (𝐵𝑁𝑁 ), которая объединяет выборку на основе ближайших соседей и лог-оптимальную функцию полезности. Помимо лог-оптимальной функции полезности, было предложено несколько алгоритмов, использующих различные функции полезности. Györfi et al (2007) предложили непараметрическую полулог-оптимальную инвестиционную стратегию на основе ядра (𝐵 𝑆 ), объединив выборку на основе ядра и полулог-оптимальную функцию полезности, что значительно облегчает вычисление 𝐵𝑘 . Ottucsák и Vajda (2007) предложили непараметрическую инвестиционную стратегию типа Марковица на основе ядра (𝐵𝑀 ), объединив выборку на основе ядра и функцию полезности типа Марковица. Györfi и Vajda (2008) предложили непараметрическую инвестиционную стратегию на основе ядра типа GV (𝐵𝐺𝑉 ), объединив выборку на основе ядра и функцию полезности типа GV для выбора портфелей в случае ненулевых транзакционных издержек. Таблица 6.1 Подходы на основе сопоставления образцов: выборка и оптимизацияпортфеля SUMMARY 6.4 Резюме В этой главе кратко описывается принцип, основанный на сопоставлении паттернов, который в основном включает в себя этапы сопоставления паттернов и оптимизации портфеля. Эмпирически эти алгоритмы используют повторяющиеся в истории закономерности и показывают хорошие эмпирические результаты. Одной из ключевых проблем является выявление повторяющихся закономерностей, что приводит к нашей стратегии CORN в главе 8. Глава 7 Мета-обучение Еще одной темой исследований в области онлайн-выбора портфеля (OLPS) является мета-обучение, или мета-алгоритмы (МА) (Das and Banerjee 2011), которые тесно связаны с экспертным обучением (Cesa-Bianchi and Lugosi 2006). Это напрямую относится к "фонду фондов" (FOF),∗ , который делегирует капитал портфеля другим фондам. В общем, МА определяет несколько базовых экспертов, каждый из которых оснащен стратегиями из одного класса стратегий или разных классов, или даже МА. Каждый эксперт выдает вектор портфеля, а MA объединяет эти портфели, формируя окончательный портфель, который используется для ребалансировки. Вся система может достичь наилучшей производительности среди экспертов в ретроспективе, что является желательным для некоторых неуниверсальных алгоритмов. MAs похожи на алгоритм UP Ковера в подходе следования за победителем; однако они предлагаются для работы с различными классами экспертов, среди которых CRP UP становится частным случаем. С одной стороны, ОУ можно использовать для сглаживания итоговой производительности по отношению ко всем экспертам, особенно когда базовые эксперты чувствительны к определенным условиям/параметрам. С другой стороны, объединение универсальных алгоритмов и эвристических алгоритмов, для которых нелегко получить теоретическую границу сожаления, может обеспечить свойство универсальности для всей системы. Наконец, ОУ могут быть применены ко всем существующим подходам и, таким образом, имеют гораздо более широкие области применения. 7.1 Агрегирующие алгоритмы Хотя BCRP является оптимальным для независимого и идентично распределенного (i.i.d.) рынка, что часто предполагается на реальных рынках, оптимальный портфель может не принадлежать CRP. Было предложено несколько алгоритмов для отслеживания другого набора экспертов. Базовые эксперты в этой категории принадлежат к специальному классу, а не к сложным экспертам из нескольких классов. Vovk и Watkins (1998) применили агрегирующий алгоритм (АА) (Вовк 1990, 1997, 1999, 2001) к задаче OLPS, частным случаем которой является УП Ковера. Общая постановка задачи AA заключается в определении счетного или конечного множества базовых экспертов и последовательном распределении ресурсов между несколькими базовыми экспертами для достижения хорошей производительности, которая заключается в следующем не хуже, чем любая фиксированная комбинация базовых экспертов. Формула обновления портфеля (Vovk and Watkins 1998, алгоритм 1) для OLPS имеет вид Как частный случай, UP Ковера соответствует AA с равномерным предварительным распределением и 𝜂 = 1. Было предложено еще несколько алгоритмов. Singer (1997) предложил портфель переключения (SP), который переключается между набором стратегий, работающих в разных режимах. Автор предложил две схемы переключения, обе из которых предполагают, что продолжительность базовых стратегий распределена геометрически. В то время как первая стратегия предполагает фиксированное распределение, вторая предполагает, что распределение динамически меняется. Далее авторы представили нижнюю границу логарифмического богатства по отношению к наилучшему режиму переключения. Эмпирические оценки показывают, что SP может превзойти UP, EG и BCRP. Левина и Шафер (2008) предложили стратегию гауссовой случайной ходьбы, которая переключается между базовыми экспертами в соответствии с гауссовым распределением. Козат и Сингер (2007) расширили SP на стратегии с кусочно фиксированной долей, которые разбивают пери од на различные сегменты и осуществляют переходы между этими сегментами. Kozat и Singer (2008) расширили Kozat и Singer (2007) на случаи транзакционных издержек. Козат и Сингер (2009, 2010) далее обобщили ее на проблемы последовательного принятия решений. Козат и др. (2008) предложили другую кусочно-универсальную стратегию выбора портфеля с помощью контекстных деревьев, а Козат и др. (2011) также обобщили ее на задачи последовательного принятия решений с помощью взвешивания деревьев. В SP используется понятие переключения режимов (Hamilton 1994, 2008), которое кажется более правдоподобным, чем предположение о i.i.d. рынке. Переключение режимов также применяется в некоторых современных торговых стратегиях (Hardy 2001). Однако существующие геометрические и гауссовы распределения, похоже, не очень хорошо подходят для рынка, что приводит к поиску других возможных распределений, которые могут лучше подходить для рынков. 7.2 Быстрая универсализация Akcoglu et al. (2005) предложили быструю универсализацию (FU), которая расширяет UP Ковера (1991) с параметризованного класса CRP на широкий класс инвестиционных стратегий, включая торговые стратегии, работающие на одной акции, и портфельные стратегии, распределяющие богатство между всем рынком. Основная идея FU заключается в том, чтобы равномерно разделить богатство между базовыми экспертами, позволить этим экспертам действовать самостоятельно и, наконец, объединить их богатство. Обновление FU такое же, как и обновление UP Cover, и оно также асимптотически достигает скорости роста, равной скорости роста оптимальной фиксированной выпуклой комбинации базовых экспертов. В случаях, когда все эксперты являются CRP, FU понижается до уровня Cover's UP. Формально, инвестиции FU можно описать как (7.1) где 𝑅0 (𝑤) = 1 для 𝑤 ∈ 𝑊 . Обратите внимание, что среднее значение совпадает с UP Cover, который поровну делит деньги между разными стратегиями и пускает их в ход. Помимо универсализации в пространстве непрерывных параметров, различные комбинации покупки и удержания были приняты различными существующими алгоритмами. Переписав УП Ковера в дискретной форме, можно легко получить обновление. Например, Бородин и др. (2004) приняли стратегию BAH для комбинированияэкспертов Anticor относительно конечного числа размеров окна (или параметров). Более того, все подходы, основанные на сопоставлении шаблонов, используют BAH для объединения своих базовых экспертов, также с конечным числом размеров окон (или параметров). 7.3 Онлайн-обновление градиента и Ньютона Das и Banerjee (2011) предложили два алгоритма мета-оптимизации, названные online gradient update (OGU) и online Newton update (ONU), которые расширены из exponential gradient (EG) и online Newton step (ONS), соответственно. Поскольку их обновления и доказательства аналогичны их прецедентам, мы игнорируем их обновления. Теоретически, OGU и ONU могут достичь той же скорости роста, что и оптимальная кон- векторная комбинация базовых экспертов. В частности, если любой базовый эксперт является универсальным, то конечная система обладает свойством универсальности. Это свойство полезно, поскольку ОУ может объединить эвристический алгоритм и универсальный алгоритм, и конечная система может обладать как превосходной эвристической производительностью, так и свойством универсальности. 7.4 Следуйте за ведущей историей Хазан и Сешадхри (2009) предложили алгоритм следования за ведущей историей (FLH) для изменяющихся сред. FLH может включать в себя различные универсальные базовые эксперты, такие как алгоритм ONS. Его основная идея заключается в поддержании рабочего набора конечных экспертов, которые динамически добавляются и выбывают, и распределении весов между некоторыми активными рабочими экспертами с помощью MA, например, алгоритма Хербстера-Вармута (Herbster and Warmuth 1998). В отличие от других МА, в которых все эксперты работают с самого начала, FLH принимает экспертов, начиная с разных периодов. Теоретически, FLH, основанная на универсальных алгоритмах, также является универсальной, а эмпирически FLH, оснащенная ONS, может значительно превзойти ONS. 7.5 Резюме Мета-обучение - еще один широко обсуждаемый принцип в исследовании онлайн-выбора портфеля (OLPS). Он берет начало от базовых алгоритмов, но рассматривает экспертов как базовые активы. Таким образом, с этой точки зрения, мета-алгоритмы (МА) могут широко применяться ко всем стратегиям, рассмотренным в предыдущих главах. Нас интересует этот принцип, поскольку практические торговые системы обычно содержат несколько стратегий, и мета-обучение может быть использовано для эффективного объединения этих стратегий.