Lecture N1

Аналитика Больших Данных Зрелов П.В. Лаборатория информационных технологий ОИЯИ Начальник отдела Лаборатория облачных технологий и аналитики больших данных РЭУ им. Плеханова в.н.с. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Содержание Лекция 1 1. Ведение в аналитику Больших данных. Основные понятия и определения. История вопроса. 2. Источники Больших данных. Применение в экономике, бизнесе, здравоохранении, промышленности. Примеры использования 3. Большие данные в научных областях. Особенности применения. 4. Big Data и Data Mining. 5. Датификация. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Содержание Лекция 2 1. Технологии Больших данных. Подход MapReduce и его программные реализации. Примеры использования. 2. Математические методы. 3. Машинное обучение и искусственный интеллект. Нейронные сети. Распознавание образов. Примеры. 4. Перспективы. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Введение Кто прав? РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Введение Big Data – это «зонтичный» термин, объединяющий группу понятий, технологий и методов производительной обработки очень больших объемов данных, в том числе неструктурированных, в распределенных информационных системах, обеспечивающих организацию качественно новой полезной информации (знаний) РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Введение Cloud of tags Вот как Интернет представляет понятие BigData Точнее – как Большие Данные представляют сами себя. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных История появления термина Считается, что первые упоминания термина относятся к 2005 году в изданиях компании O’Reilly media в связи с необходимостью хоть как-то определить те данные, с которыми традиционные технологии управления и обработки данных не справлялись в силу их сложности и большого объема. В 2008 году термин Big Data использовался в специальном номере журнала Nature, посвященном теме «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?». В номере были собраны материалы о феномене взрывного роста объемов и многообразия обрабатываемых данных. Там же обсуждались технологические перспективы в парадигме вероятного скачка «от количества к качеству» В 2009 году термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и решений. К 2011 году большинство крупнейших поставщиков информационных технологий используют понятие Больших данных, в том числе IBM, Oracle, Microsoft, HewlettPackard, EMC. В 2011 году компания Gartner дала прогноз, что внедрение технологий Больших данных окажет влияние на подходы в области информационных технологий в производстве, здравоохранении, торговле и государственном управлении. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Google Trends: Big Data (2004-2016) РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Технологии Big Data предоставляют услуги, позволяющие раскрыть потенциал очень больших массивов данных за счет выявления скрытых закономерностей и фактов. Большие Данные делают возможным обработку и анализ огромного количества данных, в некоторых случаях – всех данных, касающиеся того или иного явления (не полагаясь на случайные выборки) в их первозданном виде – структурированные, неструктурированные, потоковые. Внедрение технологий Больших данных оказывает влияние на подходы в области информационных технологий в производстве, здравоохранении, торговле и государственном управлении. Хотя термин «очень большие наборы данных» не относятся к какой-либо конкретной величине, чаще всего подразумеваются значения от PB до EB (…и даже ZB и YB). Например, фото и видео хранилище на Facebook оценивается как минимум в 100 PB. Большие Данные - это данные, хранение которых в реляционной базе данных для анализа заняло бы слишком много времени и стоило бы слишком дорого. Полезно напомнить, что 1 PB = 10^15 bytes (пета-), 1 EB = 10^18 bytes (экса-), 1 ZB = 10^21 bytes (зета-) РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Определение Определений больших данных очень много. Они традиционно обсуждаются в научной литературе. Одно из самых распространенных: Большие данные – это данные, которые описываются с помощью трех V («The 3 V’s»): Volume (объем), Velocity (скорость), Variety (разнообразие) + Veracity (достоверность) РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Понятие Big Data Объем. Тот объем данных, который раньше накапливался годами, теперь генерируется каждую минуту. Новые инструменты больших данных используют распределенные системы, так что данные можно хранить и анализировать в нескольких географически распределенных базах данных. Объем обычно измеряется TB или PB (…но может и KB, MB, GB ) Скорость. Скорость, с которой данные создаются, обрабатываются и анализируются. Сообщения в социальных сетях расходится по всему интернету в считанные секунды. Современные технологии позволяют анализировать данные на лету, даже не размещая их в базах данных. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Понятие Big Data Разнообразие. Различные типы данных и их источников. В недавнем прошлом рассматривались только структурированные данные, но 80% мирового объема данных являются неструктурированными (текст, изображения, видео, голос и др.) С технологиями больших данных теперь есть возможность проанализировать и свести воедино данные разных типов, такие как сообщения, разговоры в социальных сетях, фотографии, данные с датчиков, видео или голосовые записи. Достоверность. Для значительного множества данных их качество и точность являются слабо контролируемыми (сообщения в соцсетях, сокращения и ошибки в разговорной речи, ненадежность и неточности контента). Новая технология позволяет теперь работать и с этим типом данных. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Эволюция определения «3 V’s»: «Multi-V Models» Venn diagram of 3^2 V Model Другая «4V» модель Visibility («обзорность») -обеспечивает предвидение, ретроспективу структуру. Valueи(«значение») – способность Verdict («суждение,решение») понять, содержат – способность обеспечения ли данные чторешения на основе анализа нибудь проблемы и возможных «существенное» вариантов решений. или нет Validity («подлинность») – определяет корректность сбора данных (в смысле статистики - несмещенность) РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Источники больших данных РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Источники больших данных Розничная торговля Финансовые организации Транспорт WEB Интернет вещей Социальные сети Телекоммуникации Энергетика Наука Промышленность - металлургическая - добывающая - нефтегазовая РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Источники больших данных Представленные данные относятся к 2012 году. Диаграмма интересна соотношениями между отраслями Данные предприятий, данные по обмену информацией, социальные сети, данные, генерируемые людьми (перемещения, разговоры, письма, покупки..), общедоступные (открытые) данные, электронные архивы РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Источники. Примеры Сегодня трудно представить деятельность, которая не генерирует данные. Даже такие простые занятия, как прослушивание музыки или чтение книг. Цифровые музыкальные плееры и электронные книги собирают информацию о нашей деятельности. Смартфон собирает данные о том, как мы его используем, а web-браузер собирает информацию о том, чем интересуемся. Платежные системы (VIZA, MasterCard) собирают данные о том, где находятся магазины, в которых мы делаем покупки, а магазины собирают данные о том, что мы покупаем... РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Источники. Примеры Данные разговоров Наши разговоры теперь записываются в цифровом формате. Все началось с электронных писем, но сегодня и большинство наших разговоров оставляют цифровой след, в том числе многие наши телефонные разговоры записываются в цифровом формате. Фото и видео данные Растущие архивы фото и видео. Фотоснимки, которые мы делаем на наши смартфоны или цифровые камеры. Сотни тысяч фотографий в секунду загружаются на сайты социальных сетей, а сотни часов видео на YouTube за минуту. Увеличивающееся количество камер видеонаблюдения снимает видео изображения. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Источники. Примеры Данные датчиков Мы все чаще попадаем в окружение датчиков, которые собирают и передают данные. Смартфоны содержат датчики глобального позиционирования, чтобы отслеживать, где именно мы находимся в данную секунду. Сенсоры есть во многих устройствах и товарах. Интернет вещей Smart телевизоры способны собирать и обрабатывать данные. У нас есть умные часы, умные холодильники, умные будильники. Интернет вещей соединяет эти устройства так, чтобы, например, датчики загруженности дорог могли отправить данные на ваш будильник. Будильник разбудит раньше, чем вы планировали, по причине перекрытия дороги, для того, чтобы вы могли уйти раньше и успеть на ваше утреннее заседание в 9:00. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Большие данные в разных отраслях экономики Торговля • • • • • • Прогнозирование спроса и планирование ассортимента Мероприятия по продвижению товаров Управление товарными запасами Сезонное планирование Оптимизация использования торговых площадей Логистика РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Большие данные в разных отраслях экономики Транспорт • • • • Контроль дислокации и выполнения графиков. Планирование расписания грузоперевозок. Железнодорожный транспорт: - учет расхода топлива; - контроль/мониторинг состояния активов; - мониторинг поведения пассажиров. Авиа транспорт: - определение срока прибытия воздушного судна; - диагностика работы авиационных двигателей в полете; - мониторинг состояния покрытия ВПП. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Большие данные в разных отраслях экономики Металлургия и добывающая промышленность • Управление сбытом • Поддержка систем горнотранспортного комплекса • Управление энергосбережением • Ситуационный центр • … Нефтегазовая промышленность • Сбыт в рознице (АЗС) • Оценка экономической эффективности месторождения • Digital Oil Field – монитор бурения • Оценка экономической эффективности инноваций • … Финансовые организации • Электронные торговые площадки • Анализ кредитоспособности • Управление рисками • Расчет нормативов • Распознавание и идентификация по изображению Энергетика • Электроэнергетическая система с интеллектуальной сетью • Мониторинг технического состояния электронно-сетевого оборудования • Оперативный мониторинг и прогнозирование • Поддержка системы управления режимами энергосистемы РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Как компании используют Big Data Прогнозные модели поведения клиентов: Чтобы лучше понять и нацелить клиентов, компании дополняют свои БД данными из социальных сетей, браузеров, данными датчиков и т.д., формируя более полное представление о своих клиентах. Главной целью является создание прогнозных моделей. С помощью больших данных телекоммуникационные компании теперь могут лучше прогнозировать отток клиентов; розничные торговцы могут предсказывать, какие продукты будут продавать, а автомобильные страховые компании понять, насколько хорошо их клиенты на самом деле управляют автомобилем. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Как компании используют Big Data Cегментация клиентов Клиенты связаны, если они: смотрят одинаковые фильмы, или/и покупают в одних и тех же местах, или/и посещают одинаковые страницы в Интернете. Поскольку связанные клиенты образуют «сообщества», клиенту следует предлагать товары, популярные в его «сообществе» Cегментация товаров Среди связанных товаров можно выделить устойчивые группы, в свою очередь связанных между собой общими потребителями. Такие группы представляют собой типичные «корзины» или модели поведения покупателей. Оптимизация бизнес-процессов Ритейлеры имеют возможность оптимизировать свои запасы на основании моделей прогноза, сгенерированных из данных социальных сетей, тенденций интернет запросов и прогнозов погоды. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Как компании используют Big Data Повышение безопасности. - Банки используют аналитику больших данных для выявления мошенничества с помощью анализа операций по картам. - Службы безопасности используют анализ больших данных для предотвращения террористической деятельности и выявления кибератак. - Полицейские силы используют инструменты больших данных, чтобы поймать преступников и даже предугадывать преступные намерения. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Как компании используют Big Data Здравоохранение Вычислительные мощности, созданные для анализа больших данных, позволяют находить новые подходы и методы лечения, лучше понимать и предсказать болезни. Теперь стало возможным на основании данных от смарт-часов, других носимых устройств лучше понять связь между образом жизни и различными заболеваниями. Аналитика больших данных позволяют следить и прогнозировать эпидемии и вспышки заболеваний, просто послушав, что люди говорят, например, “плохо себя чувствую – в постели с простудой” или ищут в Интернете, например, “лекарства от гриппа”. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Как компании используют Big Data «Совершенствование и оптимизация» городов и стран: "Большие данные" используется для улучшения многих аспектов жизни наших городов и стран. Например, это позволяет городу оптимизировать транспортные потоки на основе информации о дорожном движении, получаемой в реальном времени, данных из социальных сетей и данных о погодных условиях . В настоящее время целый ряд городов используют анализ больших данных, чтобы превратить себя в «умные города», где транспортная Smart Sity инфраструктура и коммунальные процессы объединены, где автобус будет ждать поезда в случае его опоздания, и где светофоры предвидят транспортные потоки и работают в режиме, который минимизирует пробки. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Как компании используют Big Data Интернет вещей. •Проект Planetary Skin от Cisco и NASA предполагает объединение спутниковой сети, беспилотных самолетов, а также наземных средств и датчиков для сбора информации о Земле, ее процессах и явлениях для последующего контроля земных ресурсов и предоставления этой информации людям для повышения уровня жизни. •Проект Сentral Nervous System for Earth от HP заключается в повсеместном внедрении сенсоров, считывающих такие показатели, как давление, температура, освещенность, вибрация, влажность и другие. Датчики могут устанавливаться на мосты и строения, вдоль дорог для мониторинга загрузки. Сферы применения те же,что и в проектеPlanetary Skin. •Проект IBM Smart Planet. Многие компании собирают данных куда больше, чем могут позволить себе обработать. На «Умной планете» наиболее крупные организации смогут обработать и превратить эти данные в ценную информацию о клиентах, бизнесе и окружающем мире в целом для оптимизации при принимаемых решений. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Как компании используют Big Data Интернет вещей. Интернет вещей – это не только указанные проекты, но хаотически возникающие сети от стиральных машин, тостеров, кофеварок, холодильников, телевизионных приставок, веб-камер и роутеров. Уязвимостями в программном обеспечении этих устройств активно пользуются злоумышленники. 21 октября 2016 года многие крупные интернет-сервисы оказались недоступными на территории США. «Лежала» сеть Twitter, сервис Netflix (потоковое multimedia), интернет-магазин Amazon и другие известные сайты. Неизвестные злоумышленники, атаковавшие серверы хостинговой компании Dyn, по сути на несколько часов отключили интернет по всему восточному побережью Штатов - огромное количество взломанных устройств одновременно посылали на серверы этих площадок терабайты бесполезных данных, парализуя их работу. Ботнет Mirai, который использовался для атаки 21 октября, специализируется для использования на нестандартных устройствах, подключенных к интернет. В атаке участвовали 1б5 млн. устройств, генерировавшие трафик 660 Gb/s. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Эффект применения (Impact) 300 млрд. $ - ежегодный потенциал для здравоохранения в США 250 млрд. € - ежегодный потенциал управления государственным сектором EU 600 млрд. $ - ежегодный мировой потенциал увеличения покупательского спроса только за счет использования информации о перемещениях покупателей 60% - потенциал увеличения выручки в розничной торговле McKinsey Global Institute РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Применение подхода в науке • Большие данные обязан своим рождением экономике и бизнесу. А в науке? Используется ли там этот подход? • Применение в науке имеет много общего с применением к бизнесданным. Однако есть одно отличие, которое заключается в том, что существует большое количество научных теорий и накопленных знаний. Таким образом, существует гораздо меньше шансов найти новые знания прямо из данных. Результаты должны быть воспроизводимы. • Однако, эмпирические результаты могут быть ценны в новых областях знаний, в прикладных областях, граничащих с техникой, или при моделировании сложных явлений. Кроме того, а может быть даже и в первую очередь, в науке могут быть востребованы новые технологии хранения, передачи и обработки данных. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Применение подхода в науке • Еще одно отличие заключается в том, что в торговле, бизнесе в целом, правила «мягкие», социологические, культурные, отражающие определенные традиции поведения. • Например, правдоподобный миф о том, что «30% людей, покупающих подгузники для младенцев, одновременно покупают пиво» вряд ли отражает какие-нибудь фундаментальные положения и имеет характер закона природы, но его можно с пользой применить в практике продаж. • Научные гипотезы или законы, в принципе проверяемы объективно. Любые результаты применения методов Big Data должны согласовываться с существующими знаниями конкретной предметной области. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Применение подхода в науке  Астрофизика  Биология  Нанотехнологии  Моделирование климата  Термоядерный синтез  Физика частиц  Информационный поиск  Кибербезопасность 25.11.2020 Аналитика Больших Данных Применение подхода в науке Vitali S, Glattfelder JB, Battiston S The Network of Global Corporate Control. 2011 PLoS ONE 6(10): e25995. doi:10.1371/journal.pone.0025995 Выяснилось, что среди множества мелких структур, сложившихся вокруг ТНК, есть одна гигантская суперсеть, включающая в себя более 3/4 компаний, связанных с ТНК. На долю этой сети приходится 94 % всей операционной выручки ТНК. Суперсеть имеет только один центр - сильносвязное малое ядро всего из 1347 узлов (во всей структуре 463 тысячи узлов). Ученые Швейцарской высшей технической школы Цюриха(ETHZ) обработали весь массив данных о владельцах компаний (43 тысячи ТНК из базы данных orbis), на основе чего сконструировали сеть компаний, контролируемых транснациональными корпорациями. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Применение подхода в науке А) общее направление контроля. IN - входной контур (верхушка). OUT - выходной (управляемые корпорации). SCC - наиболее связный компонент (ядро), в котором корпорации образуют сеть взаимного контроля. Tubes - каналы управления, минующие ядро. Tendris - боковые отростки. В) структура крупнейшего связного компонента управления. OCC - прочие связные компоненты. В скобках -процент выручки/количество ТНК. С) структура ядра SCC (1318 узлов и 12191 связь). D) связи между крупнейшими финансовыми ТНК. В итоге 737 крупнейших собственников контролируют 80% операционной выручки всех ТНК. Крупнейшие собственники имеют влияние в десять раз превосходящее то, что напрямую бы следовало из доли их капитала. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Метод Dynamic Quantum Clustering Авторы метода ставят задачу весьма парадоксальным образом: «Как искать иголку в многомерном стоге сена, не зная, как она выглядит, и, не зная, есть ли она в этом стоге». И отвечают, что подобная постановка требует смены парадигмы поиска в сторону «пусть данные говорят о себе сами». Разработанная для анализа Больших многомерных данных методология «Dynamic Quantum Clustering» (DQC) реализует указанную парадигму. Метод DQC (как и многие другие методы аналитики Больших данных) «работает» без предварительного знания о тех «структурах», их типе и топологии, которые могут быть «скрыты» в данных и выявлены в результате его применения. Метод хорошо работает с многомерными данными, и, что очень важно, время анализа линейно зависит от размерности РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Метод Dynamic Quantum Clustering В d-мерном признаковом пространстве строится функция , являющаяся суммой гауссовых функций с центрами в каждой точке данных (Парзеновская функция). Определяется функция квантового потенциала V. Локальные минимумы функции V соответствуют локальным максимумам , кроме того функция V может иметь минимумы там, где у нет максимума. Функция V лучше выявляет структуру данных, чем Парзеновская функция. Затем для каждого гауссиана, связанного с определенной точкой данных, задается его эволюция путем умножения его на квантовый время-эволюционный оператор. Вычисляются новые центры гауссианов, и процедура повторяется. Доказано, что новые центры стремятся к ближайшим минимумам потенциальной функции V. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Метод Dynamic Quantum Clustering Парзеновская функция (синяя кривая) и соответствующий ей квантовый потенциал (красная кривая). Парзеновская функция является суммой 5 гауссианов с центрами (2,-1,0,1,2) РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Применение метода DQC для анализа данных фондового рынка Анализ цен акций компаний, входящих в лист индекса Standard and Poor’s S&P500 за период 1 января 2000 года по 24 февраля 2011 года (всего 2803 торговых дня). Было выбрано 440 компаний. 01.01.2000 – 24.03.2011 РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Применение метода DQC для анализа данных фондового рынка С математической точки зрения анализу подвергалась матрица размером 2803 х 440. Каждая строка матрицы содержит информацию о ценах всех 440 акций за один день. Прежде всего, анализ подтвердил очевидный результат, что цены акций коррелированны в соответствии с принадлежностью к одному из 9 рыночных секторов («энергетический», «финансовый», «промышленный» и т.д.). Однако главным результатом стало, что в результате анализа были выявлены «временные» кластеры, которые авторы назвали «рыночными эпохами». Всего за указанный период было выявлено 17 эпох различной длительности. Результаты дальнейшего анализа показали, что каждый из «временных» кластеров имеет свои собственные характеристики. Это хорошо видно на рисунке (цветом выделены события, принадлежащие различным «эпохам»), где каждая точка представляет собой вектор из средних дневных цен акций 3 рыночных секторов, представленных осями координат. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Применение метода DQC для анализа астрономических данных Анализируется пространственное распределение 139798 галактик (каталогизированные данные из Sloan Digital Sky Survey (SDSS). Для каждой галактики известно три координаты – два угла φ и  и величина так называемого «красного смещения» z, играющего роль расстояния до галактики. Галактики распределены во вселенной неравномерно – их распределение напоминает полотно из волокон и пустот. Этот (известный) факт и был проверен с помощью метода DQC. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Применение метода DQC для анализа астрономических данных Хорошо видна эволюция начального распределения (cлева) к структуре, которая действительно напоминает полотно из волокон и пустот (справа) РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Применение подхода в науке Google Trends: Big Data 05.2012 – 13.11.2016 Christmas ? DJI: Closing prices 05.2012 – 13.11.2016 РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Big Data и Data Mining Data Mining - это процесс поддержки принятия решений, основанный на поиске в сырых данных ранее неизвестных скрытых закономерностей, нетривиальных, практически полезных и доступных интерпретации знаний. Big Data Analytics является развитием концепции Data Mining. Одни и те же задачи, сферы применения, источники данных, методы и технологии. За годы, прошедшие с момента появления концепции Data Mining до наступления эры Больших Данных, революционным образом изменились объемы анализируемых данных, появились системы высокопроизводительных вычислений, новые технологии, в том числе MapReduce и ее многочисленные программные реализации. С появлением социальных сетей появились и новые задачи. Оба подхода используют традиционные инструменты анализа, такие как математическая статистика (регрессионный, корреляционный, кластерный, факторный анализ, анализ временных рядов, деревья решений и др.), а также те, что связаны с искусственным интеллектом (машинное обучение, нейронные сети, генетические алгоритмы, нечеткие логики и др.). РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Big Data и Data Mining Data Mining – это «сплав» нескольких дисциплин и технологий Технологии БД Статистический анализ Искусственный интеллект Технологии распознавания образов Data Mining Технологии визуализации Технологии машинного обучения Другие технологии и дисциплины РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Big Data и Data Mining Если схему дополнить современными технологиями обработки данных, она отразит функциональные связи Big Data Analytics Технологии БД Искусственный интеллект Технологии распознавания образов Статистический анализ Big Data Analytics Hadoop, HDFS, Spark, Cassandra, NoSQL, NewSQL… Технологии визуализации Технологии машинного обучения Другие технологии и дисциплины РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Big Data и Data Mining РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Датификация Большие данные способны обращать в «цифру» то, что никогда раньше не оценивалось количественно: для это введен в оборот термин датификация. Люди, вещи, настроения, структуры, поведение, работа — рано или поздно вся эта информация будет выражаться в числах. Датификация обеспечивает беспрецедентный поток данных в плане объема, скорости, разнообразия и достоверности. Примеры: 1 ) Местоположение объекта на поверхности Земли стало возможным датифицировать с изобретением спутниковых систем глобальной навигации (GPS, ГЛОНАСС). 2) Слова превращаются в цифры, когда «компьютеры раскапывают в старинных книгах наслоения эпох». 3) Дружеские отношения и симпатии датифицируются в социальных сетях через «лайки». РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Поиск похожих объектов Многие задачи могут быть озвучены, как «найти похожие объекты». Оценка «похожести» после их датификации возможна на основе сравнения их как математических объектов с помощью так называемых метрик расстояния. Примеры: – web-страницы с похожими словами (классификация, распределение дубликатов); – Покупатели с «похожими интересами»; – Изображения с «похожими признаками»; – Пользователи, которые посещают один и тот же web-сайт; – и т.д. РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Поиск похожих объектов. Метрики расстояний Сумма абсолютных разниц по каждому измерению: Манхетенновское расстояние (в честь решетчатой структуры некоторых районов Нью-Йорка) (можно двигаться только вдоль осей). Чебышевское расстояние. 25.11.2020 Аналитика Больших Данных Поиск похожих объектов. Метрики расстояний. Примеры 1) Длина зеленого отрезка (L2) ≈ 8, 435 2) Синей ломаной (L1) = 12 3) Красной = 12 (Чебышевское расстояние = 6) 4) L4 ≈ 7, 25.11.2020 135 Аналитика Больших Данных Поиск похожих объектов. Метрики расстояний 3. Расстояние Хэмминга (Hamming Distance) = число позиций, в которых соответствующие символы двух слов одинаковой длины различны Пример, х = 10101, у = 10011; Hamming Distance = d(x,y) = 2 Пример, x = toned, y = roses; Hamming Distance = 3 4. Jacсard Distance между двумя наборами. Это 1 – «размер их пересечения»/ «размер их объединения» Пример Размер пересечения = 3 Размер объединения = 8 Jaccard Distance = 1 – 3/8 = 5/8 РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Поиск похожих объектов. Метрики расстояний 1. Косинусное расстояние (Cosine Distance) = это угол между векторами. например, A = 00111; B = 10011 2. Edit distance = число вставок, удалений, которое нужно чтобы преобразовать одну строку в другую. LCS (longest common subsequence) = наибольшая общая подпоследовательность (последовательность символов, следующих слева направо, но необязательно в порядке «друг за другом» ) Пример, x = abcde; y = bcduve LCS(x,y) = bcde, d(x,y) = 5 + 6 – 2 * 4 = 3 РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020 Аналитика Больших Данных Поиск похожих объектов. Метрики расстояний. Edit Distance Биоинформатика. Анализ первичных последовательностей Азотистые основания, входящие в ДНК: A – аденин, С – цитозин, G – гуанин, T – тимин S1 = AAACCGTGAGTTATTCGTTCTAGAA (25 символов) S2 = CACCCCTAAGGTACCTTTGGTTC (23 символа) Выделяем последовательность LSG (красным) S1 = AAACCGTGAGTTATTCGTTCTAGAA S2 = CACCCCTAAGGTACCTTTGGTTC LSG(S1,S2) = ACCTAGTACTTTG (13 символов) Edit Distance D(S1,S2) = 25 + 23 – 2*13 = 48 – 26 = 22 РЭУ им. Г.В.Плеханова.15-16 ноября 2016. Москва 25.11.2020

Lecture N1

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib