В мире больших данных г. Астана, 2015 г . ТЕКУЩИЕ ТЕХНОЛОГИЧЕСКИЕ ТРЕНДЫ В СФЕРЕ ИКТ Большие Данные — это одна из четырех трендов в ИКТ, являющихся основой цифровой революции ПОВЕДЕНИЕ Д ОСТУП 96% предприятий планируют увеличить объем инвестиций в социальные СМИ … в 2016 г.: 6 млрд абонентов 19,2 млрд евро прибыли КОНТЕКСТ экспон. рост объемов данных каждые 10 минут мы создаем 1 экзабайт данных (1018) Д ОСТАВКА … в 2016 г.: 0,7% ВВП Германии Персональные облака приходят на смену персональным компьютерам Источник: Gartner, Inc., The Nexus of Forces: Social, Mobile, Cloud and Information ТЕМПЫ РОСТА РЫНКА БОЛЬШИХ ДАННЫХ ПО РЕГИОНАМ* СЕВЕРНАЯ АМЕРИКА 2014: 1,32 Збайт** 2020: 3,89 Збайт CAGR: 20% СРЕДНИЙ ВОСТОК И АФРИКА 2014: 0,09 Збайт 2020: 0,70 Збайт CAGR: 40% ЗАПАДНАЯ ЕВРОПА 2014: 0,60 Збайт 2020: 1,87 Збайт CAGR: 20% ЛАТИНСКАЯ АМЕРИКА 2014: 0,23 Збайт 2020: 0,82 Збайт CAGR: 23% * Информация предоставлена по данным хранящимся на облачных платформах ** Збайт (Зеттабайт) – единица измерения количества информации, равная 10^21 стандартным байтам ВОСТОЧНАЯ И ЦЕНТРАЛЬНАЯ ЕВРОПА 2014: 0,24 Збайт 2020: 1,02 Збайт CAGR: 28% АЗИЯ 2014: 1,36 Збайт 2020: 4,77 Збайт CAGR: 24% CAGR (Compound Annual Growth Rate/ Совокупный среднегодовой темп роста) 2015 год – всего в мире будет накоплено 7,9 збайта данных • 2014 год 2 млрд событий ежедневно, после обработки 400 Гбайт сжатых данных. • Мобильные устройства из интернета вещей генерируют до 18% цифровой информации, в целом накопленной в мире за год. • 60 Тбайт накоплено в облаках ритейлера Amazon • 160 Тбайт накоплено в Hadoop, • 120 Тбайт в HP Vertica. • 2 ПБ (петабайт) данных генерирует автомобиль за 600 часов езды в год. Аналитический обзор рынка Big Data http://habrahabr.ru/ КЛЮЧЕВЫЕ ГЕНЕРАТОРЫ ДАННЫХ Google прекратил сообщать как много данных они хранят в 2010 (SEC filing): в то время это было 100 PBs YouTube – порядки измеряются в Exabyte •72+ ч видео загружаются на YouTube каждую минуту •YouTube второй по использованию поисковый движок после Google •Последние данные 768+ PBs, 3-4 года назад: точно больше Exabyte сейчас Facebook перевалил за миллиард пользователей в августе 2012 • Население планеты стало больше 7B в прошлом году: 1/6th – в Facebook •35% мировых фотографий по оценкам в Facebook Twitter - около 124 млрд tweets в год, в среднем 4500 в сек Обмен сообщениями в мире 193,000 смс/сек Источник: IBM ХАРАКТЕРИСТИКИ БОЛЬШИХ ДАННЫХ Растущий Рост количества Объем 50x 2010 35 ZB Источников 30 Млрд. Увеличивающееся Разнообразие RFID сенсоров и счетчиков 2020 Тем не менее, 1 из 3 руководителей не доверяет информации которую он использует для принятия решений Источник: IDC, EMC, IBM 80% данных не структурировано ПРИМЕНЕНИЕ БОЛЬШИХ ДАННЫХ В ЦИФРОВОЙ ЭКОНОМИКЕ Энергетика Финансы Решения по рискам Анализ мнения клиентов Борьба с отмыванием денег Транспорт Влияние погоды на генерацию энергии Анализ данных от умных счетчиков ИТ Влияние погоды и траффика на доставку и потребление топлива Анализ логов от разных транзакционных систем Колл центр E Commerce Анализ расшифровок разговоров для понимания поведения клиентов Телко Анализ операций и сбоев сети Анализ поведения и покупательских моделей Интеграция каналов взаимодействия Моделирование поведения клиентов Источник: IDC, EMC, IBM ПРИМЕРЫ ЭФФЕКТИВНОСТИ ПРИМЕНЕНИЯ БОЛЬШИХ ДАННЫХ В ЭКОНОМИКЕ Управление надежностью, Безопасность, Лояльность, Энергоэффективность, Прогнозирование Государственный сектор Безопасность: сокращен акустический анализ с часов до 70 миллисекунд Энергетический сектор – Управление надежностью: прогнозирование аварий – анализ 10 PB данных за считанные минуты Торговые сети – Энергоэффективность : на 50% сокращают потребление электроэнергии Финансовый сектор Лояльность: сокращается перерасчет рисков с часов до минут Источник: R-style Здравоохранение Прогнозирование: анализ потоковых данных для прогнозирования рисков заболевания за 24 часа Телекоммуникации - Лояльность: анализируют данные о собственных клиентах из различных источников, сокращают отток и переход клиентов на 27% ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ БОЛЬШИХ ДАННЫХ В КОРПОРАТИВНОЙ СРЕДЕ HSBC • Увеличена эффективность службы безопасности в 3 раза • Распознавание мошеннических инцидентов в 10 раз • Экономический эффект превысил 10 млн. долл. США PROCTER & GAMBLE • Проектируют новые продукты и составляют глобальные маркетинговые кампании • У менеджмента компании появилась возможность мгновенно проверять гипотезы и проводить эксперименты VISA • Ежегодно система «Антифрод» предотвращает мошеннические платежи на сумму 2 млрд долл. США. CATERPILLAR • Большие Данные позволяют анализировать: • Состояние ключевых узлов и механизмов • Степень износа деталей • Управлять затратами на топливо и техническое обслуживание IBM • Суперкомпьютер Watson на 15% увеличил количество выявленных мошеннических операций в банковском секторе • На 50% сократились ложные срабатывания системы перевода денежных средств • На 60% увеличилась сумма денежных средств защищенных от ложных платежных транзакций LUXOTTICA GROUP • Компания применяет БД для анализа поведения потенциальных клиентов и «умного» смсмаркетинга • Компания выделила более 100 млн. ценных клиентов и повысила эффективность маркетинговой кампании на 10%. ГОТОВНОСТЬ КАЗАХСТАНА К БОЛЬШИМ ДАННЫМ • АРХИВНЫЕ ДАННЫЕ (оцифрованные и не оцифрованные) министерств (МФ, МЮ, МЗСР РК и т.д.) и ведомств (налоговый комитет, таможенный комитет и другие) • ГЕОЛОКАЦИОННЫЕ ДАННЫЕ (спутники, магистральные газо- и нефтепроводы, железнодорожные и автомагистрали и т.д.) и картографические данные (в том числе земельные, территориальные) профильных организаций. • ПРОМЫШЛЕННЫЕ И ТЕХНИЧЕСКИЕ ДАТЧИКИ (светофоры, камеры слежения, GPS-трекеры, счетчики различных видов энергии, системы электронных очередей, медицинские датчики и многое другое) • ERP-СИСТЕМЫ, учетные информационные системы и прочие информационные системы государственных органов и иных организаций представляющие практический интерес для анализа • ФИНАНСОВЫЕ ДАННЫЕ (платежные транзакции банков и казначейства) • ИНТЕРНЕТ ДАННЫЕ (социальные сети и другие интернет-источники) ИНФРАСТРУКТУРА ДЛЯ СБОРА И ХРАНЕНИЯ БОЛЬШИХ ДАННЫХ • Центры Обработки Данных (ЦОД) государственных органов и подведомственных организаций (в том числе и региональные • Телекоммуникационные каналы связи (оптические, медные, беспроводные, спутниковые, сотовые) • Интернет (проводной, беспроводной, 3G ,4G) – в настоящее время охват составляет 74% населения РК. ҚАЗАҚСТАН РЕСПУБЛИКАСЫ ИНВЕСТИЦИЯЛАР ЖӘНЕ ДАМУ МИНИСТРЛІГІ ПРИМЕР ИСПОЛЬЗОВАНИЯ БОЛЬШИХ ДАННЫХ В «УМНОМ ГОРОДЕ» WiFi Уличное освещение Камеры видеонаблюдения Табло дорожного движения Монитор отображения информации Парковочные терминалы Парковочные терминалы Светофор Анализ информации поступающей со всех датчиков в городе позволит принимать оперативные решения, в том числе и автоматизированные, а также в реальном режиме времени Датчик доступа Датчик доступа БОЛЬШИЕ ДАННЫЕ В ГОСУДАРСТВЕННОМ СЕКТОРЕ • Обеспечение индивидуального подхода к процессу обучения ребенка • Прогнозирование и диагностика заболеваний по целевым группам • Разработка лекарств точечного использования нового поколения • Создание общественно-ориентированного правительства с персонифицированным подходом для обеспечения прямого контакта с каждым гражданином. ИСПОЛЬЗОВАНИЕ БОЛЬШИХ ДАННЫХ В ПРОЕКТЕ ЭЛЕКТРОННОГО ПРАВИТЕЛЬСТВА РК Лаборатория Больших Данных Аккредитация август 2014 Исследование По анализу профиля пользователя портала электронного правительства – получателя государственных услуг и его лояльности с использованием технологий больших данных Цель проекта • Повышение качества и доступности государственных услуг • Установление обратной связи с пользователями портала электронного правительства и получателями государственных услуг • Расширение видов каналов предоставления государственных услуг для конечного потребителя Источники данных: • Портал электронного правительства • Электронные обращения граждан через почтовые сервисы • СМС сообщения и звонки в единый контактЦентр • Социальные сети и другие интернет-источники Результат анализа: Набор данных по предоставляемым государственным услугам (их рейтинг, востребованность, качество и т.д.). На основе полученных данных будут выработаны рекомендации для улучшения качества и состава государственных услуг. ФОРМИРОВАНИЕ ЭКОСИСТЕМЫ БОЛЬШИХ ДАННЫХ Основные вопросы: Подготовка нового поколения ИКТ специалистов Обеспечение необходимой инфраструктуры связи Принятие стандартов по сбору, обработки и анализу данных в производстве Популяризация аналитики, как неотъемлемой компоненты в работе каждого специалиста независимо от отрасли Через 3 – 5 лет: Увеличение прикладных исследований в Data Science Спасибо за внимание!