HP Vertica Гиоев Артур Технический директор HP Software по России и Странам СНГ © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Введение в vertica Big Data, Data Analytics ... Simply Fast © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Мы живем в мире аналитики Все больше данных, и они постоянно прибывают Больше не тратить ночи на загрузки данных Смешивать загрузку данных и доступ разнообразных пользователей Необходимость сохранять исторические данные для последующего анализа Создавая новые возможности! 3 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Вы готовы к анализу данных? 100% Каждый нуждается в информации, а не только аналитики Нужно анализировать и адаптировать РАЗНЬЕ данные и связи между ними 4 Объем информации растет; IDC предсказывает рост в 44 раза в следующем десятилетии Аналитические платформы активно внедряются, происходит смещение на специализитрат рованные системы 4 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. компаний из списка Fortune 2000 анализируют данные ROI «Return on Information» - сколько денег можно получить за информацию? Новая метрика. *IDC report 2009 Большие Данные это сколько? Размер и классификация хранилища данных, сегодня <500ГБ – Маленькое 500ГБ > 20ТБ – Типовое 20ТБ > 50ТБ – Большое >50ТБ – очень Большое Несколько лет назад хранилище размером больше нескольких ТБ было редкостью 5 5 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Пример Больших Данных Даже очень больших 40 млн. игроков регистрируется каждый клик 3ТБ данных в день 200 машин в кластере анализ в реальном времени и мгновенное предоставление информации в виде рекомендаций - непрерывная работа 24х7х365 – никаких «окон» на - 6 6 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. The Vertica Аналитическая платформа Реального времени Интегрированное решение разработанное для ответа аналитическим задачам сегодня и завтра Аналитика “точно вовремя” в 50–1000 раз быстрее среднее время обработки запросов чем в традиционных построчных системах До 10x прирост скорости загрузки данных Простота установки/использования Высокая масштабируемость и полный параллелизм Индустриально стандартная платформа x86 Гибридная in-memory/on-disk архитектура Хранение данных близко к процессору Большие масштабы, широкие возможности © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 7 Обзор технологии Vertica © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Технический обзор Vertica Основной функционал Vertica • Колоночное хранение • Продвинутое сжатие • Обработка данных с массовым параллелизмом(MPP) • • • Повышение производительности в 10 – 100 раз • Высокая масштабируемость от TB к PB • Простая интеграция с существующими решениями ETL и Автоматизированный Дизайнер BI БД • Высочайшая производительность Встроенная поддержка на доступной аппаратной высокой доступности платформе Стандартный SQL интерфейс 9 Vertica позволяет • Высокая гибкость развертывания © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Колоночное хранение Vertica интелектуально организует данные на диске для каждой колонки • Читаются только колонки участвующие в запросе, а не каждая как в случае с построчным хранением • Чтение и Запись блоков очень большого размера • Идеально для интенсивной работы в режиме ЗАГРУЗКА/ЧТЕНИЕ с серьезным сокращением операций ввода/вывода Колоночное хранение – читаются 3 колонки SELECT avg(price) FROM tickstore WHERE symbol = ‘AAPL’ AND date = ‘5/06/09’; 10 NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS AAPL AAPL BBY BBY NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS 143.74 143.75 37.03 37.13 NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS Строчное хранение - читаются все колонки AAPL AAPL BBY BBY NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 143.74 143.74 37.03 37.13 NYSE NYSE NYSE NYSE NYSE NYSE NYSE NYSE NYSE NYSE NYSE NYSE © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 5/05/09 5/06/09 5/05/09 5/06/09 NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS 5/05/09 5/06/09 5/05/09 5/06/09 Продвинутое сжатие Vertica заменяет медленные операции ввода/вывода быстрыми циклами процессора через агрессивное сжатие Используют свойства данных такие как сортировка Может работать без первичного раскодирования можно позднее Работает на больших объемах чисел и строк Интеллектуальное раскодирование как Механизм раскодирования Transaction Date Customer ID Trade 5/05/2009, 5/05/200916 0000001 0000001 0 0000001 2 0000003 2 0000003 4 0000005 10 10 0000011 19 0000011 25 0000020 49 0000026 0000050 0000051 0000052 100.25 .25 1 100.50 2 100.75 3 1 100.25 3 100.75 4 101.00 5 3 101.25 5 100.75 3 101.25 100.75 100.00 100.50 5/05/2009 5/05/2009 5/05/2009 5/05/2009 5/05/2009 5/05/2009 5/05/2009 5/05/2009 Несколько значений Отсортировано RLE 11 Много значений Целое Может быть отсортировано DeltaVal Множество других… Раскодирование на лету Диск: Кодирование + Сжатие 100 Буфер: Только распаковка Engine: Раскодиров ание блоков Много значений Отсортирован о Раскодированны й результат Просто во время GCD © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Сырые Сжатые данные Сеть: Раскодированны е блоки + возможно использование LZO Кластеризация (MPP) 12 Кластерная сеть Внешняя сеть Горизонтальное масштабирование, массовая параллельная обработка 100% пиринговая сеть – нет блокировок Нет специализированных узлов Загрузка данных и запросы на любом узле Линейная масштабируемость Больше кластер = больше места для данных + выше производительность Автоматическая репликация и восстановление после сбоев © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Автоматизированный дизайн и Администрирование Vertica Database Designer рекомендован для наилучшей оптимизации дизайна БД Оптимизация для потребностей пользовательских запросов Минимизация усилий администраторов БД затрачиваемых на физический дизайн БД Запуск и работа дизайнера БД в режиме ONLINE без влияния на текущую обработку Администраторы БД > Логическую схему Создание таблиц > “Тестовый набор” Типичные запросы Примеры данных БД дизайнер создает > Физическую схему для: Выполнения запросов в тестовом наборе быстро Подходит для плавной загрузки требований Уверенность в том, что все SQL запросы могут быть отвечены A B C Уровень защиты от сбоев (A B C | A) k-safety © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. B A C > 13 (B A C | B A) Native High Availability Функциональность как у RAID внутри БД Проекции распределены по по ячейкам для отказоустойчивости Нет нужны в ручном восстановлении на основе логов Vertica продолжает загрузку данных и исполнение запросов даже когда один из узлов не доступен Пропавшие данные восстанавливаются с оставшихся узлов кластера Vertica Кластер из трех узлов Узел 2 Узел 1 14 Узел 3 B2 A2 C2 B1 A1 C1 B3 A3 C3 A3 B3 C3 A2 B2 C2 A1 B1 C1 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Стандартный интерфейс на основе SQL Vertica поддерживает ANSI SQL-99 plus Analytics для минимизации интеграционных затрат существующими инструментами BI и ETL ANSI SQL-99 +Analytics Простая интеграция Vertica’s Hadoop Connector Массовая и поточная загрузка SQL, ODBC, JDBC Коннекторы БД для JDBC ETL, Replication, Data Quality ODBC ADO.NET 15 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 1 HP Confidential Analytics, Reporting Платформа Vertica •Процессоры x86-64 (Intel/AMD) •Хранилище: SAS, SATA, SAN и SSD •Gigabit Ethernet Backbone •Linux – – – – Red Hat Enterprise Linux SUSE Debian CentOS Пример HP/Vertica > HP c7000 > Загрузка и запросы в реальном времени > 100-250x (ср.) быстрее запросы > Масштабируемо (просто добавьте лезвие) > Строенная высокая доступность > Прямо из коробки интеграция с ETL и сервисами отчетности •Не требуется дополнительных затрат на лицензии при увеличении аппаратной платформы 16 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 1 HP Confidential Заказчики © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 360+ Заказчиков и продолжает расти 18 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 1 HP Confidential Спасибо © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.