Мониторинг от VMware – Максимум эффективности, предсказуемости и прозрачности вашего ИТ. Евгений Гарбузов Консультант по решениям VMware © 2014 VMware Inc. All rights reserved. Программа § Что такое VMware vRealize Operations Ø «Правильные» инструменты мониторинга Ø Оценка текущего состояния инфраструктуры Ø Прогнозирование и анализ рисков Ø Повышение эффективности и определение возможностей оптимизации § Расширенный мониторинг и примеры внедрений § vRealize Log Insight 2 vRealize Operations vs. vCenter Server vCenter Server vRealize Operations Management Мониторинг инфраструктуры нужен разный! 3 vRealize Operations Manager vs. vCenter Server vRealize Operations Manager • Собирает данные из vCenter Server и предоставляет простой обзор, глубокий анализ проблем и анализ рисков, состояния инфраструктуры и прогноз её развития vSphere vCenter Server vCenter Server • vCenter Server собирает метрики с хостов в режиме реального времени • vCenter Server хранит данные в БД vCenter и позволяет просмотреть историю этих данных Тысячи датчиков и всего три суперметрики Быстрая локализация проблем Точный прогноз потребления Поддержка высокой эффективности «Правильные» инструменты мониторинга 6 Много данных, но мало информации ? Решение проблемы – динамические пороги GRAY BAR Upper and Lower band of Dynamic Threshold -­‐ “Normal” BLUE LINE Metric’s Current Value RED BAR Breached Dynamic Threshold – “Abnormal” vRealize Operations: § Изучает нормальное поведение приложений в динамике § Устраняет ложные срабатывания § Выявляет аномалии в поведении системы § Генерирует оптимальный показатель здоровья Самообучающаяся система помогает принять правильное решение Вал сообщений Smart Alert 1 • Динамичные пороги • Статичные пороги • Фокус на проблемах • Фокус на симптомах • Сокращение кол-ва • Сотни сообщений сообщений в десятки раз Проблема – это всегда несколько сиптомов Традиционный мониторинг Smart Alert 2 Smart Alert 3 Smart Alert 4 Проактивная аналитика 9 Интегрированные рекомендации по устранению проблем Добавляем автоматизацию Добавляем действие через vRealize Orchestrator или Python Создаем алерт, комбинируя аналитику и симптомы 11 Оценка текущего состояния инфраструктуры Health 12 HEALTH: индикатор оценки текущего состояния Health («Работоспособность») — это сочетание показателей состояния рабочих нагрузок, аномалий и сбоев. Этот индикатор сообщает администраторам о появлении проблем, связанных с обслуживанием и требующих немедленного разрешения. § Workload («Рабочая нагрузка») — дополнительный индикатор • Сравнение спроса на ресурсы с эффективностью их использования • Низкие значения лучше: объекту не требуются дополнительные ресурсы • Мониторинг ЦП, памяти, ввода-вывода дисков, ввода-вывода сети § Anomalies («Аномалии») — дополнительный индикатор • Измерение отклонений величин от их штатных диапазонов, которые определяются в процессе самообучения • Низкие значения лучше: меньше вероятность возникновения проблем § Faults («Сбои») — дополнительный индикатор • Проблемы, связанные с неполадками оборудования, снижением доступности и т. д. • Низкие значения лучше: число проблем меньше Вся инфраструктура на одном экране: быстрая локализация проблем Прогнозирование и анализ рисков Risk 15 RISK: индикатор для отслеживания возможных проблем Risk («Риски») — это сочетание показателей состояния оставшегося времени, оставшихся ресурсов и нагрузки. Этот индикатор сообщает администраторам о возможных проблемах. § Time remaining («Оставшееся время») — дополнительный индикатор • Время до возникновения нехватки ресурсов • Высокие значения лучше: ресурсов достаточно § Capacity remaining («Оставшиеся ресурсы») — дополнительный индикатор • Число новых ВМ, которые можно запустить с имеющимися ресурсами • Высокие значения лучше: не требуется немедленно выделять дополнительные ресурсы § Stress («Нагрузка») — дополнительный индикатор • Модели долгосрочной или хронической перегрузки • Низкие значения лучше: ресурсы не ограничены Повышение эффективности и определение возможностей оптимизации Efficiency 17 EFFICIENCY: индикатор для анализа возможностей оптимизации Эффективность Efficiency («Эффективность») — это сочетание показателей состояния потерь и плотности. Этот индикатор сообщает о возможностях экономии и повышения эффективности использования ресурсов. § Waste («Потери») — дополнительный индикатор • Показатель устранимых потерь, например бездействующих и избыточных ресурсов • Низкие значения лучше: меньше потерь • Оценка объемов памяти и дискового пространства, а также ресурсов ЦП § Density («Плотность») — дополнительный индикатор • Сравнение текущих и оптимальных коэффициентов консолидации ВМ, ЦП и памяти • Высокие значения лучше: эффективное использование без ущерба производительности Расширенный мониторинг 19 Гетерогенное решение Сеть NSX Brocade Arista KEMP Хранилища VSAN ISCSI NFS OpenStack Hosts, NSX, Controllers vCloud Air Cloud, Region VDC, vApp, VM Cloud Type 20 vRealize Operations: интеграция со сторонними системами 21 Зонтичный мониторинг всех элементов ИТ-инфраструктуры интегрированный с vROps § Зонтичный мониторинг любых приложений, ОС и оборудования § Мониторинг многоуровневых Screenshot(s) and/or diagram приложений на основе анализа доступности сервисов § Управление сервисами прямо из интерфейса Hyperic § Интеграция данных в интерфейс vCenter Operations Десятки готовых плагинов Пример: интеграция с СУБД и СХД 1 2 Предупреждение: Oracle тормозит! Check LUN Details (Storage) Задержки обращения к базе выше нормы Проблемы производительности на ВМ с Oracle Высокие I/O IO OUTSTANDING DISK IO Здоровье LUN в красной зоне LUNS 4 3 Check VNX | Target HBA Resets Слишком высокая нагрузка HBA на СХД Здоровье контроллера SP-A в красной зоне (870/1024) Отслеживание конфигураций и политик безопасности 25 Контроль соблюдения политик и стандартов безопасности § Контроль соответствия политикам безопасности: • VMware Hardening Guide • PCI DSS, HIPAA, SOX § Контроль конфигураций § Управление патчами § Развертывание ОС § Поддержка: Строим связь между изменением и здоровьем Установлено новое ПО – увеличилась нагрузка Контроль соблюдения политик безопасности Видим несоответствие заданному стандарту Какому стандарту? vSphere Security Hardening Guide Принимаем необходимые меры из интерфейса Configuration Manager Реальные примеры и результаты использования 29 vRealize Operations в Топ-4 телеком операторе • Предпосылки: – Публичное облако с разными профилями нагрузки – Необходимость обеспечить работу 24х7 для множества инфраструктурных приложений и приложений клиентов • Инфраструктура: – Более 5000 ВМ в 11 распределенных ЦОД • Решение: – Внедрить единую систему мониторинга на базе vRealize Operations Management Suite • Преимущества: – Мониторинг всех сервисов «от приложения до диска» из единого окна vRealize Operations в крупнейшем нефтехимическом холдинге России 1 • Предпосылки: – Виртуальная среда (ВС), де-факто, стандарт развертывания сервисов в компании – Необходимо разработать, внедрить и поддерживать соблюдение единых стандартов работы и качества сервисов в ВС – В Москве исторически сосредоточены основные ресурсы партнеров и вендоров, способные оперативно оказывать поддержку по работе ВС – Территориальная распределенность • Инфраструктура: – > 20 предприятий по всей России, около 100 хостов, около 1000 ВМ – 27 ЦОД – 1 высококвалифицированный администратор vSphere vRealize Operations в крупнейшем нефтехимическом холдинге России 2 • Решение: – Объединить все точки управления ВС в единую систему на базе vCenter Single-Sign-On (SSO) – Включить все ВС в единую систему мониторинга на базе vRealize Operations Manager (vROps) • Преимущества: – Централизованный контроль доступа пользователей к ВС – Централизованный контроль работоспособности всех ВС холдинга – Возможность оперативной поддержки работы любых ВС холдинга – Контроль соблюдения стандартов и политик работы ВС из единой точки – Возможность прогнозирования и получения отчетности о потреблении ресурсов для инфраструктуры в целом vRealize Log Insight Поиск причин неисправностей с помощью анализа логов 33 Все имеет файлы журналов ОС и приложения vSphere Железо Анализ всей информации в одном месте Анализ всей информации в одном месте Content Packs для Log Insight Что нужно сделать уже сегодня • Скачать триальные лицензии – www.vmware.com/go/try-vcenter-ops – Выполнить лабу VMware Hands-on-Labs Online – http://labs.hol.vmware.com/ – HOL-SDC-1601 Cloud Management with vRealize Operations Insight Спасибо за внимание! Евгений Гарбузов [email protected] Масштабируемая и отказоустойчивая scaleout архитектура Scaleout 40 Примеры использования Выявление причин неисправности • Локализуем проблему с помощью суперметрик vROps, находим метрику, являющуюся первопричиной • Переходим в интерфейс Log Insight соответствующий затронутому элементу и анализируем логи Выявление взаимозависимостей путем анализа логов • Все логи собраны в одном месте => анализируем взаимное влияние событий из разных систем Также осуществляем мониторинг бизнес-процессов Аудит событий безопасности Прогнозирование потребления ресурсов Управление ресурсами Видим, что потребуется больше ресурсов Добавляем новые ВМ из состава приложения Используем существующий профиль нагрузки для расчета потребления ресурсов Сценарии поведения системы после внесения изменений! 42 Почему наш продукт действительно полезен? Неисправности и проблемы производительности vSphere видны сразу после установки Окно для мониторинга бизнес-сервисов и всех его компонентов «от приложения до диска» Система обучается сама и не сообщает лишней информации Это набор инструментов для сайзинга и планирования Вы сразу видите простаивающие ресурсы Новые возможности для «традиционных» систем мониторинга