Мониторинг от VMware – Максимум эффективности

advertisement
Мониторинг от VMware – Максимум
эффективности, предсказуемости и
прозрачности вашего ИТ.
Евгений Гарбузов
Консультант по решениям VMware
© 2014 VMware Inc. All rights reserved.
Программа
§  Что такое VMware vRealize Operations
Ø  «Правильные» инструменты мониторинга
Ø  Оценка текущего состояния
инфраструктуры
Ø  Прогнозирование и анализ рисков
Ø  Повышение эффективности и определение
возможностей оптимизации
§  Расширенный мониторинг и примеры внедрений
§  vRealize Log Insight
2
vRealize Operations vs. vCenter Server
vCenter Server
vRealize Operations Management
Мониторинг инфраструктуры нужен разный!
3
vRealize Operations Manager vs. vCenter Server
vRealize Operations Manager
•  Собирает данные из vCenter Server и
предоставляет простой обзор,
глубокий анализ проблем и анализ
рисков, состояния инфраструктуры и
прогноз её развития
vSphere vCenter Server
vCenter Server
•  vCenter Server собирает метрики с
хостов в режиме реального времени
•  vCenter Server хранит данные в БД
vCenter и позволяет просмотреть
историю этих данных
Тысячи датчиков и всего три суперметрики
Быстрая локализация
проблем
Точный прогноз потребления
Поддержка высокой
эффективности
«Правильные» инструменты
мониторинга
6
Много данных, но мало информации
?
Решение проблемы – динамические пороги
GRAY BAR Upper and Lower band of Dynamic Threshold -­‐ “Normal” BLUE LINE Metric’s Current Value RED BAR Breached Dynamic Threshold – “Abnormal” vRealize Operations:
§  Изучает нормальное поведение приложений в динамике
§  Устраняет ложные срабатывания
§  Выявляет аномалии в поведении системы
§  Генерирует оптимальный показатель здоровья
Самообучающаяся система помогает принять
правильное решение
Вал сообщений
Smart Alert 1
• 
Динамичные пороги
• 
Статичные пороги
• 
Фокус на проблемах
• 
Фокус на симптомах
• 
Сокращение кол-ва
• 
Сотни сообщений
сообщений в десятки раз
Проблема – это всегда несколько
сиптомов
Традиционный мониторинг
Smart Alert 2
Smart Alert 3
Smart Alert 4
Проактивная аналитика
9
Интегрированные рекомендации по устранению проблем
Добавляем автоматизацию
Добавляем действие через vRealize
Orchestrator или Python
Создаем алерт, комбинируя аналитику и
симптомы
11
Оценка текущего состояния
инфраструктуры
Health
12
HEALTH: индикатор оценки текущего состояния
Health («Работоспособность») — это сочетание показателей состояния рабочих
нагрузок, аномалий и сбоев. Этот индикатор сообщает администраторам о появлении
проблем, связанных с обслуживанием и требующих немедленного разрешения.
§  Workload («Рабочая нагрузка») —
дополнительный индикатор
•  Сравнение спроса на ресурсы с эффективностью их использования
•  Низкие значения лучше: объекту не требуются дополнительные
ресурсы
•  Мониторинг ЦП, памяти, ввода-вывода дисков, ввода-вывода сети
§  Anomalies («Аномалии») — дополнительный
индикатор
•  Измерение отклонений величин от их штатных диапазонов,
которые определяются в процессе самообучения
•  Низкие значения лучше: меньше вероятность возникновения
проблем
§  Faults («Сбои») — дополнительный индикатор
•  Проблемы, связанные с неполадками оборудования, снижением
доступности и т. д.
•  Низкие значения лучше: число проблем меньше
Вся инфраструктура на одном экране:
быстрая локализация проблем
Прогнозирование и анализ рисков
Risk
15
RISK: индикатор для отслеживания возможных проблем
Risk («Риски») — это сочетание показателей состояния оставшегося времени,
оставшихся ресурсов и нагрузки. Этот индикатор сообщает администраторам
о возможных проблемах.
§  Time remaining («Оставшееся время») —
дополнительный индикатор
•  Время до возникновения нехватки ресурсов
•  Высокие значения лучше: ресурсов достаточно
§  Capacity remaining («Оставшиеся ресурсы») —
дополнительный индикатор
•  Число новых ВМ, которые можно запустить с имеющимися
ресурсами
•  Высокие значения лучше: не требуется немедленно выделять
дополнительные ресурсы
§  Stress («Нагрузка») — дополнительный
индикатор
•  Модели долгосрочной или хронической перегрузки
•  Низкие значения лучше: ресурсы не ограничены
Повышение эффективности и
определение возможностей
оптимизации
Efficiency
17
EFFICIENCY: индикатор для анализа возможностей
оптимизации
Эффективность
Efficiency («Эффективность») — это сочетание показателей состояния потерь
и плотности. Этот индикатор сообщает о возможностях экономии и повышения
эффективности использования ресурсов.
§  Waste («Потери») — дополнительный индикатор
•  Показатель устранимых потерь, например бездействующих
и избыточных ресурсов
•  Низкие значения лучше: меньше потерь
•  Оценка объемов памяти и дискового пространства, а также ресурсов
ЦП
§  Density («Плотность») — дополнительный
индикатор
•  Сравнение текущих и оптимальных коэффициентов консолидации
ВМ, ЦП и памяти
•  Высокие значения лучше: эффективное использование без ущерба
производительности
Расширенный мониторинг
19
Гетерогенное решение
Сеть
NSX
Brocade
Arista
KEMP
Хранилища
VSAN
ISCSI
NFS
OpenStack
Hosts, NSX,
Controllers
vCloud Air
Cloud, Region
VDC, vApp, VM
Cloud Type
20
vRealize Operations:
интеграция со сторонними системами
21
Зонтичный мониторинг всех элементов ИТ-инфраструктуры
интегрированный с vROps
§  Зонтичный мониторинг любых
приложений, ОС и оборудования
§  Мониторинг многоуровневых
Screenshot(s) and/or diagram
приложений на основе анализа
доступности сервисов
§  Управление сервисами прямо из
интерфейса Hyperic
§  Интеграция данных в интерфейс
vCenter Operations
Десятки готовых плагинов
Пример: интеграция с СУБД и СХД
1
2
Предупреждение:
Oracle тормозит!
Check LUN Details
(Storage)
Задержки обращения к
базе выше нормы
Проблемы
производительности на
ВМ с Oracle
Высокие I/O
IO OUTSTANDING
DISK IO
Здоровье LUN в красной
зоне
LUNS
4
3
Check
VNX | Target HBA Resets
Слишком высокая нагрузка
HBA на СХД
Здоровье контроллера
SP-A в красной зоне
(870/1024)
Отслеживание конфигураций и
политик безопасности
25
Контроль соблюдения политик и стандартов безопасности
§  Контроль соответствия политикам
безопасности:
•  VMware Hardening Guide
•  PCI DSS, HIPAA, SOX
§  Контроль конфигураций
§  Управление патчами
§  Развертывание ОС
§  Поддержка:
Строим связь между изменением и здоровьем
Установлено новое ПО –
увеличилась нагрузка
Контроль соблюдения политик безопасности
Видим несоответствие
заданному стандарту
Какому стандарту? vSphere
Security Hardening Guide
Принимаем необходимые меры из интерфейса
Configuration Manager
Реальные примеры и
результаты использования
29
vRealize Operations в Топ-4 телеком операторе
•  Предпосылки:
–  Публичное облако с разными профилями нагрузки
–  Необходимость обеспечить работу 24х7 для множества инфраструктурных приложений и
приложений клиентов
•  Инфраструктура:
–  Более 5000 ВМ в 11 распределенных ЦОД
•  Решение:
–  Внедрить единую систему мониторинга на базе vRealize Operations Management Suite
•  Преимущества:
–  Мониторинг всех сервисов «от приложения до диска» из единого окна
vRealize Operations в крупнейшем нефтехимическом
холдинге России 1
•  Предпосылки:
–  Виртуальная среда (ВС), де-факто, стандарт развертывания сервисов в компании
–  Необходимо разработать, внедрить и поддерживать соблюдение единых стандартов работы и
качества сервисов в ВС
–  В Москве исторически сосредоточены основные ресурсы партнеров и вендоров, способные
оперативно оказывать поддержку по работе ВС
–  Территориальная распределенность
•  Инфраструктура:
–  > 20 предприятий по всей России, около 100 хостов, около 1000 ВМ
–  27 ЦОД
–  1 высококвалифицированный администратор vSphere
vRealize Operations в крупнейшем нефтехимическом
холдинге России 2
•  Решение:
–  Объединить все точки управления ВС в единую систему на базе vCenter Single-Sign-On (SSO)
–  Включить все ВС в единую систему мониторинга на базе vRealize Operations Manager (vROps)
•  Преимущества:
–  Централизованный контроль доступа пользователей к ВС
–  Централизованный контроль работоспособности всех ВС холдинга
–  Возможность оперативной поддержки работы любых ВС холдинга
–  Контроль соблюдения стандартов и политик работы ВС из единой точки
–  Возможность прогнозирования и получения отчетности о потреблении ресурсов для
инфраструктуры в целом
vRealize Log Insight
Поиск причин неисправностей с помощью анализа логов
33
Все имеет файлы журналов
ОС и
приложения
vSphere
Железо
Анализ всей информации в одном месте
Анализ всей информации в одном месте
Content Packs для Log Insight
Что нужно сделать уже сегодня
•  Скачать триальные лицензии
–  www.vmware.com/go/try-vcenter-ops
–  Выполнить лабу VMware Hands-on-Labs Online
–  http://labs.hol.vmware.com/
–  HOL-SDC-1601 Cloud Management with vRealize Operations Insight
Спасибо за внимание!
Евгений Гарбузов
egarbuzov@vmware.com
Масштабируемая и отказоустойчивая scaleout архитектура
Scaleout
40
Примеры использования
Выявление причин неисправности
•  Локализуем проблему с помощью суперметрик vROps, находим метрику, являющуюся
первопричиной
•  Переходим в интерфейс Log Insight соответствующий затронутому элементу и
анализируем логи
Выявление взаимозависимостей путем анализа логов
•  Все логи собраны в одном месте => анализируем взаимное влияние событий из разных
систем
Также осуществляем мониторинг бизнес-процессов
Аудит событий безопасности
Прогнозирование потребления ресурсов
Управление
ресурсами
Видим, что потребуется больше
ресурсов
Добавляем новые ВМ из состава
приложения
Используем существующий
профиль нагрузки для расчета
потребления ресурсов
Сценарии поведения системы после внесения
изменений!
42
Почему наш продукт действительно полезен?
Неисправности и проблемы производительности vSphere видны сразу
после установки
Окно для мониторинга бизнес-сервисов и всех его компонентов «от
приложения до диска»
Система обучается сама и не сообщает лишней информации
Это набор инструментов для сайзинга и планирования
Вы сразу видите простаивающие ресурсы
Новые возможности для «традиционных» систем мониторинга
Download