Система мониторинга «ПУЛЬС» Краткое описание Система мониторинга «ПУЛЬС» (далее СМ «ПУЛЬС») разработана в ОАО «РТКомм.РУ» с целью обеспечения мониторинга качества предоставляемых услуг виртуальных частных сетей (ВЧС) на базе сети IP/MPLS и предоставления Заказчикам средств контроля. СМ «ПУЛЬС» обеспечивает мониторинг доступности оборудования и параметров качества состояния сети. В работе СМ «ПУЛЬС» используется технология IP SLA, обеспечивающей оценку количественных показателей качества передачи трафика между двумя сетевыми устройствами. При этом используется программный агент, встроенный в операционную систему Cisco IOS. СМ «ПУЛЬС» отслеживает такие параметры как - доступность, загрузка интерфейсов, загрузка процессора, загрузка памяти, задержка, вариация задержки (джиттер), процент потерянных пакетов – для оборудования Cisco - доступность, загрузка интерфейсов, загрузка процессора, загрузка памяти – для оборудования Cisco и Juniper. Использование СМ «ПУЛЬС» обеспечивает непрерывный контроль параметров качества предоставления виртуальных частных сетей (VPN), что позволяет постоянно поддерживать высокий уровень обслуживания за счет своевременного обнаружения превышения пороговых значений параметров передачи трафика и предотвращения возможных проблем еще на стадии их возникновения. СМ «ПУЛЬС» имеет сертификат № ОС-3-СУ-0225 от 29.09.2010г. соответствия «Правилам применения оборудования автоматизированных систем управления и мониторинга сетей электросвязи. Часть III. Правила применения оборудования автоматизированных систем управления и мониторинга средств связи, выполняющих функции систем коммутации и маршрутизации пакетов информации», утв. приказом Министерства связи и массовых коммуникаций Российской Федерации от 12.01.2009 г., № 2. Зарегистрирован в Минюсте России 2 февраля 2009 г., регистрационный № 13240». СМ «ПУЛЬС» состоит из нескольких функциональных блоков: 1. Система сбора статистики, первичной обработки и сигнализации (далее Станция мониторинга); 2. Интерактивная контрольная панель центра управления сети (далее Пульт); 3. Система контроля и управления проектом (СКУП). 1. Станция мониторинга Станция мониторинга отвечает за сбор метрик, прием и предварительную обработку событий, оповещение служб эксплуатации в случае выхода какого либо из контролируемых параметров за установленные предельные значения. Имеет возможности ассоциации событий с конкретным объектом, трансляции события с одного объекта на другой и механизмы базовой корреляции событий. Станция мониторинга обеспечивает мониторинг доступности и сбор SNMP статистики для любой ВЧС Заказчика. В частности обеспечивается: сбор статистики с портов коммутаторов, маршрутизаторов; сбор и предоставление загрузки порта согласно профилю (cbqos); автоматизированное построение конфигурации для большинства устройств; поддержка расписания запланированного прекращения сервиса “planned outage”. В эти моменты устройства не опрашиваются и события недоступности не создаются. Для устройств Сisco собирается большинство параметров содержащихся в базе CISCO-RTTMON-MIB. При конфигурировании пределов” (thresholds) функционирует гибкая фильтрация по “admin tag”. Станция мониторинга обеспечивает обработку и фильтрацию событий поступающих с любых устройств, поддерживающих SNMP traps, syslog. К ним относится большинство типовых событий для устройств Cisco, Juniper и т.д. Событие “привязывается” к конкретному объекту. Возможна фильтрация как по oid (SNMP), так и с помощью регулярных выражений (regex) для syslog. Станция мониторинга позволяет осуществлять гибкую настройку «пределов измерений» (thresholds), которые могут устанавливаться на любые данные, собранные опросом SNMP: пределы (thresholds) могут быть относительные, абсолютные и с применением математических выражений (expression based); для всех типов возможна гибкая фильтрация с помощью регулярных выражений (regex); возможно создание собственных уникальных типов событий, что позволяет гибко управлять уровнями и эскалацией. Станция мониторинга имеет развитую систему уведомлений пользователей о происходящих событиях. Основным способом уведомлений является отправка e-mailсообщений пользователю, но существует и ряд других методов, например, отправка POST/GET-запросов на веб-сервер, отправка уведомлений по протоколу XMPP (jabber), пересылка уведомлений посредством запуска внешней программы (подобным образом можно отправить SMS-сообщение с помощью GSM-модема) и уведомления с помощью формирования SNMP traps. Существует возможность гибкой настройки извещений (notices: email, sms, sound) при обработке событий (traps, syslog) и срабатывании thresholds: извещения могут быть с требованием подтверждения и с автоматическим подтверждением; для каждого события и для группы событий могут быть созданы собственные типы извещений с различным приоритетом; извещения могут быть адресованы как сотруднику, так и группе сотрудников; существует функция расписания (сотруднику не отправляется извещение, если в данный момент он не в смене); имеется развитая система эскалации. Если оператор не подтвердил получение извещения, приоритет может быть повышен и извещение будет эскалировано на назначенную группу или сотрудника. Основные компоненты станции мониторинга: Poller - опрос сервисов на объекте ICMP (доступность), HTTP, FTP и т.д.; Collectd - сбор метрик с устройств доступных по SNMP; Threshd - контроль пороговых значений для собираемых метрик; Eventd - сбор аварийных сообщений с устройств (SNMP traps); Syslogd - сбор сообщений с устройств по протоколу syslog; Notifd - механизм оповещения о событиях, по различным протоколам smtp, sms; Discovery/capsd - механизм автоматического нахождения устройств сети и описания их конфигурации. Оборудование Станции мониторинга. Физический сервер(ы) - сервер под управлением ОС Solaris, сетевые интерфейсы которого подключены к портам коммутатора РТКОММ в режиме trunk. На сервере сконфигурированы виртуальные машины (VM), в которые экспортированы виртуальные сетевые интерфейсы (vnic), принадлежащие определенному vlan. Такое разделение необходимо, так как внутри ВЧС Заказчиков встречается пересекающаяся адресация. В каждой VM функционирует отдельный экземпляр станции мониторинга. Система хранения - дисковый массив, включенный в Storage Area Network (SAN) РТКОММ, доступ к которому имеют как экземпляры станции мониторинга, так и сервер приложений, на котором функционируют порталы (web frontend). На массиве расположен архив SNMP статистики в виде rrd (jrd) файлов. 2. Интерактивная контрольная панель Пульт Пульт - инструмент визуализации состояния контролируемых объектов. Позволяет осуществлять контроль неподтвержденных или необработанных оператором событий. Содержит механизм принятия в работу, закрепления за оператором произошедшего и квалифицированного как аварийное событие. Имеет средства быстрого перехода в карточку объекта, из которой возможны: контроль произошедших ранее событий; первичная диагностика; открытие Trouble Ticket (TT), привязанного к данному объекту; создание календаря запланированных работ для исключения ложных событий; создание необходимых комментариев по данному объекту для сотрудников NOC. Пульт предоставляет следующие возможности: отображать состояние объектов, превышения контрольных значений, аварийных событий и т.д. с использованием web-технологий, не требующих установки специального ПО (достаточно обычного браузера); группировать объекты по заранее описанным правилам. Группировка может задаваться иерархически (в виде дерева); регистрировать комментарии по объектам; подтверждать нежелательное событие при приеме его в работу; открывать запланированный отказ сервиса или отключать уведомления и проверку контрольных пределов. Одним из ключевых компонентов Пульта является подсистема Минидеск (MiniDesk). Минидеск - это область пульта на которую выводятся данные по объекту, основные события для обработки, требуемые графики, а также кнопки вызова основных диагностических инструментов. Минидеск имеет механизмы открытия ТТ с привязкой к объекту, а также получения требуемой информации по ним. Ссылка на Минидеск может быть передана в письме, sms и других видах оповещений. 3. Система контроля и управления проектом (СКУП) СКУП является источником данных по сетевой и административной части проекта. Объекты для контроля создаются в Станции мониторинга автоматически согласно адресному плану ВЧС. В случае изменений в СКУП они синхронизируются автоматически. В свою очередь Станция мониторинга предоставляет в СКУП данные о результатах мониторинга, перерывах сервиса и прочих событиях. Синхронизация в обоих направления работает непрерывно. СКУП предоставляет возможность всем заинтересованным своевременно получать возникающих проблемах и их решении. информацию о состоянии проекта, СКУП отвечает за описание активов проекта (asset info), таких как: оборудование Заказчика, использованные ресурсы РТКОММ и их конфигурация; контакты Заказчика, РТКОММ, субподрядчика и т.д.; параметры контракта; топология сети Заказчика; комментарии менеджера, Заказчика, РТКОММ, субподрядчика и т.д. дополнительные параметры специфичные для проекта; календарь запланированных событий отсутствия сервиса; хранение ресурсов (результатов измерений) необходимых для построения исторических отчетов. Центральная база данных, содержит информацию о проекте, данные об активах (asset info), топологию ВЧС, данные о последней миле и операторе. Формирует конфигурацию объектов в ВЧC для каждого экземпляра станции мониторинга. Наполнение портала происходит по мере согласования проекта на этапе заключения контракта посредством выгрузки универсального шаблона в формат Excel. После его заполнения и подписания контракта данные загружаются в портал через универсальный механизм обмена. Дальнейшая работа по проекту осуществляется через интерфейс портала. Интеграция. Из СКУП в Станцию мониторинга автоматически реплицируются данные об объектах (asset info). Из Станции мониторинга в СКУП принимается информация о текущем состоянии объектов и событиях. Имеется возможность заполнения информации об активах проекта по ссылкам на заказы из автоматизированной системы управления заказами (OMS). Основные функции СКУП: предоставление менеджеру, Заказчику и ЦУС РТКОММ данных о текущем состоянии проекта и интерфейса для их изменения; универсальный экспорт/импорт в форматы CSV, Excel, параметров требующих массовых изменений; репликация asset info в соответствующий экземпляр станции мониторинга; получение данных о состоянии контролируемых объектов и их параметрах; ограниченное управление устройствами, участвующими в контроле параметров качества (SLA), создание проб; отображение и учет ТТ, соответствующего данному объекту в случае наличия такового; ведение календаря плановых событий отсутствия сервиса, со стороны Заказчика и РТКОММ. Web-интерфейс СКУП. Web-интерфейс СКУП предоставляет доступ Заказчику к информации о своей ВЧС: активы, конфигурация, адресный план, топология и т.д. Также предоставляется доступ к результатам мониторинга доступности и параметров качества, привязанным к объектам. Имеется возможность генерации различных настраиваемых отчетов и получение детализации по загрузке и параметрам качества (IP SLA). Блок отчетности. Блок отчетности предназначен для предоставления отчетов по текущему состоянию и историческим срезам ВЧС Заказчика как на участке опорной сети, так и на “последней миле”. Данный компонент имеет доступ к необработанной статистике соответствующего экземпляра Станции мониторинга, но имеет возможность накладывать сформированную бизнес логику, для агрегирования событий, математической обработки метрик, вычисления корреляции и т.д. Данный блок включает в себя три механизма отчетов: фиксированный, интерактивный и графическое отображение состояния. Фиксированные отчеты. Такими видами отчетов являются наиболее часто используемые виды отчетов. Они имеют заранее согласованный формат и следующие возможности: устанавливать отчетные периоды: сутки, неделя, месяц, квартал, год; формировать отчеты в наиболее распространенных форматах: HTML, Excel, PDF; отправлять отчеты по расписанию (как менеджеру РТКОММ, так и Заказчику); Интерактивные отчеты. Данные виды отчетов позволяют пользователю самостоятельно формировать запрос по всем необходимым из имеющихся данных по заданному объекту или группе объектов, “подсвечивать” определенные комбинации и группировать вывод по требуемым правилам. Графическое отображение. Позволяет в удобном виде контролировать изменение состояния ВЧС и ее объектов за указанный период (по умолчанию 24 часа). Возможен переход в детализированную статистику выбранного объекта. Объекты могут быть сгруппированы по Федеральным округам, Регионам, Городам или по дополнительным специфичным признакам.