DRP example

advertisement
ЗАО « Мерлин Инк»
Восстановление сервиса MERLIN INC в случае сбоя (Disaster recovery plan)
Для внутреннего пользования ИТ службы
Автор
Версия
1.0
1.1
Дата
Цели документа:




сокращение времени простоя сервиса
сокращение возможного финансового ущерба
обучение персонала работе в чрезвычайных условиях
описание шагов для обеспечения быстрого восстановления
работоспособности системы
Роли участников
Номер
Название роли
Описание
Контактная информация
Обслуживающий персонал «Национальная Сервисная Компания»
Почтовый адрес
Имя
Должность
Название группы
Номер телефона
Группа A
vasy@example.ru
Заместитель
технического директора
Инженер технической
поддержки
Инженер технической
поддержки
Инженер технической
поддержки
+7 910 111 22 33
Группа A
Группа A
Контакты внешних подрядчиков
Поставщик
HP
Идентификатор
HP CarePack:
Телефон
Сервис и
поддержка
+7 (495)
797-3520 /
8-800-7003520
e-mail
Другое
http://h20000.www2.hp.com/bizsupport/TechSupport/ProductRoot.jsp?lang=ru&cc=ru
Вход на сайт:
U:
P:
Поддержка 8 x 5
Trendmicro
Atlassian
For your licenses that
have active software
maintenance, you have
access to the legendary
service of Atlassian's
Support Team – 24
hours a day, 5 days a
week at
support.atlassian.com.
Партнеры
как
http://atlassian.com/
Email:
Password:
itsm-group@example.ru
ЦОД Location 1.
Информация о площадках (контакты менеджера, дежурной смены ЦОД,
номера стоек, схема в VISIO для каждой площадки)
Location 1
Служба поддержки
Дежурный инженер
support@aaa.ru
support@aaa.ru
Вед. Спец. по работе с
клиентами
+7 (495)
+7 (495)
Офис: +7 (495) доб. 5555
Моб.
Номер стойки в ЦОД location 2 – H1B100
Номер стойки в ЦОД location 3– 2H1E000
Расположение серверов можно увидеть в файле VISIO.
Процедура регистрации и обработки сбоя
Рабочее время
В рабочее время администратор руководствуется регламентом по внесению изменений в систему.
Актуальная версия документа доступна по адресу
http://confluence.example.ru/pages/viewpage.action?pageId=4063871
Не рабочее время
В не рабочее время дежурный администратор руководствуется документом – порядок действий
дежурного
http://confluence.example.ru/pages/viewpage.action?pageId=5079724
Мониторинг
Актуальное состояние объектов инфраструктуры можно увидеть тут
http://192.168.20.61/welcome.htm
Доступ только через VPN. Для доступа к VPN нужно установить клиента (https://vpn.example.ru ) и
подключиться под учечтной записью EXAMPLE.
Резервные данные (бэкап)
Актуальны бэкап данных можно взять на сервере backup-02d, папка D:\sy-dedup-02
Процедура аварийного восстановления
Сервисы, подлежащие резервированию:
№
1
Название
Active directory
Приоритет
наивысший
Компоненты
2 контроллера
домена на
разных
площадках.
2
Процессинг
Example
наивысший
Прокси шлюз
для SOAP
запросов к
ядру.
Влияние
Обеспечивает
аутентификацию и
авторизацию для
всех бизнес
критичных сервисов,
включая процессинг.
92% оборота
компании.
Сервис необходимо
восстанавливать с
Ядро системы наивысшим
выполненное в приоритетом за
виде .net
минимальное время.
сервисов
БД MSSQL
3
Web витрина
высокий
Back Office
WEB сервер
БД PosGre
example.ru
5% оборота
компании.
Недоступность
виджетов у
партнеров
Неработоспособност
ь мобильного
приложения
4
Web витрина 1
средний
Партнер 1
5
Web витрина 2
Партнер 1
WEB сервер
БД PosGre
низкий
WEB сервер
БД PosGre
Имиджевые риски.
3,7% оборота
компании.
Имиджевые риски
Партнер 1
0,5% оборота
компании.
Имиджевые риски
Партнер 1
Active directory
В случае сбоя одного из контроллеров домена, необходимо перенастроить клиентские сервера на
работу с резеревным домен контроллером.
В случае если
- удалены часть записей и репликация обновила эту информацию на обоих домен контроллерах
- недоступны оба сервера
Необходимо произвести authoritative restore.
Актуальная инструкция доступна здесь http://support.microsoft.com/?kbid=840001
Или же, если нет доступа в Интернет, в документе.
WindowsServer2008
R2ADBackupandDisasterRecoveryProcedures_V3.0.pdf
На 08.10.2012 DNS сервера:
Name: example.ru - Addresses: 192.168.1.111, 192.168.20.100
Процессинг EXAMPLE
Web витрина example.ru
Тестирование по результатам восстановления.
Тест кейсы
После завершения работ по восстановлению того или иного сервиса, необходимо выполнить
соответствующий тест кейс.
Процессинг
Зависимые документы
Сервисы, подлежащие резервированию:
1. Web витрины (уровень критичности Mission Critical)
2. Процессинг (уровень критичности Mission Critical)
3. Service Desk (уровень критичности Business Critical)
Web витрины состоят из следующих модулей:
 Web сервер.
 Сервер БД.
Процессинг состоит из следующих модулей:




Прокси шлюз для SOAP запросов к ядру.
Ядро системы выполненное в виде .net сервисов
БД
Back Office
Service Desk система реализована в виде java приложения
работающего под управлением application сервера tomcat.
Модуль
Отметка о
выполнении
Описание
Примечания
Web витрины
Web сервер
Сервер БД
Резервируется с
помощью коммутаторов
приложений Alteon,
переключение в случае
недоступности web
сервера должно
происходить
автоматически.
Резервируется путем
холодного резерва, в
случае выхода из строя
основного сервера,
переключение
осуществляется путем
изменения настроек
конфигурационных
файлов. Для
www.example.ru это
/home/www/example.ru/
current/config/databases.
yml
Процессинг
Прокси шлюз для
SOAP запросов к
Резервируется путем
холодного резерва,
переключение
осуществляется путем
В ближайшее время планируется
переход на версию PostgeSQL 9.1.1
после перехода можно планировать
работы по построению
отказоустойчивого кластера
ядру
изменения наcтроек NAT
правила на Firewall
Ядро системы
Резервируется путем
холодного резерва,
переключение
осуществляется
изменением настроек в
конфигурационном
файле прокси шлюза, в
файле web.config для
всех интерфейсов
необходимо изменить в
разделе endpoint
значение поля address
БД
Резервируется путем
горячего резерва –
кластер собранный
средствами ОС Windows
2008 R2
Back Office
Резервируется путем
холодного резерва,
переключение
осуществляется путем
изменения наcтроек NAT
правила на Firewall
Service Desk
Service Desk
Резервируется путем
поднятия образа на
виртуальной машине,
затем изменением
правила Nat на Firewall
Проверка доступности:
Web витрины – убедиться, что сайты открываются, провести тестовый платеж.
Процессинг – провести тестовый платеж, в Back Office сделать фильтр по
платежам в статусе «Завершен», убедиться, что есть успешные платежи за
последние n минут.
Back Office – убедиться, что страница доступна, переход по пунктам меню не
вызывает сообщений «Сервис временно не доступен»
Service Desk – убедиться, что страница http://frontend-01.example.ru:8080
доступна.
1. Тестирование плана аварийного восстановления (пример)
Не
Элемент
Да Нет Применимо применимо Комментарии
Определите цель тестирования. Какие
характеристики плана будут
оцениваться?
Выберите критерии тестирования. Как
будет оцениваться эффективность
плана?
Разъясните менеджерам суть и цели
тестирования. Заручитесь их
согласием и поддержкой.
Проследите, что менеджеры объявили
персоналу о тестировании и об
ожидаемом времени выполнения
работ.
По окончании тестирования соберите
результаты.
Оцените результаты. Восстановление
выполнено успешно? Если нет, то
выясните причины.
Сделайте выводы на основе
результатов тестирования. Если
восстановление в простейшем случае
прошло успешно, значит ли это, что
все основные функции будут
восстановлены за приемлемое время?
Разработайте рекомендации по
изменению плана. Установите срок
выполнения рекомендаций.
Проинформируйте всех, кого могут
касаться результаты тестирования,
включая пользователей и службу
контроля.
Внесите необходимые изменения в
документацию по аварийному
восстановлению.
2. Информация об изменениях
Download