Управление данными (Data management) Михаил Красовский Oak Ridge National Laboratory Carbon Dioxide Information Analysis Center Managed by UT-Battelle for the Department of Energy Что происходит с данными? Amazon.com: в июле 1995 in Bellevue, Washington два сервера. Сегодня около 50 миллионов покупателей в месяц в США; 24 региональных центра - в северной Америке (10), Европе (10) и Азии (4) Wal-Mart: в 1962 году первый магазин в штате Арканзас, в 1968 первые магазины в других штатах. В 2005, Wal-Mart продает на $312.4 миллиардов, имеет около 6,200 магазинов по всему миру, 1.6 миллионов работников, крупнейший частный работодатель в мире. KamLAND: The Kamioka Liquid Scintillator Antineutrino Detector (Taoyama, Japan) - детектор частиц ; начал работать в январе 2002, в настоящее время поставляет около 200GB информации в день. LHC: The Large Hadron Collider (Geneva, CERN), будет запущен в этом году, ожидается поток в 15 петабайт (15 миллионов гигабайт) данных в год, около 41 террабайта в день 2 Managed by UT-Battelle for the Department of Energy Управление данными (Data management) Определения Data Resource Management is the development and execution of architectures, policies, practices and procedures that properly manage the full data lifecycle needs of an enterprise (DAMA - The Data Management Association International) Управление данными – набор процессов, обеспечивающих накопление, организацию, запоминание, обновление, хранение, обработку данных и поиск информации. 3 Managed by UT-Battelle for the Department of Energy Управление данными (Data management) Функции управления данными Руководство данными (Data Governance) Архитектура, анализ и дизайн данных (Data Architecture, Analysis & Design) Управление базами данных (Database Management) Безопасность данных (Data Security Management) Контроль качества данных (Data Quality Management) Управление мастер- и референц- данными (Reference and Master Data Management) Хранение и анализ данных (Data Warehousing & Business Intelligence) Управление данными вне БД (Document, Record & Content Management) Уравление метаданными (Metadata management) 4 Managed by UT-Battelle for the Department of Energy Presentation_name Руководство данными (Data Governance) Определение и распределение обязанностей (Roles & Organizations) Кто заказчики? Кто и за что отвечает внутри команды? Определение стандартов (Policies, Standards & Compliance) Выходные данные должены соответствовать вновь разработанному стандарту или внешнему заданному стандарту (метры, футы, доллары, рубли, мм ртутного столба, kPa) Методика работы с данными (Data Strategy) Все источники поставляют информацию в разных форматах. Как их привести к одному? Построение архитектуры данных (Architecture) Полный анализ взаимодействий между функциями организации или проекта, доступных технологий и типов данных. Определение конкретных данных (реальных, агрегатных или абстакций) с которыми идет работа (цена, артикул, годовой оборот, температура, средние величины и коэффициенты) Оценка активов данных (Data Assets Valuation) Какие-то агрегатные и средние могут уже быть Обмен информацией (Communications & Issue Management) Необходимое количество каналов коммуникации: (N * (N - 1) ) / 2. Для команды из 4 =6, для команды из 7 =21 5 Managed by UT-Battelle for the Department of Energy Presentation_name Архитектура, анализ и дизайн данных (Data Architecture, Analysis & Design) Построение концептуальной модели данных (Enterprise Data Modeling and Related Data Architecture) При концептуальном моделировании данных мы структуризируем и организуем данные на самом высоком уровне (био, метео, отдел кадров, маркетинг) Построение логической модели (Logical Modeling and Value Chain Analysis) Описание таблиц, полей, классов, структуры XML . Некоторые второстепенные параметры после преобразований и слияний с другими параметрами могут становится важными выходными данными, важно не потерять и не пропустить. Физическое моделирование (Physical Modeling) На каких серверах, на какой БД, языки програмирования, инструменты аналитики Стандартизирование модели (Modeling Standards) Управление моделью (Model Management) 6 Managed by UT-Battelle for the Department of Energy Presentation_name Управление базами данных (Database Management) Дизайн баз(ы) данных (DB Design) Внедрение БД (DB Implementation) Резервное копирование и восстановление (Backup & Recovery) Производительность и настройка (Performance & Recovery) Архивация и удаление (Archival & Purging) Управление технологией 7 Managed by UT-Battelle for the Department of Energy Presentation_name (Technology Management) Безопасность данных (Data Security Management) Определение стандартов безопастности (Data Privacy Standards) Установка уровней доступа (Confidentiality Classification) Установка степеней сложности паролей (Password Practices) Формирование групп пользователей и администраторов (User, Group & Admin) Аутентификация или идентификация (User Authentication) • • Аутентификация - процедура проверки соответствия субьекта и того, за кого он пытается себя выдать Идентификация - опознавание субъекта с целью отличить данный субъект от других субъектов Аудит безопастности (Data Security Audit) 8 Managed by UT-Battelle for the Department of Energy Presentation_name Контроль качества данных (Data Quality Management) Качество данных это: полнота, постоянство, своевременность и точность которые делают возможным их использование для достижения конкретной цели Спецификация качества данных (Quality Requirements Specification) Точность (до тысячных или десятых), допустимы ли провалы, частота замеров, степени агрегации (в час, в день, в год), сколько номеров телефонов Профилирование и анализ качества (Quality Profiling & Analysis) Единственный инструмент для анализа данных – человек! Способы повышения качества данных (Data Quality Improvement) Аудит качества (Quality Certification & Audit) 9 Managed by UT-Battelle for the Department of Energy Presentation_name Хранение и анализ данных (Data Warehousing & Business Intelligence) Все данные со временем перестают быть рабочими и превращаются в аналитическо-архивные! Архитектура хранения (Data Warehousing Architecture) Не нужны транзакции, обновление и добавление информации происходит относительно редко. Какие-то данные наверняка испольуются только для поддержки текущих операций и не нужны в перспективе. Платформы хранения (Data Warehousing Implementation) MySQL (MyISAM, Archive, Memory, CSV, Merge, Federated) см. ‘Enterprise Data Warehousing with MySQL’ на http://www.mysql.com/why-mysql/application-scenarios/data-warehouse.html C-Store - a read-optimized relational DBMS http://db.lcs.mit.edu/projects/cstore/ Инструменты бизнес-анализа (Business Intelligence Implementation) Microsoft SQL Server 2005 Analysis Services ROOT – Object-oriented Data Analysis Framework http://root.cern.ch/ Обучение и поддержка (BI Training & Support) Отслеживание и настройка (Monitoring & Tuning) 10 Managed by UT-Battelle for the Department of Energy Presentation_name Управление данными вне БД (Document, Record & Content Management) Обработка електронной документации (Electronic Document Management) Merrill Lynch оценивает что около 85 информации содержится в так называмых не структурированных документах: электронной почте, презентациях, памятных записках, маркетинговых материалах, вэб-страницах, сканированных документах Обработка бумажной докумантации (Physical Record & File Management) • Идентификация • Хранение • Оборот (циркуляция) • Архивация Библиотеки и архивы – давно отработанные системы, которые можно использовать в качестве моделей Системы управления контентом (Information Content Management) CMS - системы для создания, редактирования, управления и публикации информации в последовательном и организованом виде 11 Managed by UT-Battelle for the Department of Energy Presentation_name Уравление метаданными (Metadata management) Метаданные – это ‘данные о данных’ Метаданные – это набор вспомогательной информации облегчающей понять суть операционных данных и способствующей принятию решений Например: каким прибором сделаны измерения, когда его калибровали; топография местности Отбор информации (Users & Needs) Архитектура и стандарты (Architecture & Standards) Сбор и интеграция с основными данными (Capture & Integration) Хранение (Repository Administration) Включение в результаты аналитики (Query & Reporting) 12 Managed by UT-Battelle for the Department of Energy Presentation_name The Data Management Association Framework 13 Managed by UT-Battelle for the Department of Energy Presentation_name Спасибо за внимание! 14 Managed by UT-Battelle for the Department of Energy Presentation_name