Управление данными

реклама
Управление данными (Data management)
Михаил Красовский
Oak Ridge National Laboratory
Carbon Dioxide Information Analysis Center
Managed by UT-Battelle
for the Department of Energy
Что происходит с данными?
 Amazon.com: в июле 1995 in Bellevue, Washington два сервера. Сегодня
около 50 миллионов покупателей в месяц в США; 24 региональных центра - в
северной Америке (10), Европе (10) и Азии (4)
 Wal-Mart: в 1962 году первый магазин в штате Арканзас, в 1968 первые
магазины в других штатах. В 2005, Wal-Mart продает на $312.4 миллиардов, имеет
около 6,200 магазинов по всему миру, 1.6 миллионов работников, крупнейший
частный работодатель в мире.
 KamLAND: The Kamioka Liquid Scintillator Antineutrino Detector (Taoyama,
Japan) - детектор частиц ; начал работать в январе 2002, в настоящее время
поставляет около 200GB информации в день.
 LHC: The Large Hadron Collider (Geneva, CERN), будет запущен в этом году,
ожидается поток в 15 петабайт (15 миллионов гигабайт) данных в год, около 41
террабайта в день
2
Managed by UT-Battelle
for the Department of Energy
Управление данными (Data management)
Определения
 Data Resource Management is the
development and execution of architectures,
policies, practices and procedures that
properly manage the full data lifecycle needs
of an enterprise (DAMA - The Data Management
Association International)
 Управление данными – набор процессов,
обеспечивающих накопление,
организацию, запоминание, обновление,
хранение, обработку данных и поиск
информации.
3
Managed by UT-Battelle
for the Department of Energy
Управление данными (Data management)
Функции управления данными

Руководство данными (Data Governance)

Архитектура, анализ и дизайн данных (Data Architecture, Analysis &
Design)

Управление базами данных (Database Management)

Безопасность данных (Data Security Management)

Контроль качества данных (Data Quality Management)

Управление мастер- и референц- данными (Reference and Master
Data Management)

Хранение и анализ данных (Data Warehousing & Business
Intelligence)

Управление данными вне БД (Document, Record & Content
Management)

Уравление метаданными (Metadata management)
4
Managed by UT-Battelle
for the Department of Energy
Presentation_name
Руководство данными (Data Governance)

Определение и распределение обязанностей (Roles & Organizations)
Кто заказчики? Кто и за что отвечает внутри команды?

Определение стандартов (Policies, Standards & Compliance)
Выходные данные должены соответствовать вновь разработанному стандарту или внешнему
заданному стандарту (метры, футы, доллары, рубли, мм ртутного столба, kPa)

Методика работы с данными (Data Strategy)
Все источники поставляют информацию в разных форматах. Как их привести к одному?

Построение архитектуры данных (Architecture)
Полный анализ взаимодействий между функциями организации или проекта, доступных
технологий и типов данных. Определение конкретных данных (реальных, агрегатных или
абстакций) с которыми идет работа (цена, артикул, годовой оборот, температура, средние
величины и коэффициенты)

Оценка активов данных (Data Assets Valuation)
Какие-то агрегатные и средние могут уже быть

Обмен информацией (Communications & Issue Management)
Необходимое количество каналов коммуникации: (N * (N - 1) ) / 2. Для команды из 4 =6, для команды
из 7 =21
5
Managed by UT-Battelle
for the Department of Energy
Presentation_name
Архитектура, анализ и дизайн данных
(Data Architecture, Analysis & Design)
 Построение концептуальной модели данных
(Enterprise Data Modeling and Related Data Architecture)
При концептуальном моделировании данных мы структуризируем и организуем данные на самом
высоком уровне (био, метео, отдел кадров, маркетинг)
 Построение логической модели (Logical Modeling and Value
Chain Analysis)
Описание таблиц, полей, классов, структуры XML . Некоторые второстепенные параметры после
преобразований и слияний с другими параметрами могут становится важными выходными
данными, важно не потерять и не пропустить.
 Физическое моделирование (Physical Modeling)
На каких серверах, на какой БД, языки програмирования, инструменты аналитики
 Стандартизирование модели (Modeling Standards)
 Управление моделью (Model Management)
6
Managed by UT-Battelle
for the Department of Energy
Presentation_name
Управление базами данных
(Database Management)
 Дизайн баз(ы) данных (DB Design)
 Внедрение БД (DB Implementation)
 Резервное копирование и восстановление
(Backup & Recovery)
 Производительность и настройка
(Performance
& Recovery)
 Архивация и удаление
(Archival & Purging)
 Управление технологией
7
Managed by UT-Battelle
for the Department of Energy
Presentation_name
(Technology Management)
Безопасность данных
(Data Security Management)
 Определение стандартов безопастности (Data Privacy
Standards)
 Установка уровней доступа (Confidentiality Classification)
 Установка степеней сложности паролей (Password
Practices)
 Формирование групп пользователей и администраторов
(User, Group & Admin)
 Аутентификация или идентификация (User Authentication)
•
•
Аутентификация - процедура проверки соответствия субьекта и того, за кого он
пытается себя выдать
Идентификация - опознавание субъекта с целью отличить данный субъект от
других субъектов
 Аудит безопастности (Data Security Audit)
8
Managed by UT-Battelle
for the Department of Energy
Presentation_name
Контроль качества данных
(Data Quality Management)
Качество данных это: полнота, постоянство,
своевременность и точность которые делают возможным
их использование для достижения конкретной цели
 Спецификация качества данных (Quality Requirements
Specification)
Точность (до тысячных или десятых), допустимы ли провалы, частота замеров, степени
агрегации (в час, в день, в год), сколько номеров телефонов
 Профилирование и анализ качества (Quality Profiling &
Analysis)
Единственный инструмент для анализа данных – человек!
 Способы повышения качества данных (Data Quality
Improvement)
 Аудит качества (Quality Certification & Audit)
9
Managed by UT-Battelle
for the Department of Energy
Presentation_name
Хранение и анализ данных
(Data Warehousing & Business Intelligence)
Все данные со временем перестают быть рабочими и превращаются в аналитическо-архивные!
 Архитектура хранения (Data Warehousing Architecture)
Не нужны транзакции, обновление и добавление информации происходит относительно редко.
Какие-то данные наверняка испольуются только для поддержки текущих операций и не нужны в
перспективе.
 Платформы хранения (Data Warehousing Implementation)
MySQL (MyISAM, Archive, Memory, CSV, Merge, Federated) см. ‘Enterprise Data Warehousing with
MySQL’ на http://www.mysql.com/why-mysql/application-scenarios/data-warehouse.html
C-Store - a read-optimized relational DBMS http://db.lcs.mit.edu/projects/cstore/
 Инструменты бизнес-анализа (Business Intelligence
Implementation)
Microsoft SQL Server 2005 Analysis Services
ROOT – Object-oriented Data Analysis Framework http://root.cern.ch/
 Обучение и поддержка (BI Training & Support)
 Отслеживание и настройка (Monitoring & Tuning)
10 Managed by UT-Battelle
for the Department of Energy
Presentation_name
Управление данными вне БД
(Document, Record & Content Management)
 Обработка електронной документации (Electronic Document
Management)
Merrill Lynch оценивает что около 85 информации содержится в так называмых не
структурированных документах: электронной почте, презентациях, памятных записках,
маркетинговых материалах, вэб-страницах, сканированных документах
 Обработка бумажной докумантации (Physical Record & File
Management)
•
Идентификация
•
Хранение
•
Оборот (циркуляция)
•
Архивация
Библиотеки и архивы – давно отработанные системы, которые можно использовать в качестве
моделей
 Системы управления контентом (Information Content
Management)
CMS - системы для создания, редактирования, управления и публикации информации в
последовательном и организованом виде
11 Managed by UT-Battelle
for the Department of Energy
Presentation_name
Уравление метаданными
(Metadata management)
Метаданные – это ‘данные о данных’
Метаданные – это набор вспомогательной информации
облегчающей понять суть операционных данных и
способствующей принятию решений
Например: каким прибором сделаны измерения, когда его калибровали; топография местности

Отбор информации (Users & Needs)

Архитектура и стандарты (Architecture & Standards)

Сбор и интеграция с основными данными (Capture & Integration)

Хранение (Repository Administration)

Включение в результаты аналитики (Query & Reporting)
12 Managed by UT-Battelle
for the Department of Energy
Presentation_name
The Data Management Association Framework
13 Managed by UT-Battelle
for the Department of Energy
Presentation_name
Спасибо за внимание!

14 Managed by UT-Battelle
for the Department of Energy
Presentation_name
Скачать