Uploaded by Vasily Borisov

Взгляд на перспективные направления развития систем управления геолого-геофизическими и промысловыми данными

advertisement
Взгляд на перспективные направления развития систем управления геолого-геофизическими
и промысловыми данными
В сериале "Теория большого взрыва" милейшая официантка Пенни для поддержания беседы
спрашивает физика-экспериментатора Леонарда о том, что нового в мире физики? И тот отвечает, что за
исключением теории струн с 1930х ничего такого не происходило. Разговор не клеится.
В
области
баз
геологогеофизических и промысловых (ГГиП)
данных все так же скучно. Как видно из
исследований Deloitte Digital, нефтяники,
горняки и водители огромных фур далеки
от «больших взрывов».
Новые базы и хранилища
создаются, но всегда для обеспечения
функционала работы с данными для
приложений. Системы организации и
хранения данных, созданные только под
организацию и хранение, ждет суровая
действительность. Они выпадают из
бизнес-процесса, вращающегося вокруг
прикладных
систем
обработки,
интерпретации и моделирования. Данные
продолжают накапливаться в прикладных
базах, обтекают специализированные системы и удобно рассаживаются по Excel-таблицам и файловым
папкам, в лучшем случае корпоративным и централизованным.
Основной чертой новых систем управления данными является, на наш взгляд, их нереляционная
структура. Исторически сложилось так, что все задачи организации данных были решены при помощи
реляционного моделирования в силу доминирования этих инструментов на рынке. Ситуация поменялась, и
неэффективность применения реляционных технологий во множестве архивных (write once read many) систем
стала очевидной.
Если отбросить, иллюзии об одном "всесильном кольце", что объединит их навек, остается принять,
что этот набор географически распределенных прикладных баз разного толка, файловых систем и
разрозненных электронных таблиц - это и есть база данных. Умеренно распределенная, исключительно
гетерогенная, слабо связанная база данных, с которой нам предстоит учиться работать потому, что эти ее
характеристики в силу особенностей бизнеса в ближайшее десятилетие вряд ли изменятся. Как, говорил Нил
МакНотон: "Мы вынуждены работать с проектами только по той причине, что не можем пока поработать со
всеми данными сразу" (вольная цитата).
Оставив попытки систематизировать процесс накопления данных (все загружать!) и оставив заботу
об их ремастеринге, обеспечении целостности, резервном копировании и защите от природных катастроф
специалистам ДИТ, нам остается всего одна забота - доступ! Но это существенная забота, ведь доступ - это
не только физическая передача и скорость, это разграничения и права, достоверность и известный уровень
качества, структурирование информации как предварительное, так и в соответствии с запросом и т.д.
Наша компания занимается доступом к данным на базе поисковых технологий, но поиск давно вышел
за рамки того, что мы привыкли им называть. Все наше взаимодействие с информацией за пределами рабочего
места фактически происходит через встроенные поисковые технологии. Остановимся кратко на трудностях
организации доступа к данным и их преодолении:
- Интерфейсы со большим количеством систем. Даже в случае, когда интерфейс только на чтение
– задача нетривиальная. Системы меняются как с точки зрения инфраструктуры, так и в смысле
моделей данных (с новыми версиями). Разграничение доступа у многих систем сугубо
индивидуально. Системе, поддерживающей постоянные, даже самые простые интерфейсы с большим
количеством других систем, нужна непрерывная поддержка этих интерфейсов. Затраты и
непрерывный цикл разработки.
- Push или Pull интерфейсы? Сложно рассчитывать на то, что сторонние системы будут
подготавливать и транслировать данные вовне, даже если разработчики это декларируют – это не
входит в их функциональные обязанности. Соответственно, преимущественно интерфейсы/агенты
платформы доступа будут отвечать за извлечение данных из сторонних систем.
- Мульти-модельность. Каждая из систем имеет собственную модель данных, отличную от других.
Придется поддерживать данные разных моделей, а также их семантические обобщения или мета
модели для разных требований бизнеса с тем, чтобы работать со всеми данными в целом. ПАО
«Газпром нефть» активно проводит исследования в области семантического моделирования. Здесь
уместно говорить и об обогащении данных, извлечении именованных сущностей и активном
применении уже фактически промышленных подходов машинного обучения. Тут же хочется
упомянуть и проблему структурированного представления "мульти-модельных" данных
пользователю. Просто список документов ни людей, ни даже алгоритмы не устроит. Важность
продуманной фасетизации, мета-моделей и сквозных запросов сложно переоценить.
- Кэширование (индекс). В системе, поставившей себя в полную зависимость от других систем по
части запросов - а так и организованы классические системы доступа типа портала - есть две
существенные проблемы:
a.
Производительность – сторонние системы обрабатывают запрос с непредсказуемой
производительностью, иногда крайне медленно.
b.
Надежность – при большом количестве подключенных систем в любой промежуток времени
одна или несколько из них обязательно испытывают сбои и не могут ответить на запрос.
Единственный способ победить эти недуги - глубокое индексирование информации и эффективная
работа с индексом.
- Разграничение доступа. Доступ к данным необходимо разграничить. Не все ИТ системы
организуют разграничение доступа единообразно. Для многих систем необходимо хранение или
восстановление и постоянное обновление связи внутренних пользователей с пользователями и
группами и их правами из корпоративного домена.
- Связь с НСИ. Качество. При подключении большого количества данных из большого количества
систем мы неизбежно сталкиваемся с проблемами достоверного определения актуальности и
качества данных. Любой пре- и пост-процессинг данных, в том числе когнитивные инструменты,
которые помогут нам достоверно определять актуальность и качество данных, полученных в ответ на
запрос, востребованы!
Интересно, что качество является функцией использования, а не наоборот. Данные качественные там,
где их постоянно используют. Лучшая база данных с самыми качественными данными, пролежавшая
10 лет невостребованной, таит в себе много сюрпризов.
В процессе решения всех вышеупомянутых вопросов мы обнаруживаем, что хотя данных у нас
сравнительно немного, объем индексации, обработки и анализа настолько существенный, что мы уверенно
попадаем в область высоко нагруженных систем и в промышленных реализациях вынуждены опираться на
серьезные промышленные решения.
Завершить этот маленький очерк хочется параграфом с ключевыми словами. DevOps специализация
- ее развитие в компании требует особого внимания. Эти люди, наряду с людьми в специализации
DataScience, отвечают за будущее работы с данными вообще. JSON - по-прежнему арабская вязь для
любителей SQL синтаксиса, но, похоже, необходимо осваивать. Python - основная проблема не столько во
владении синтаксисом, сколько в наличии времени и мотивации у специалистов геологических и
геофизических специальностей его применять. Из наиболее перспективных COSS (коммерческое ПО с
открытым кодом) – конечно, Elasticsearch. И как с любым OSS - оставить всякие иллюзии в отношении «out
of the box» решения от самого производителя ОSS.
-
Закончим шуткой из того-же сериала:
Привет! Я вижу ты занят?
О да! Темная материя! Баланс силы притяжения и квантовая механика. Симметрия Ферми-Бозе. Я
постиг величайшие задачи сегодняшней физики!
И что, ты решил их все одним махом?
Нет, я лишь постиг, что они - величайшие задачи.
Download