Распределенные вычисления и большие данные Кореньков Владимир Васильевич директор Лаборатории информационных технологий ОИЯИ зав. кафедрой «Распределенные информационновычислительные системы» Университета Дубна Руководитель лаборатории облачных технологий и аналитики больших данных РЭУ им. Г.В. Плеханова 7 октября 2015 года Приоритетная научная задача (ПНЗ) «Разработка математических моделей и программно-алгоритмического обеспечения для систем с экстрамассовым параллелизмом и решение пилотных задач науки и техники» Сформирован научный совет и подготовлена программа. Создан ЦКП на базе НИЦ «Курчатовский институт» 2/98 С 28 сентября по 02 октября 2015, в Черногории (Budva) проходил XXV Symposium on Nuclear Electronics and Computing NEC'2015 и студенческая школа по современным ИТ, на котором был организован круглый стол о консолидации усилий научных и образовательных центров России в разработке ПО для мегапроектов и масштабных приложений. http://NEC2015.jinr.ru Грид технологии – путь к успеху На торжестве по поводу получения Нобелевской премии за открытие бозона Хиггса директор ЦЕРНа Рольф Хойер прямо назвал грид- технологии одним из трех столпов успеха (наряду с ускорителем LHC и физическими установками). Без организации грид-инфраструктуры на LHC было бы невозможно обрабатывать и хранить колоссальный объем данных, поступающих с коллайдера, а значит, совершать научные открытия. Сегодня уже ни один крупный проект не осуществим без использования распределенной инфраструктуры для обработки данных. LHC Computing Model Tier-0 (CERN): •Data recording •Initial data reconstruction •Data distribution Dubna, JINR Tier-1 (14 centres): •Permanent storage •Re-processing •Analysis •Simulation Tier-2 (>200 centres): • Simulation • End-user analysis 5 Country Normalized CPU time 2014-2015 All Country - 37,655,633,948 Job 1,153,283,278 Russia- 1,715,321,184 40,289,205 6 Основные направления деятельности ЛИТ Развитие ИТ-инфраструктуры Математическая, алгоритмическая и программная поддержка исследований, проводимых в ОИЯИ и странах-участницах Корпоративная информационная система ОИЯИ Три основных уровня Сетевой, ресурсный, прикладной Математическое моделирование, методы, алгоритмы и программы Всего сотрудников – 342 из 18 стран мира, 30 –докторов наук, 65-кандидаты наук, В 2014 году опубликовано: 270 статей в реферированных журналах, 2 монографии, 112 статей в трудах конференций IT-services Network Telecommunication channels JINR (LAN) JINR IXP JINR LAN Remote Access Datacenter Network Device registration DHCP DNS IPDB Network Registration & Connection Network Monitoring Technical Network WIFI WLCG Network Basics Account Management JINR Certificate Authority Computer Security Controls Security Firewall Single Sign On SSH (Secure SHell) E-mail Resources Portal Collaboration Audio Conferencing Eduroam Indico Video Conferencing Webcast and Recording Database Services Computer Science & Physics Computing Administration Database Service ADB2 ISS 1.C EPR General Purpose Database Service Development Research Computing Applied Software Grid Tier-1 and Tier-2 Support Project Management Storage Support GIT Cloud IaaS SaaS PaaS File Transfer Compute Element Grid Information Infrastructure Monitoring JINR Document Server Invenio 8 LFC Service MyProxy VOMS Workload Management HybriLIT CUDA MPI OpenMP Computer Algebra JINRLIB Math. Methods algorithms, software Вig Data analytics Quantum computing BLTP JINR Local Area Network Comprises 7955 computers & nodes Users – 4099, IP – 12568 Remote VPN users – 864 E-library- 1435, mail.jinr.ru-2000 High-speed transport (10 Gb/s) Controlled-access at network entrance. General network authorization system involves basic services (Kerberos,AFS, batch systems, JINR LAN remote access, etc.) IPDB database - registration and the authorization of the network elements and users, visualization of statistics of the network traffic flow, etc. 9 JINR Tier1 Connectivity Scheme 10/98 Центр уровня Tier1 для эксперимента CMS на LHC March 2015 • LHCOPN –резервированный канал до ЦЕРН • 2400 cores (~ 30 kHS06) • 5 PB tapes (IBM TS3500) • 2,4 PB disk • Close-coupled, chilled water cooling InRow • Hot and cold air containment system • Galaxy 7000 – 2x300 kW • 100% - надежность и доступность Uninterrupted power supply Tape Robot Computing elements 11 Компоненты центра Tier1 в ЛИТ ОИЯИ Общий вид комплекса Система климат - контроля Управляющие, вычислительные и дисковые серверы Ленточная библиотека Модуль системы бесперебойного электропитания Торжественное открытие центра уровня Тier1 для эксперимента CMS в ЛИТ 26 марта 2015 года JINR Computing Centre Status Network equipment IBM Tape Robot Tier-1 UP S UP S UP S UP UP Tier-2 + S Tier-2 + S Local Local Computing Computing + Cloud HybriLIT 14 43d Meeting of the PAC for Particle Physics, June 15, 2015 Cloud GridEdu AIS 1C Russia: NRC KI US-BNL Amsterdam/NIKHEF-SARA Bologna/CNAF Taipei/ASGC CaTRIUMF JINR NDGF CERN US-FNAL 26 June 2009 De-FZK Barcelona/PIC Lyon/CCIN2P3 UK-RAL Monitoring Network monitoring information system - more than 623 network nodes are in round16 the-clock monitoring NEC2015, Budva, 28 Sept.- 3 Oct. 2015 HybriLIT heterogeneous computing cluster: current state Peak performance for floating point computations Operating system: Scientific Linux 6.5 File systems: EOS and NFS Batch system: SLURM 17 Parallel computing on HybriLIT Parallel computing for QCD problems: F. Burger(IP, HU, Berlin, ), M. Müller-Preussker (IP HU, Berlin, Germany), E.-M. Ilgenfritz (BLTP& VBLHEP, JINR), A. M. Trunin (BLTP JINR) http://theor.jinr.ru/~diastp/summer14/program.html#posters Parallel computing for investigation of Bose-systems: Alexej I. Streltsov (“Many-Body Theory of Bosons” group at CQD, Heidelberg University, Germany), Oksana I. Streltsova (LIT JINR) http://MCTDHB.org Parallel computing for Technical problems: A. Ayriyan (LIT JINR), J. Busa Jr. (TU of Kǒsice, Slovakia), E.E. Donets (VBLHEP, JINR), H. Grigorian (LIT JINR,;Yerevan State University, Armenia), J. Pribis (LIT JINR; TU of Kǒsice, Slovakia) arXiv:1408.5853 Учебные курсы на HybriLIT 7 – 17 July, 2014 Participants From Mongolia, Romania, Russia 27 August, 2014 Participants from CIS and Russian institutes and companies 1 and 5 September, 2014 Participants from India, Germany, Japan, Ireland, Austria, Ukraine, Russia Полное число участников учебных курсов – студентов, аспирантов и молодых ученых составило порядка 60 из Германии, Индии, Монголии, Украины, России, Румынии и др. JINR cloud service: current state JINR network Internet CNs FN FN — front-end node, CNs — cloud nodes Cloud characteristics: Number of users: 74 Number of running VMs: 81 Number of cores: 122 Occupied by VMs: 134 Total RAM capacity: 252 GB RAM occupied by VMs: 170 GB 20 JINR distributed cloud grid-infrastructure for training and research Main components of modern distributed computing and data management technologies There is a demand in special infrastructure what could become a platform for training, research, development, tests and evaluation of modern technologies in distributed computing and data management. Such infrastructure was set up at LIT integrating the JINR cloud and educational grid infrastructure of the sites located at the following organizations: Institute of High-Energy Physics (Protvino, Scheme of the distributed cloud grid-infrastructure Moscow region), Bogolyubov Institute for Theoretical Physics (Kiev, Ukraine), National Technical University of Ukraine "Kyiv Polytechnic Institute" (Kiev, Ukraine), L.N. Gumilyov Eurasian National University (Astana, Kazakhstan), B.Verkin Institute for Low Temperature Physics and Engineering of the National Academy of Sciences of Ukraine (Kharkov,Ukraine), Institute of Physics of Azerbaijan National Academy of Sciences (Baku, Azerbaijan) Компоненты многофункционального информационно-вычислительного комплекса: Инженерная инфраструктура: обеспечение бесперебойного энергообеспечения и системы охлаждения телекоммуникационные каналы связи и локальная вычислительная сеть Грид-система Грид-система эксперимента уровня Tier2 для CMS уровня экспериментов на Высокопроизво дительная Tier1, прототип БАК и других система системы масштабных экспериментов и вычислений для обработки и проектов в локальных хранения рамках данных пользователей всемирной гридмегапроекта инфраструктуры НИКА Гетерогенный вычислительный комплекс Облачная среда WLCG Google Earth Dashboard 23/98 Архитектура системы распределенного хранения данных эксперимента ATLAS Разработка новой архитектуры сервиса удаления данных для обеспечения целостности распределенного хранения информации эксперимента ATLAS. обслуживает запросы на удаление, организует балансировку нагрузки, обеспечивает масштабируемость и отказоустойчивость системы, корректную обработку исключений, возникающих в процессе работы, стратегию повтора операций в случае возникновения отказов. Разработаны: новый интерфейс между компонентами сервиса создана новая схема базы данных, перестроено ядра сервиса, созданы интерфейсы с системами массового хранения, модернизирована система мониторинга работы сервиса. Созданный сервис обеспечивает целостность хранения информации в географически распределенной среде. Данные эксперимента ATLAS распределены более, чем на 130 грид-сайтах с общим объемом дискового пространства более 120 петабайт, в котором хранятся сотни миллионов файлов. Недельный объем удаляемых данных составляет 2 Пб (20 000 000 файлов). Глобальная система мониторинга передачи данных в инфраструктуре WLCG Суть проекта состоит в создании универсальной системы мониторинга, способной собирать информацию : - о каждой передаче данных (более 1 Петабайта в день), - независимо от метода осуществления передачи (несколько протоколов и сервисов передачи файлов, FTS, xROOTd), - уровень ресурсного центра (Tier-0,Tier-1,Tier-2,Tier-3) - принадлежности данных определенной виртуальной организации; - передавать с высокой степенью надежности собранную информацию в центральное хранилище (ORACLE, HADOOP); - обрабатывать собранные данные для предоставления различным потребителям и программные интерфейсы для получения данных. Система позволяет полностью удовлетворить потребности в информации различных типов пользователей и администраторов инфраструктуры WLCG. 25 LIT JINR - China collaboration LIT team is a key developer of the BESIII distributed computing system A prototype of BES-III Grid has been built (9 sites including IHEP CAS and JINR). Main developments have been done at IHEP and JINR. The Grid is based on DIRAC interware. Monitoring - BES-III grid monitoring system is operational since February 2014. - Implementation of the new monitoring system based on DIRAC RSS service are in progress Job management - Advising on the CE's installation and management - BES-III jobs can be submitted on JINR cloud service now Data management - Installation package for Storage Element was adopted for BES-III Grid - Solution on dCache-Lustre integration was provided for main data storage in IHEP - Research on the alternative DB and data management service optimization is in progress Infrastructure - Creation of the back-up DIRAC services for BES-III grid at JINR is in progress Ускорительный комплекс НИКА Для проекта НИКА поток данных имеет следующие параметры: - высокая скорость набора событий (до 6 КГц), - в центральном столкновении Au-Au при энергиях НИКА образуется до 1000 заряженных частиц, - Прогнозируемое количество событий 19 миллиардов; - общий объем исходных данных может быть оценен в 30 PB ежегодно, или 8.4 PB после обработки. Моделирование распределенной компьютерной инфраструктуры Создана модель для изучения процессов: Tape robot, Disk array, CPU Cluster. RHIC Improvement of QGSp in Geant4 CERN Developer – V.V. Uzhinsky (LIT, JINR) Physics List – QGSp_BERT used by ATLAS and CMS NICA Tasks solved (2015): Improvement of string fragmentation Improvements of processes cross sections Inclusion of the Reggeon cascading for correct description of nucleus breakups Improvement of parton momenta sampling To do: fine tuning of the model parameters Improved QGSp will be available in G4.10.2.beta (end June 2015) It is expected that new QGSp will improve calorimeter responses! πP interactions at 100 GeV/c NEC2015, Budva, 28 Sept.- 3 Oct. 2015 Red lines – old QGSp Blue lines – new QGSp Slow neutron production, ITEP experimental data (1983) [It is expected this improves shower shape] 28 CBM@GSI – Methods, Algorithms & Software for Fast Event Reconstruction Tasks: AuAu@25 AGeV - global track reconstruction; - event reconstruction in RICH; - electron identification in TRD; - clustering in MVD, STS and MUCH; - participation in FLES (First Level Event Selection); - development of the Concept of CBM Databases; - magnetic field calculations; - beam time data analysis of the RICH and TRD prototypes; - contribution to the CBMROOT development; - D0-, vector mesons, J/ψ→e+e- and J/ψ→μ+μ- reconstruction; STS RICH TRD J/ψ→e+e- a: S/Bg2σ, b: Efficiency (%), c: J/ψ per hour (10 Mhz) pC@30GeV a 14 b 22 c 11 pAu@30GeV 18 22 27 AuAu@10AGeV 0.18 18 64 AuAu@25AGeV 7.5 13.5 5250 Modern parallelization involves multiplicative effects coming from: 1) Vectorization (SIMD - Single Instruction Multiple Data) factor 2 to 4; 2) Multithreading – factor 4/3 ; 3) υ -Many core processor – factor υ. Total ≈ 4 υ STS: CA STS: Kalman Filter RICH: ring reconstruct. TRD: track reconstruct. TRD: el. id. ω(k,n) criterion KFPar ticle 164.5 0.5 49.0 1390 0.5 2.5 Average time per core (μs/track or μs/ring) of SIMD-algorithms (besides track reconstruction in the TRD) for data processing. Global throughput increases linearly with the number of cores. The 3D modeling of the magnetic systems 30 Track visualization in TPC of NICA/MPD Au + Au at √s = 7 GeV Visualization of freezeout surface Au + Au at √s = 7 GeV New additions to “JINRLIB” Au + Au at √s = 15 GeV Visualization for Heavy Ion Collision Experiments G.31/98 Musulmanbekov, A. Solovjev (LIT) Интеграция технологий распределенных вычислений для управления большими данными PanDa, как платформа, обеспечивающая прозрачность процесса хранения, обработки и управления данными для приложений с большими потоками данных и массивными вычислениями. Развитие PanDA в направлении интеграции различных систем распределенных и параллельных вычислений (грид, cloud, кластеры, ЦОД, суперкомпьютеры) с целью создания универсальной платформы для крупных проектов управления большими данными в науке, государственном управлении, Суперкомпьютеры №15, 2013, стр.56 медицине, высокотехнологической промышленности, бизнесе. Пример использования системы PanDA (суперкомпьтер Titan в Oak Ridge) Конфигурация суперкомпьютера Titan и схема управления заданиями с помощью платформы PanDA 8/6/13 Big Data Workshop 33 Ресурсы, доступные с помощью платформы PanDA OLCF Проекты с суперкомпьютерными центрами НИЦ КИ, ННГУ, Острава (Чехия) Центры Больших данных в НИЦ КИ, ЛИТ ОИЯИ, РЭУ им. Плеханова Projects of LIT in distributed computing Worldwide LHC Computing Grid (WLCG) EGI-InSPIRE RDIG Development Project BNL, ANL, UTA “Next Generation Workload Management and Analysis System for BigData” Tier1 Center in Russia (NRC KI, LIT JINR) 6 Projects at CERN CERN-RFBR project “Global data transfer monitoring system for WLCG infrastructure” BMBF grant “Development of the grid-infrastructure and tools to provide joint investigations performed with participation of JINR and German research centers” “Development of grid segment for the LHC experiments” was supported in frames of JINR-South Africa cooperation agreement; Development of grid segment at Cairo University and its integration to the JINR GridEdu infrastructure JINR - FZU AS Czech Republic Project “The grid for the physics experiments” NASU-RFBR project “Development and implementation of cloud computing technologies on gridsites of Tier-2 level at LIT JINR and Bogolyubov Institute for Theoretical Physics for data processing from ALICE experiment” JINR-Romania cooperation Hulubei - Meshcheryakov programme JINR-Moldova cooperation (MD-GRID, RENAM) JINR-Mongolia cooperation (Mongol-Grid) JINR-China cooperation (BES-III) Cooperation with Belarus, Slovakia, Poland, Bulgaria, Kazakhstan, Armenia, Georgia, Azerbaijan… 35