ИНФРАСТРУКТУРА ВЕБ-СЕРВИСА ИНТЕЛЛЕКТУАЛЬНОЙ ПРОБЛЕМНО-ОРИЕНТИРОВАННОЙ СИСТЕМЫ НАУЧНОЙ АНАЛИТИКИ ПО ФИЗИЧЕСКОЙ ХИМИИ РАДИКАЛЬНЫХ ЖИДКОФАЗНЫХ РЕАКЦИЙ В ИНТЕРНЕТ А.И.Прохоров1, Дмитрий Варламов1,2, Е.С.Амосова1, М.Е.Соловьева1, В.Е.Туманов1, П.К.Берзигияров1 1Институт проблем химической физики РАН 2Институт экспериментальной минералогии РАН Работа поддержана грантом РФФИ № 15-07-08645, рук. Прохоров А.И. Научный сервис в сети Интернет, Моряк-2015 Проблема Прогнозирование термодинамических характеристик многоатомных молекул и химических реакций с их участием на основе разработанного специального математического и программного обеспечения в условиях ограниченности экспериментальных данных Научный сервис в сети Интернет, Моряк-2015 ЦЕЛИ ПРОЕКТА Создание прототипа программно-технологической инфраструктуры проблемно-ориентированного веб-сервиса для автоматического сбора и семантического анализа кинетических и термохимических данных из открытых оцифрованных источников в Интернете с последующей их разбраковкой, сохранением и использованием. Создание на основе Проблемно-ориентированной системы по физической химии радикальных реакций* за счет внедрения в нее семантики на основе онтологических моделей предметной области Интеллектуальной проблемноориентированной системы научной аналитики по физической химии радикальных реакций. * Туманов В.Е., Прохоров А.И., Лазарев Д.Ю., Соловьева М.Е. Система научной осведомленности по физической химии радикальных реакций. // Информационные ресурсы России. 2010. No 5. С. 16-21. Научный сервис в сети Интернет, Моряк-2015 САЙТ СИСТЕМЫ НАУЧНОЙ ОСВЕДОМЛЕННОСТИ ПО ФИЗИЧЕСКОЙ ХИМИИ РАДИКАЛЬНЫХ РЕАКЦИЙ http://lion.icp.ac.ru Научный сервис в сети Интернет, Моряк-2015 ЭЛЕКТРОННЫЕ РЕСУРСЫ, ВХОДЯЩИЕ В СОСТАВ СИСТЕМЫ ► Банк кинетических констант скорости радикальных жидкофазных реакций [Туманов В.Е., Денисова Т.Г., Денисов Е.Т., Покидова Т.С., Дроздова Т.И. Свидетельство о государственной регистрации базы данных № 2011620118. Дата приоритета 22.12.2010]. Накоплено более 30000 значений. ► Киоск данных по энергиям диссоциации связи органических соединений [Туманов В.Е., Денисова Т.Г., Денисов Е.Т. Свидетельство о государственной регистрации базы данных № 2011620117]. Включает более 1000 объектов. ► База данных по энтальпиям образования радикалов и органических соединений [Туманов В.Е., Денисова Т.Г., Денисов Е.Т. Свидетельство о государственной регистрации базы данных № 2011620116]. Содержит экспериментальные данные для 980 радикалов и порядка 3000 органических соединений. Научный сервис в сети Интернет, Моряк-2015 ПРОГРАММНО-ТЕХНОЛОГИЧЕСКАЯ АРХИТЕКТУРА СИСТЕМЫ НАУЧНОЙ ОСВЕДОМЛЕННОСТИ Научный сервис в сети Интернет, Моряк-2015 ОСНОВНЫЕ ЗАДАЧИ ВЕБ-СЕРВИСА ДЛЯ СБОРА КИНЕТИЧЕСКИХ И ТЕРМОХИМИЧЕСКИХ ДАННЫХ ИЗ ОТКРЫТЫХ ИСТОЧНИКОВ В ИНТЕРНЕТ ► Поиск информации (поисковый профиль «ключевые слова», список сайтов (в т.ч. сайтов научных журналов), в перспективе семантический поиск. ► Формирование блока документов (форматы pdf, doc, html, xml), либо автономно (из локальных коллекций), либо загруженных из открытых оцифрованных источников в Интернет. ► Парсинг текстовых разделов документов (извлечение данных из документов: семантическая модель документа, кластеризация, классификатор (байесовы сети), искусственные нейронные сети, нечеткие нейросети), в перспективе также парсинг табличных данных, графических 2D-моделей химических структур. ► Верификация и сохранение полученной информации в хранилищах данных системы Научный сервис в сети Интернет, Моряк-2015 ПРОГРАММНО-ТЕХНОЛОГИЧЕСКАЯ АРХИТЕКТУРА ВЕБСЕРВИСА ДЛЯ СБОРА КИНЕТИЧЕСКИХ И ТЕРМОХИМИЧЕСКИХ ДАННЫХ ИЗ ОТКРЫТЫХ ИСТОЧНИКОВ В ИНТЕРНЕТ Научный сервис в сети Интернет, Моряк-2015 УРОВЕНЬ ПРОГРАММНЫХ АГЕНТОВ СИСТЕМЫ НАУЧНОЙ ОСВЕДОМЛЕННОСТИ ПО ФИЗИЧЕСКОЙ ХИМИИ РАДИКАЛЬНЫХ РЕАКЦИЙ БЗ БЗ БЗ Реактивные агенты ЭСПЕРТНЫЕ СИСТЕМЫ (ЭС) И ИНТЕЛЛЕКТУАЛЬНЫЕ ПРОГРАММНЫЕ АГЕНТЫ (ИПА) СИСТЕМЫ НАУЧНОЙ ОСВЕДОМЛЕННОСТИ ПО ФИЗИЧЕСКОЙ ХИМИИ РАДИКАЛЬНЫХ РЕАКЦИЙ ► ЭС для оценки энергии диссоциации связей органических молекул по кинетическим данным бимолекулярных радикальных реакций отрыва на основе синтеза методов прикладного искусственного интеллекта и компьютеризации алгоритмов модели пересекающихся парабол Е.Т. Денисова ► ЭС для оценки реакционной способности органических молекул бимолекулярных радикальных реакциях по термохимическим данным в ► ЭС для оценки энтальпии образования свободных радикалов по кинетическим данным ЭС сконструированы в виде набора интеллектуальных программных агентов – автономных программ с определенным поведением. ►ИПА, реализующие искусственные нейронные сети для предсказания реакционной способности молекул в радикальных реакциях ►ИПА, реализующие искусственные нейронные сети для предсказания энергии диссоциации связей органических молекул ►ИПА, идентифицирующие зависимости в данных с нечеткими базами знаний ►ИПА, реализующие алгоритмы кластерного анализа данных Научный сервис в сети Интернет, Моряк-2015 ПОНЯТИЯ ТЕХНОЛОГИИ АНАЛИЗА ТЕКСТОВЫХ ДОКУМЕНТОВ В технологии анализа текстовых документов выделяется три компонента знаний: ►Онтология – понятия и отношения предметной области. С точки зрения анализа документов онтология описывает данные, которые необходимо извлечь из текста и поместить в хранилище системы. ►Тезаурус (информационно-поисковый, предметный словарь) содержит термины предметной области, с помощью которых в тексте могут представляться понятия и отношения онтологии. [ГОСТ 7.74-96]. ►Информационное наполнение системы (или хранилище системы) Термины тезауруса: молекула, взаимодействие, … В онтологии: молекула взаимодействие молекула ≡ реакция Научный сервис в сети Интернет, Моряк-2015 ФРАГМЕНТ ОНТОЛОГИИ (ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ) «РАДИКАЛЬНЫЕ РЕАКЦИИ В ЖИДКОЙ ФАЗЕ» Амосова Е.С., Туманов В.Е. Представление химических реакций, реагентов и их термохимических свойств в интеллектуальной системе по физической химии радикальных реакций в жидкой фазе с использованием онтологической модели предметной области // Бутлеровские сообщения. 2014. T. 39. No 7. C. 39-46 Научный сервис в сети Интернет, Моряк-2015 ПРЕДПОЛАГАЕМЫЕ ОБЪЕМЫ ДАННЫХ ►Список URL-адресов сайтов журналов включает 84 записи. ►Документы (статьи и др. виды публикаций) – свыше 50 тыс. ►Термины (словарь) предметной области (на английском языке) – около 10 тыс. ►Онтологии: кинетика (1) и термохимия (2) жидкофазных радикальных реакций Научный сервис в сети Интернет, Моряк-2015 ПРОСТАЯ (ТРИВИАЛЬНАЯ) ПОИСКОВАЯ СИСТЕМА Интернет Ответ Пользователь Запрос Веб-сервер Запрос Поисковый робот Локальные данные Ответ Индексатор Индексы Научный сервис в сети Интернет, Моряк-2015 СЕМАНТИЧЕСКИЙ ПОИСК Интернет Ответ Запрос Веб-сервер Запрос Обогащение запроса Ответ Поисковый робот Индексатор Локальные данные Индексы Научный сервис в сети Интернет, Моряк-2015 Семантиче ская база СЕМАНТИЧЕСКИЙ ПОИСК НА БАЗЕ HADOOP Ответ Интернет Ответ Запрос Apache Веб-сервер Обогащение запроса Запрос Ответ Hadoop A.Solr Nutch Индексатор Поисковый робот A.Tika HDFS Локальные данные noSQL HBASE Индексы Научный сервис в сети Интернет, Моряк-2015 Семантиче ская база Спасибо за внимание!!! Научный сервис в сети Интернет, Моряк-2015 НЕЙРОСЕТИ СИСТЕМЫ НАУЧНОЙ ОСВЕДОМЛЕННОСТИ ПО ФИЗИЧЕСКОЙ ХИМИИ РАДИКАЛЬНЫХ РЕАКЦИЙ (ДОПОЛНЕНИЕ) Активационная функция: ►Сигмоидальная Тип: ►Искусственная нейронная сеть прямого распространения (4 входа, 3 внутренних слоя, 1 выход) Алгоритм обучения: ►Метод обратного распространения ошибки СЕМАНТИЧЕСКИЕ МЕТРИКИ SERELEX Онтологии Редактор Protege Обновление тезауруса Вычисление семантических метрик терминов Эталонный текстовый корпус Вычисление семантических метрик текстового корпуса Тезаурус с семантическими метриками Анализируемый текстовый корпус СОСТАВ ОНТОЛОГИЙ ПО ФИЗИЧЕСКОЙ ХИМИИ ► Названия типов химических объектов и свойств этих объектов (вещества, реакции, оболочки, спектры, …). ► Имена отношений между объектами разных типов и свойств этих отношений (между реакциями и веществами). ► Иерархии классов объектов разных типов, условия принадлежности к классам. ► Определение типов объектов-участников физико-химических процессов и их свойств. Артемьева И.Л. Концепция управления информационными компонентами развиваемой интеллектуальной Интернет-системы по химии // V международная конференции "Параллельные вычисления и задачи управления". 2010. Москва. [Электронный ресурс] / http://paco2010.ipu.ru/pdf/C307.pdf (дата обращения 20.08.2015 г.) ОНТОЛОГИИ ПО ФИЗИЧЕСКОЙ ХИМИИ Артемьева И.Л., Рештаненко Н.В., Цветников В.А. Многоуровневая онтология химии // Всероссийская конференция ""ЗНАНИЯ – ОНТОЛОГИИ – ТЕОРИИ" 2007. Новосибирск [Электронный ресурс] / http://www.iacp.dvo.ru/is/publicati ons/Artemjeva_Reshtanenko_Tc hvetnikov.pdf (дата обращения 20.08.2015 г.) ОНТОЛОГИИ ПО ФИЗИЧЕСКОЙ ХИМИИ Артемьева И.Л., Рештаненко Н.В. Модульная модель онтологии органической химии // Интеллектуальные системы 2004. № 22(8) с. 98 - 109 ОНТОЛОГИИ ПО ФИЗИЧЕСКОЙ ХИМИИ Артемьева И.Л., Рештаненко Н.В. Модульная модель онтологии органической химии // Интеллектуальные системы 2004. № 22(8) с. 98 - 109 ОНТОЛОГИИ ПО ФИЗИЧЕСКОЙ ХИМИИ Артемьева И.Л., Рештаненко Н.В. Модульная модель онтологии органической химии // Интеллектуальные системы 2004. № 22(8) с. 98 - 109 ОНТОЛОГИИ ПО ФИЗИЧЕСКОЙ ХИМИИ Артемьева И.Л., Рештаненко Н.В. Модульная модель онтологии органической химии // Интеллектуальные системы 2004. № 22(8) с. 98 - 109 ГОСТ 7.25-2001 ТЕЗАУРУС ИНФОРМАЦИОННО-ПОИСКОВЫЙ ОДНОЯЗЫЧНЫЙ ГОСТ 7.25-2001 указывает, что основными типами отношений, обычно отражаемых в информационно-поисковых тезаурусах являются следующие: - род — вид, - часть — целое, - причина — следствие, - сырье — продукт, - административная иерархия, - процесс — объект, - функциональное сходство, - процесс — субъект, - свойство — носитель свойства, - антонимия.