Семантические сети в системе генерации тестовых заданий

advertisement
ИНФРАСТРУКТУРА ВЕБ-СЕРВИСА ИНТЕЛЛЕКТУАЛЬНОЙ
ПРОБЛЕМНО-ОРИЕНТИРОВАННОЙ СИСТЕМЫ НАУЧНОЙ
АНАЛИТИКИ ПО ФИЗИЧЕСКОЙ ХИМИИ РАДИКАЛЬНЫХ
ЖИДКОФАЗНЫХ РЕАКЦИЙ В ИНТЕРНЕТ
А.И.Прохоров1, Дмитрий Варламов1,2,
Е.С.Амосова1, М.Е.Соловьева1, В.Е.Туманов1,
П.К.Берзигияров1
1Институт
проблем химической физики РАН
2Институт экспериментальной минералогии РАН
Работа поддержана грантом
РФФИ № 15-07-08645, рук. Прохоров А.И.
Научный сервис в сети Интернет, Моряк-2015
Проблема
Прогнозирование термодинамических
характеристик многоатомных молекул и
химических реакций с их участием на основе
разработанного специального
математического и программного обеспечения
в условиях ограниченности
экспериментальных данных
Научный сервис в сети Интернет, Моряк-2015
ЦЕЛИ ПРОЕКТА
Создание
прототипа
программно-технологической
инфраструктуры проблемно-ориентированного веб-сервиса
для автоматического сбора и семантического анализа
кинетических и термохимических данных из открытых
оцифрованных источников в Интернете с последующей их
разбраковкой, сохранением и использованием.
Создание на основе Проблемно-ориентированной системы
по физической химии радикальных реакций* за счет
внедрения в нее семантики на основе онтологических моделей
предметной
области
Интеллектуальной
проблемноориентированной системы научной аналитики по
физической химии радикальных реакций.
* Туманов В.Е., Прохоров А.И., Лазарев Д.Ю., Соловьева М.Е. Система
научной осведомленности по физической химии радикальных реакций.
// Информационные ресурсы России. 2010. No 5. С. 16-21.
Научный сервис в сети Интернет, Моряк-2015
САЙТ СИСТЕМЫ НАУЧНОЙ ОСВЕДОМЛЕННОСТИ ПО
ФИЗИЧЕСКОЙ ХИМИИ РАДИКАЛЬНЫХ РЕАКЦИЙ
http://lion.icp.ac.ru
Научный сервис в сети Интернет, Моряк-2015
ЭЛЕКТРОННЫЕ РЕСУРСЫ, ВХОДЯЩИЕ В СОСТАВ СИСТЕМЫ
► Банк кинетических констант скорости радикальных
жидкофазных реакций [Туманов В.Е., Денисова Т.Г., Денисов
Е.Т., Покидова Т.С., Дроздова Т.И. Свидетельство о
государственной регистрации базы данных № 2011620118.
Дата приоритета 22.12.2010]. Накоплено более 30000
значений.
► Киоск
данных
по
энергиям
диссоциации
связи
органических соединений [Туманов В.Е., Денисова Т.Г.,
Денисов Е.Т. Свидетельство о государственной регистрации
базы данных № 2011620117]. Включает более 1000 объектов.
► База данных по энтальпиям образования радикалов и
органических соединений [Туманов В.Е., Денисова Т.Г.,
Денисов Е.Т. Свидетельство о государственной регистрации
базы данных № 2011620116]. Содержит экспериментальные
данные для 980 радикалов и порядка 3000 органических
соединений.
Научный сервис в сети Интернет, Моряк-2015
ПРОГРАММНО-ТЕХНОЛОГИЧЕСКАЯ АРХИТЕКТУРА
СИСТЕМЫ НАУЧНОЙ ОСВЕДОМЛЕННОСТИ
Научный сервис в сети Интернет, Моряк-2015
ОСНОВНЫЕ ЗАДАЧИ ВЕБ-СЕРВИСА ДЛЯ СБОРА КИНЕТИЧЕСКИХ
И ТЕРМОХИМИЧЕСКИХ ДАННЫХ ИЗ ОТКРЫТЫХ ИСТОЧНИКОВ В
ИНТЕРНЕТ
► Поиск информации (поисковый профиль «ключевые слова»,
список сайтов (в т.ч. сайтов научных журналов), в перспективе
семантический поиск.
► Формирование блока документов (форматы pdf, doc, html, xml),
либо автономно (из локальных коллекций), либо загруженных
из открытых оцифрованных источников в Интернет.
► Парсинг текстовых разделов документов (извлечение данных
из
документов:
семантическая
модель
документа,
кластеризация, классификатор (байесовы сети), искусственные
нейронные сети, нечеткие нейросети), в перспективе также
парсинг
табличных данных,
графических
2D-моделей
химических структур.
► Верификация и сохранение полученной информации в
хранилищах данных системы
Научный сервис в сети Интернет, Моряк-2015
ПРОГРАММНО-ТЕХНОЛОГИЧЕСКАЯ АРХИТЕКТУРА ВЕБСЕРВИСА ДЛЯ СБОРА КИНЕТИЧЕСКИХ И ТЕРМОХИМИЧЕСКИХ
ДАННЫХ ИЗ ОТКРЫТЫХ ИСТОЧНИКОВ В ИНТЕРНЕТ
Научный сервис в сети Интернет, Моряк-2015
УРОВЕНЬ ПРОГРАММНЫХ АГЕНТОВ СИСТЕМЫ НАУЧНОЙ
ОСВЕДОМЛЕННОСТИ ПО ФИЗИЧЕСКОЙ ХИМИИ
РАДИКАЛЬНЫХ РЕАКЦИЙ
БЗ
БЗ
БЗ
Реактивные агенты
ЭСПЕРТНЫЕ СИСТЕМЫ (ЭС) И
ИНТЕЛЛЕКТУАЛЬНЫЕ ПРОГРАММНЫЕ АГЕНТЫ (ИПА)
СИСТЕМЫ НАУЧНОЙ ОСВЕДОМЛЕННОСТИ ПО ФИЗИЧЕСКОЙ
ХИМИИ РАДИКАЛЬНЫХ РЕАКЦИЙ
► ЭС для оценки энергии диссоциации связей органических молекул по
кинетическим данным бимолекулярных радикальных реакций отрыва на
основе синтеза методов прикладного искусственного интеллекта и
компьютеризации алгоритмов модели пересекающихся парабол Е.Т. Денисова
► ЭС для оценки реакционной способности органических молекул
бимолекулярных радикальных реакциях по термохимическим данным
в
► ЭС для оценки энтальпии образования свободных радикалов по кинетическим
данным
ЭС сконструированы в виде набора интеллектуальных программных агентов –
автономных программ с определенным поведением.
►ИПА, реализующие искусственные нейронные сети для предсказания
реакционной способности молекул в радикальных реакциях
►ИПА, реализующие искусственные нейронные сети для предсказания энергии
диссоциации связей органических молекул
►ИПА, идентифицирующие зависимости в данных с нечеткими базами знаний
►ИПА, реализующие алгоритмы кластерного анализа данных
Научный сервис в сети Интернет, Моряк-2015
ПОНЯТИЯ ТЕХНОЛОГИИ АНАЛИЗА ТЕКСТОВЫХ ДОКУМЕНТОВ
В технологии анализа текстовых документов выделяется три
компонента знаний:
►Онтология – понятия и отношения предметной области. С точки
зрения анализа документов онтология описывает данные, которые
необходимо извлечь из текста и поместить в хранилище системы.
►Тезаурус (информационно-поисковый, предметный словарь)
содержит термины предметной области, с помощью которых в
тексте могут представляться понятия и отношения онтологии.
[ГОСТ 7.74-96].
►Информационное наполнение системы (или хранилище системы)
Термины тезауруса: молекула, взаимодействие, …
В онтологии: молекула взаимодействие молекула ≡ реакция
Научный сервис в сети Интернет, Моряк-2015
ФРАГМЕНТ ОНТОЛОГИИ (ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ)
«РАДИКАЛЬНЫЕ РЕАКЦИИ В ЖИДКОЙ ФАЗЕ»
Амосова Е.С., Туманов В.Е. Представление химических реакций,
реагентов и их термохимических свойств в интеллектуальной
системе по физической химии радикальных реакций в жидкой фазе с
использованием онтологической модели предметной области //
Бутлеровские сообщения. 2014. T. 39. No 7. C. 39-46
Научный сервис в сети Интернет, Моряк-2015
ПРЕДПОЛАГАЕМЫЕ ОБЪЕМЫ ДАННЫХ
►Список URL-адресов сайтов журналов
включает 84 записи.
►Документы (статьи и др. виды публикаций) –
свыше 50 тыс.
►Термины (словарь) предметной области (на
английском языке) – около 10 тыс.
►Онтологии: кинетика (1) и термохимия (2)
жидкофазных радикальных реакций
Научный сервис в сети Интернет, Моряк-2015
ПРОСТАЯ (ТРИВИАЛЬНАЯ) ПОИСКОВАЯ СИСТЕМА
Интернет
Ответ
Пользователь
Запрос
Веб-сервер
Запрос
Поисковый робот
Локальные
данные
Ответ
Индексатор
Индексы
Научный сервис в сети Интернет, Моряк-2015
СЕМАНТИЧЕСКИЙ ПОИСК
Интернет
Ответ
Запрос
Веб-сервер
Запрос
Обогащение
запроса
Ответ
Поисковый робот
Индексатор
Локальные
данные
Индексы
Научный сервис в сети Интернет, Моряк-2015
Семантиче
ская база
СЕМАНТИЧЕСКИЙ ПОИСК НА БАЗЕ HADOOP
Ответ
Интернет
Ответ
Запрос
Apache
Веб-сервер
Обогащение
запроса
Запрос
Ответ
Hadoop
A.Solr
Nutch
Индексатор
Поисковый робот
A.Tika
HDFS
Локальные
данные
noSQL
HBASE Индексы
Научный сервис в сети Интернет, Моряк-2015
Семантиче
ская база
Спасибо за внимание!!!
Научный сервис в сети Интернет, Моряк-2015
НЕЙРОСЕТИ СИСТЕМЫ НАУЧНОЙ ОСВЕДОМЛЕННОСТИ ПО
ФИЗИЧЕСКОЙ ХИМИИ РАДИКАЛЬНЫХ РЕАКЦИЙ (ДОПОЛНЕНИЕ)
Активационная функция:
►Сигмоидальная
Тип:
►Искусственная нейронная сеть прямого распространения (4
входа, 3 внутренних слоя, 1 выход)
Алгоритм обучения:
►Метод обратного распространения ошибки
СЕМАНТИЧЕСКИЕ МЕТРИКИ SERELEX
Онтологии
Редактор
Protege
Обновление
тезауруса
Вычисление
семантических
метрик терминов
Эталонный
текстовый
корпус
Вычисление
семантических
метрик текстового
корпуса
Тезаурус
с семантическими
метриками
Анализируемый
текстовый
корпус
СОСТАВ ОНТОЛОГИЙ ПО ФИЗИЧЕСКОЙ ХИМИИ
► Названия типов химических объектов и свойств этих объектов
(вещества, реакции, оболочки, спектры, …).
► Имена отношений между объектами разных типов и свойств этих
отношений (между реакциями и веществами).
► Иерархии классов объектов разных типов, условия принадлежности к
классам.
► Определение типов объектов-участников физико-химических
процессов и их свойств.
Артемьева И.Л. Концепция управления информационными компонентами
развиваемой интеллектуальной Интернет-системы по химии //
V международная конференции "Параллельные вычисления и задачи
управления". 2010. Москва. [Электронный ресурс] /
http://paco2010.ipu.ru/pdf/C307.pdf (дата обращения 20.08.2015 г.)
ОНТОЛОГИИ ПО ФИЗИЧЕСКОЙ ХИМИИ
Артемьева И.Л., Рештаненко
Н.В., Цветников В.А.
Многоуровневая онтология
химии // Всероссийская
конференция ""ЗНАНИЯ –
ОНТОЛОГИИ – ТЕОРИИ" 2007.
Новосибирск [Электронный
ресурс] /
http://www.iacp.dvo.ru/is/publicati
ons/Artemjeva_Reshtanenko_Tc
hvetnikov.pdf (дата обращения
20.08.2015 г.)
ОНТОЛОГИИ ПО ФИЗИЧЕСКОЙ ХИМИИ
Артемьева И.Л., Рештаненко Н.В. Модульная модель онтологии
органической химии // Интеллектуальные системы 2004. № 22(8) с. 98 - 109
ОНТОЛОГИИ ПО ФИЗИЧЕСКОЙ ХИМИИ
Артемьева И.Л., Рештаненко Н.В. Модульная модель онтологии
органической химии // Интеллектуальные системы 2004. № 22(8) с. 98 - 109
ОНТОЛОГИИ ПО ФИЗИЧЕСКОЙ ХИМИИ
Артемьева И.Л., Рештаненко Н.В. Модульная модель онтологии
органической химии // Интеллектуальные системы 2004. № 22(8) с. 98 - 109
ОНТОЛОГИИ ПО ФИЗИЧЕСКОЙ ХИМИИ
Артемьева И.Л., Рештаненко Н.В. Модульная модель онтологии
органической химии // Интеллектуальные системы 2004. № 22(8) с. 98 - 109
ГОСТ 7.25-2001
ТЕЗАУРУС ИНФОРМАЦИОННО-ПОИСКОВЫЙ ОДНОЯЗЫЧНЫЙ
ГОСТ 7.25-2001 указывает, что основными типами отношений, обычно
отражаемых в информационно-поисковых тезаурусах являются
следующие:
- род — вид,
- часть — целое,
- причина — следствие,
- сырье — продукт,
- административная иерархия,
- процесс — объект,
- функциональное сходство,
- процесс — субъект,
- свойство — носитель свойства,
- антонимия.
Download