Денис Голомазов аспирант механико-математического факультета МГУ младший научный сотрудник НИИ механики МГУ [email protected] 4 февраля 2010 года Что такое семантические технологии? Зачем они нужны? Каково текущее состояние дел? Каковы перспективы? Модель данных RDF Онтологии Логический вывод Рассмотрим утверждения вида «субъект – предикат – объект» (тройки) Земля является планетой Земля находится в солнечной системе «Земля», «является», «планета», «находится», «солнечная система» - ресурсы, определяемые уникальными адресами Так можно описывать действительность – мы задали модель данных Онтология – совокупность утверждений-троек Онтология состоит из терминологической и фактологической частей Терминологическая часть (словарь): «Планета – это небесное тело» «Звезда – это не планета» «Планета имеет орбиту» «Планета имеет массу (действительное число > 0)» «Планета может иметь спутники» Фактологическая часть: «Земля – это планета» «Земля имеет массу 6x10^24 кг» «Луна – спутник Земли» Мы хотим автоматически выводить новые факты из существующих Например: «Земля является планетой», «Планета является небесным телом» -> «Земля является небесным телом» Для этого вводим специальные ресурсы, имеющие значение (правило выведения новых троек) Например, ресурсы «класс», «являться членом класса», «быть подклассом». Значение ресурсов: если существуют тройки «C – это подкласс D», «x – член класса C», то из этого выводится новый факт «x – член класса D». Единая модель данных (RDF) Общее видение предметной области Компьютеру доступен смысл информации Новый уровень поиска Более сложные запросы Решение вопросов синонимии и мультиязычности Конкретизация/обобщение запроса Интеграция информации Поддержка принятия решений Выявление скрытого знания 9 Какова космическая стратегия Китая в следующие 20 лет? Как связаны стратегии Китая и США? Как решалась задача открытия экзопланет в прошлом? Какие есть алгоритмы сейчас? Какова лучшая методика в данной ситуации? Какие новые алгоритмы были описаны в публикациях за последний год в этой области? Управление информацией как активом (жизненный цикл информации) Анализ трендов и изменений в индустрии Накопление и использование опыта Перевести скрытое знание из отчетов и голов экспертов в единую систему Возможность просмотра информации с различным уровнем детализации Общий доступ к информации Взаимодействие с приложениями 11 Оптимизация принятия похожих решений чтобы не повторять ошибок Оценка решений выбор решения с наибольшей выгодой с учетом рисков Моделирование последствий решений разные модели и общее видение разных моделей 12 Готовые тройки: Файлы .rdf (Google: 2.5 млн документов) созданные вручную сгенерированные сервисами (livejournal, facebook etc) Структурированные данные: Конверторы *->rdf (таблицы, реляционные БД) Микроформаты RDFa Неструктурированные данные: Конверторы HTML->RDF (“scrapers”) Переведем в RDF существующие базы данных в открытом доступе Проставим ссылки из баз друг на друга Получим большую коллекцию связанных RDFтроек Главная проблема: у каждой базы своя онтология Google: 186 тыс. онтологий Онтологии общей направленности: SKOS, Dublin Core, YAGO, DBpedia, Umbel Специализированные онтологии, всевозможные тематики: люди, сообщества, наука, проекты, веб-ресурсы, теги, бизнес, языки, география, биология, музыка, еда,… Медицина и науки о человеке Нефтегазовая индустрия Активно используют онтологии Semantic Web for Oil&Gas Workshop Финансовые услуги Промышленность Социальные сети Правительство Медийный бизнес Перевод информации в RDF Автоматическое создание онтологий Разработка согласованных словарей Интеллектуальная собственность 18 Интернет – семантически единое информационное пространство Взаимодействие человека с Сетью осуществляется посредством интеллектуальных агентов, которые: Отвечают на сложные вопросы Взаимодействуют друг с другом Система анализа научного прогресса на основе информации из отчетов научных сотрудников Цель: отвечать на запросы вида Какие направления активно исследуются в данной области знаний? Какие публикации по данному направлению вышли за прошедший период? В каких еще задачах используются методы данного направления? Какие конференции посвящены данному направлению? Каков научный вклад данного ученого/подразделения за прошедший период? Спасибо за внимание. Денис Голомазов [email protected] 4 февраля 2010 года