презентацию в открытый доступ

advertisement
Семантический Веб: текущее
состояние исследований и
перспективные направления
Дмитрий Уланов (dulanov@gmail.com)
03.02.2006, ИСП РАН (www.ispras.ru)
План презентации



Технология Семантический Веб
Текущие наработки и проекты
Актуальные направления исследований
2
Ограничения традиционного WWW
HTML-страница описывает как представить
информацию визуально в Веб-браузере и
трудно поддаётся смысловому анализу
компьютерами. Для неё невозможно
автоматизировать даже такие
тривиальные задачи, как нахождение
людей, проектов, программ в Интернете.
3
Семантический Веб
Технология Семантический Веб (Semantic
Web) позволяет компьютеру
интерпретировать информацию в Вебе
наравне с людьми, для чего разработана
графовая модель описания ресурсов RDF
(Resource Description Framework), которая
является спецификацией W3C.
С помощью RDF можно создавать любые
утверждения о любых ресурсах.
4
Графовая модель RDF
Утверждения о ресурсах в модели RDF состоят из троек:
Ресурс [URI]
Ресурс [URI]
Свойство [URI]
или
Литерал [Unicode]
Ресурсы и свойства представляются в виде URI, а литералы
в формате Unicode. URI позволяет уникальным образом
идентифицировать ресурсы в Вебе, а Unicode решает
проблему мультиязычности.
5
Модель RDF для данной презентации
ISPRAS:ontology#Presentation
ISPRAS:ontology#type
ISPRAS:seminar#03022006
foaf:name
dc:title
Семантический Веб
Дмитрий Уланов
dc:date
03.02.2006
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:foaf="http://xmlns.com/foaf/0.1/"
6
RDF/XML для данной презентации
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#”
xmlns:foaf=“http://xmlns.com/foaf/0.1/”
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:ispras=“ISPRAS:ontology#”
<ispras:Presentation rdf:id=“ISPRAS:seminar#03022006”>
<dc:title>Семантический Веб</dc:title>
<foaf:name>Дмитрий Уланов</foaf:name>
<dc:date>03.02.2006</dc:date>
</ispras:Presentation>
</rdf:RDF>
7
N-Triples для данной презентации
<ISPRAS:seminar#03022006> <ISPRAS:ontology#type>
<ISPRAS:ontology#Seminar>.
<ISPRAS:seminar#03022006> <http://purl.org/dc/elements/1.1/title>
“Семантический Веб”.
<ISPRAS:seminar#03022006> <http://xmlns.com/foaf/0.1/creator>
“Дмитрий Уланов”.
<ISPRAS:seminar#03022006> <http://purl.org/dc/elements/1.1/date>
“03.02.2006”.
8
Использование словаря Dublin Core
В вышеприведённых
утверждениях RDF в
качестве свойств троек
использовался словарь
DC (Dublin Core):
dc:title – заголовок ресурса
dc:date – дата создания
dc:creator – автор ресурса
DC создан с помощью RDF
схемы (RDF Schema).
xmlns:dc="http://purl.org/dc/elements/1.1/"
9
Пример утверждения на RDF схеме
Модель RDF универсальна и не зависит от предметной области, но
с помощью RDF схемы можно создавать ресурсы предметной
области и определять их свойства и иерархию. Например,
можно написать утверждение:
foaf:Person
rdfs:subClassOf
ISPRAS:ontology#Lector
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:foaf="http://xmlns.com/foaf/0.1/"
10
RDF схема это не XML схема
RDF схема описана в утверждениях RDF.
В отличие от XML схемы определяет ресурсы
(термины) предметной области, а не
ограничивает структуру RDF.
За ресурсами RDF схемы в спецификации W3C
закреплена семантика. Например, за ресурсом
rdfs:subClassOf закреплена семантика
наследования.
11
RDF схема описана с помощью RDF
12
Что такое семантика данных?
Под семантикой данных будем понимать возможность
формального описания смысла передаваемых данных,
делая их независимыми от приложений. Это особенно важно
в Интернете, где данные и приложения должны быть
независимыми.
Какие данные сегодня можно использовать в отрыве от
создающих их приложений: данные из реляционных баз
данных, XML-документы? Нет, потому что их семантика
зашита в логике программы и/или неформально в
спецификациях. Только данные снабжённые явной
семантикой можно сделать действительно независимыми от
приложений!
13
Зачем нужен RDF, чем плох XML?
Вложенность тегов XML не несёт никакой семантики, только синтаксис. Возможные
формы представления утверждения “Сергей Кузнецов читает курс по базам данных” в
формате XML:
<course name=“базы данных”>
<lecturer>Сергей Кузнецов</lecturer>
</course>
<lecturer name=“Сергей Кузнецов”>
<teaches>базы данных</teaches>
</lecturer>
<teachingOffering>
<lecturer>Сергей Кузнецов</lecturer>
<course>базы данных</course>
</teachingOffering>
Приложение, которое использует первый формат, не сможет понять два других формата
и наоборот. Поэтому, XML хорош только как формат (синтаксис) для обмена данными,
но не как модель описания семантики данных!
14
Где в RDF семантика?
На уровне модели RDF семантика появляется благодаря
использованию онтологий OWL (Ontology Web Language),
благодаря которым компьютер может понимать как
известный ему ресурс или свойство связано с другим,
неизвестным ему ресурсом или свойством соответственно и
производить другие логические выводы над утверждениями
RDF.
Онтологии основываются на математическом аппарате
формальной логики (description logic, DL), малое
подмножество которого охвачено RDF схемой. DL является
вычислимым подмножеством логики первого порядка.
15
Пример использования семантики
Как проинтерпретирует следующие утверждения
приложение, которое понимает только ресурсы
словаря foaf?
<ISPRAS:seminar#03022006> <ISPRAS:ontology#Lector> “Дмитрий Уланов”.
<ISPRAS:ontology#Lector> <rdfs:subClassOf> <foaf:Person>
Оно поймёт, что ISPRAS:ontology#Lector является
foaf:Person и выведет новое утверждение:
<ISPRAS:seminar#03022006> <foaf:Person> “Дмитрий Уланов”
16
Словарь описания онтологий OWL
Словаря RDF схемы не всегда достаточно для создания
предметных областей, OWL расширяет RDF схему
возможностями DL, заимствованными из ранее разработанного
языка по описанию онтологий DAML-OIL агентства DARPA.
owl:equivalentClass
ISPRAS:ontology#Person
foaf:Person
rdfs:subClassOf
ISPRAS:ontology#Lector
rdfs:subClassOf
ISPRAS:ontology#Student
owl:disjointWith
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:owl="http://www.w3.org/2002/07/owl#"
xmlns:foaf="http://xmlns.com/foaf/0.1/"
17
Правила вывода новых фактов SWRL
Благодаря дополнению OWL языком RuleML
(подмножество Datalog) в виде словаря
SWRL (A Semantic Web Rule Language)
появилась возможность использовать
дизъюнкты Хорна (Horn-like rules) для
явного указания способа вывода новых
фактов из утверждений RDF.
Пока словарь SWRL находится в стадии
стандартизации.
18
Сериализация правила в RDF/XML
parent(?x,?y) & brother(?y,?z) → uncle(?x,?z):
<swrl:Imp rdf:ID="Def-hasUncle">
<swrl:body>
<swrl:AtomList>
<rdf:first>
<swrl:IndividualPropertyAtom>
<swrl:propertyPredicate rdf:resource="#hasParent"/>
<swrl:argument1 rdf:resource="#x"/>
<swrl:argument2 rdf:resource="#y"/>
</swrl:IndividualPropertyAtom>
</rdf:first>
…
</swrl:AtomList>
</swrl:head>
</swrl:Imp>
19
Семантические хранилища
Предполагается, что большие объёмы RDF данных будут
храниться в семантических хранилищах и для доступа к ним
использоваться язык запросов SPARQL, который находится в
стадии стандартизации W3C – аналог SQL для RDBMS.
Пример запроса “вывести все названия презентаций, созданных
Дмитрием Улановым” на SPARQL:
PREFIX dc: <http://purl.org/dc/elements/1.1/>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
SELECT ?title
WHERE { ?presentation foaf:name “Дмитрий Уланов”.
?presentation dc:title ?title}
20
Уровни Семантического Веба
21
Эволюционный подход
Семантический Веб это не замещение
нынешнего WWW, а его эволюционное
развитие. RDF/XML либо внедряется
внутрь HTML или доступен по URL.
По этому принципу уже широко
используются в WWW RDF-данные с
использованием словарей RSS, FOAF
(Friend Of A Friend), DOAP (Description Of A
Project).
22
Словарь FOAF и портал LiveJournal
Код HTML
Данные RDF
23
Что в итоге мы получили?
Технология Семантический Веб успешно
решает следующие задачи:
 независимость данных от приложений;
 семантическая интеграция данных;
 создание основы для повсеместного
использования компьютерных агентов
(сервисов).
24
План презентации



Технология Семантический Веб
Текущие наработки и проекты
Актуальные направления исследований
25
Основы Семантического Веба
Семантический Веб создан не на пустом месте. В
него заложены фундаментальные основы:
 графовая модель представления
полуструктурированных данных (OEM, Lore);
 формальная логика (логика первого порядка,
базы знаний, фреймы);
 архитектура WWW (URI, Unicode, XML, HTTP);
 криптография с открытым ключом.
26
Программная поддержка технологии








библиотеки для интерпретации стека языков RDF для всех
популярных языков программирования (Jena, Redland,
RDFLib);
редакторы онтологий (Protégé);
системы рассуждений над онтологиями (Racer, KAON,
FACT);
семантические хранилища (Sesame, Kowari, YARS);
семантические браузеры (Simile, Piggy Bank, Gnowsis,
Haystack);
поисковики семантических данных (Swoogle);
конверторы из разных форматов представления данных в/из
RDF/XML (Aperture, RDFizers, D2R);
прикладные программы (Bibster, FOAF Explorer).
27
Коммерческие продукты



Adobe's XMP – метоописания о файлах;
Oracle's 10.2 Database – встроенная
поддержка модели RDF;
Tucana's Knowledge Discovery Suite –
платформа для интеграции информации
приложений (Enterprise Information
Integration , EII)
28
План презентации



Технология Семантический Веб
Текущие наработки и проекты
Актуальные направления исследований
29
Направления исследований (1)

1. Foundations






1.0 Knowledge Engineering and Ontology
Engineering
1.1 Knowledge Representation and Reasoning
1.2 Information Management
1.3 Basic Web Information technologies
1.4 Agents
1.5 Natural Language Processing
30
Направления исследований (2)

2 Semantic Web Core topics








2.0 Infrastructure
2.1 Resource Description Framework and
RDFSchema
2.2 Languages
2.3 Ontologies
2.4 Rules and Logic
2.5 Proof
2.6 Security and trust and privacy
2.7 Applications
31
Направления исследований (3)

3 Semantic Web Special Topics








3.1 Natural language processing and human
language technologies
3.2 Social impact of the Semantic Web
3.3 Social networks and Semantic Web
3.4 Peer-to-peer and Semantic Web
3.5 Agents and Senatic Web
3.6 Semantic Grid
3.7 Outreach to industry
3.8 Benchmarking and scalability
32
Задача 1: использование OWL в MDA
Создание и использование онтологий популярно в
области баз знаний, но не в разработке ПО, где
хорошо зарекомендовал себя UML.
В настоящее время OMG предпринимает ряд
попыток по использованию онтологий в моделях
MDA (ontology.omg.org).
Вариант решения: OWL → ODM (Ontology Definition
Metamodel) → OUP (Ontology UML Profile)
33
Задача 2: семантическая интеграция данных
Задача интеграции данных активно решается начиная с 80-х
годов прошлого столетия, причём на разных уровнях, от
системного (различия в используемых форматах доступа к
данным) и синтаксического (наименование и структура
схемы данных) до семантического (различия в семантике
хранимых данных). Но если проблемы системной и
синтаксической интеграции решены, то семантическая
интеграция остаётся актуальной проблемой.
Для решения задачи семантической неоднородности данных
необходимо формальным образом выделить смысл
интегрируемых данных, в чём хорошо зарекомендовали себя
онтологии.
Важной проблемой является постановка задачи интеграции
данных, но благодаря проекту THALIA она уже решена.
34
Тестовый набор THALIA
В рамках проекта THALIA (Test Harness for the Assessment of
Legacy information Integration Approaches – тестовый набор
для оценки существующих решений по интеграции
информации) создан испытательный стенд, агрегирующий
данные по обучающим курсам для 25 компьютерных
факультетов со всего мира. Данные по курсам доступны в
виде XML-файлов с XML-схемой.
Сформулированы 12 эталонных XQuery запросов для 12
основных проблем синтаксической и семантической
неоднородности. Приведен алгоритм количественной оценки
эффективности системы интеграции.
35
Задача 3: архитектура “Семантической Шины”
Семантическая Шина
(Semantic Bus) – это
архитектурное
решение,
предложенное Tim
Berners-Lee и
направленное на
решение проблемы
интеграции данных
приложений (EII).
36
Схема “Семантической Шины”
37
Сравнение подходов EII
38
Реализация архитектуры
Для новых приложений “Семантическая Шина”
представима в виде разделяемого
информационного пространства. Такой подход
был воплощён в проекте Linda для интеграции
распределённых процессов.
Импорт данных из унаследованных систем
осуществляется посредством использования
RDF-адаптеров трёх типов (на основе запросов
RDF, URIQA и индексации ресурсов), т.е.
реализует архитектуру медиаторов (проекты
SIMS, TSIMMIS, OBSERVER, COIN).
39
Вопросы?
Контактная информация: Дмитрий Уланов
(dulanov@gmail.com), аспирант ИСП РАН (www.ispras.ru)
40
Download