Онтологические модели и Semantic Web: откуда и куда мы идем?

advertisement
Научный симпозиум «Онтологическое
моделирование: состояние и направления
исследований и применения»
Ontos
NOW YOU KNOW
20-21 мая, 2008, Звенигород, Россия
Онтологические модели и
Semantic Web:
откуда и куда мы идем?
Хорошевский В.Ф.
Вычислительный центр РАН,
Россия, 119333, Москва, Вавилова 40
План обсуждения
Вместо введения
Semantic Web
 Краткая история вопроса
 Основные проблемы и приложения-убийцы
Онтологические модели и Semantic Web
 Онтологии: модели и их использование
Онтологические проекты
Так откуда и куда мы идем?
Семантизация контента под управлением онтологий
 Ситуация в мире
 Ситуация в России и СНГ
Вместо заключения
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 2
Вместо ведения
Текущая ситуация:

Исследования IDC,- мирового лидера в прогнозных исследованиях,показывают, что к 2008 году количество информации, хранящейся в
компьютерных системах, составит 5444 петабайт, притом, что в 2003 году
оно было около 831 петабайт, а все, опубликованное человечеством в
книгах, составило порядка 200 петабайт.

Специалисты отмечают, что, по крайней мере, до 2020 года количество
информации и потребности в ней будут расти экспоненциально. И без
умения создавать и обрабатывать такие объемы информации ЛПР будущего
будут введены в состояние, которое можно назвать «аналитический
паралич».
Одна из самых больших проблем современного общества:

Информационное переполнение, которое, в значительной мере,
определяется сетью Интернет как всемирного хранилища, «открывающего»
доступ к миллионам и миллиардам различных информационных ресурсов,
независимо от их географической и национальной локализации.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 3
Вместо ведения

Поиск и использование нужной информации становится все более сложным,
трудоемким и неэффективным, несмотря на огромные научно-технические и
организационно-финансовые усилия.

Мировым сообществом уже осознано направление главного «удара» в борьбе
с информационным взрывом – переход от хранения и обработки данных к
накоплению и обработке знаний.
Один из подходов, в рамках которого для
решения вышеуказанной проблемы сейчас
сосредоточиваются значительные научнотехнические ресурсы, - переход от
классического Интернет (WWW) к
семантическому (Semantic Web).
Semant
ic Web
Web
2.0
“The Semantic Web will globalize KR, just as the
WWW globalized hypertext”
Tim Berners-Lee
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 4
Semantic Web.
Краткая история вопроса

2000 г. – концепция Semantic Web (Tim Berners-Lee)
Расширение WWW, в рамках которого Web-контент представляется в
форматах, обеспечивающих его использование программными
агентами, позволяя им искать, разделять и интегрировать
информацию значительно легче, чем это происходит сейчас
Определение W3C
???

2007 г. – концепция Semantic Wave (Mills Davis)
К 2012 году в 80% общедоступных веб-сайтов будет, в той или иной
степени, использоваться семантический гипертекст для создания
семантических веб-документов (с вероятностью 0.7), а в 15%
общедоступных веб-сайтов будут использоваться развитые вебонтологии для создания семантических баз данных (с
вероятностью 0.6)
Прогноз Gartner Group
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 5
Semantic Web.
Краткая история вопроса
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 6
Semantic Web.
Краткая история вопроса
«Слоеный пирог» Тима Бернерс-Ли
RDF-данные

Общая цель, сформулированная W3C:


Разработка форматов сериализации данных и
интероперабельность приложений
Результаты:

Разработаны и реализованы рекомендации по
форматам XML, Namespace (пространства имен) и RDF,
которые в настоящее время существуют на уровне
стандартов de facto

Результаты перешли из стадии исследований в
стадию использования, в том числе и в коммерческих
системах
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 7
Semantic Web.
Краткая история вопроса
«Слоеный пирог» Тима Бернерс-Ли
RDF-схемы

Цель:


Разработка стандартов W3C
Результаты:

Предложены и поддерживаются W3C стандарты
RDF(S), которые позволяют специфицировать словари
используемых терминов

Разрабатываются соответствующие спецификации
для существующих и новых приложений

Результаты перешли из стадии исследований в
стадию использования, в том числе и в коммерческих
системах
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 8
Semantic Web.
Краткая история вопроса
«Слоеный пирог» Тима Бернерс-Ли
Онтологии

В этом направлении был достаточно мощный задел в рамках исследований по
представлению знаний – общие подходы, конкретные формализмы, языки и
системы представления знаний (например, Frame Logics, SHOE и др).

Вместе с тем, работа по стандартизации средств представления знаний
онтологического уровня далеко не закончена, а создание соответствующих
средств онтологического инжиниринга является в настоящее время одной из
«горячих точек» в данной области.

Основные направления исследований и разработок – создание более мощных
средств спецификации онтологий, обеспечивающих вывод на знаниях и
проверку целостности знаний, средств поддержки целостности онтологических
спецификаций в процессе эволюции как спецификаций самих моделей, так и
стандартов, а также средств спецификации перекрестных ссылок между
словарями и конвертирования спецификаций.
Основные результаты:

«Выравнивание» средств спецификации онтологий, разработанных в США
(DAML) и в Европе (OIL), до общего формализма (DAML+OIL)

Разработка консорциумом W3C стандарта de facto на спецификацию онтологий
– языка OWL
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 9
Semantic Web.
Краткая история вопроса
«Слоеный пирог» Тима Бернерс-Ли
Слой правил (Машины вывода)

Поиск новых выразительных и простых средств спецификации
отношений и средств для спецификации запросов к базам знаний с
возможностью фильтрации получаемых результатов, аналогичных
SQL

Исследования и разработки по теории монотонных и немонотонных
систем вывода на правилах, а также работы по созданию новых
приложений с использованием технологий типа «webized rule engine
technology»
Основные результаты:

Уже существуют разные системы спецификации правил и требуется
их сравнительный анализ, «вебизация» и стандартизация

Разработан язык SPARQL, который постепенно
стандартом de facto на язык запросов к базам знаний.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
становится
Page 10
Semantic Web.
Краткая история вопроса
«Слоеный пирог» Тима Бернерс-Ли
Слой «Подтверждение» (Proof)

Ситуация смещается в область фундаментальных исследований.
Предлагаются подходы к спецификации аксиом для систем,
основанных на правилах. Исследуются различные логики, причем
основное внимание уделяется системам, в которых не выполняется
аксиома «замкнутого мира». Предлагаются средства валидации
доказательств

Пока нет основы для стандартизации систем, основанных на
правилах, а существующие системы правил легко экспортируются из
разных систем, но плохо импортируются в другие системы
Слой «Доверие» (Trust)

Только формируются направления фундаментальных и прикладных
исследований, поскольку все утверждения в Web-среде существуют в
некотором контексте и приложения должны учитывать эти контексты,
так как нельзя считать, что все факты, полученные из сети, являются
истинными
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 11
Semantic Web.
Краткая история вопроса
Оценивая ситуацию в целом, можно
констатировать, что

Уже создан базис стандартизации в виде XML-, RDF(S)-,
OWL- и SPARQL-спецификаций

Активно ведутся исследования по теории Semantic Web

В последнее время начаты разработки прикладных
интеллектуальных систем, функционирующих в сети
Интернет
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 12
Semantic Web.
Основные проблемы
SW-эра, в отличие от эпохи Интернет, еще только
приближается!
На этом пути существует значительное число научных,
технических, технологических и чисто человеческих
проблем, основными из которых являются:





Доступность семантического контента;
Доступность онтологий и средств их разработки, а
также эволюция онтологий;
Масштабируемость;
Мультиязыковость;
Визуализация и стабильность.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 13
Semantic Web.
Приложения-убийцы

Понимание естественного языка

Базы знаний

Семантический поиск

Экспертные системы

Социальные сети

Семантические ярлыки
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 14
Онтологические модели и
Semantic Web

Онтологии: модели и их использование

Онтологические проекты

Так откуда и куда мы идем?
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 15
Онтологические модели
и Semantic Web
«Карта» леса
Конец 90-х: «Академические исследования»
 Много докладов о приложениях с «легкими» онтологиями
 Формирование исследовательского окружения для
создания и сопровождения онтологий
 Первая конференция по онтологиям: FOIS
 Принципы онтологического инжиниринга
 Интеграция онтологий (merging & alignment)
 Зарождение коммерческого интереса:
 «Директор онтологии» - Лео Обрст (MITRE)
 Основной промоутер направления – eCommerce
 Основной технический барьер – отображение
предметных областей на онтологии и одних онтологий на
другие
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 16
Онтологические модели
и Semantic Web
«Карта» леса
2000-2001: «Выход в свет»
 Начало использование термина «онтология»
 Появление исследовательского инструментария
 Коммерческий инструментарий в разработке и тестировании
 Появление концепции «Семантический Веб»
 Стэнфордский семинар по семантическому Вебу
2002-2003: «Взросление»
 Выпуск тематических журналов
 Серия международных конференций
 Появление коммерческих продуктов
 Появление стандартов W3C (RDF, RDFS, OWL)
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 17
Онтологические модели
и Semantic Web
«Карта» леса
2004-2007: «Коммерциализация»
 Всплеск на рынке продуктов и производителей
 Рапорты о первых семантических приложениях
 Бизнес-ориентированные конференции и школы
 Разработка программного обеспечения под управлением
онтологий
 Истории об успешном развертывании систем
2008-20??: «Выход на уровень массового использования»
 Первые семантические приложения доступны в Интернет
 ........................................................................................................
Однако еще много технических и социальных проблем
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 18
Онтологические модели.
Базисные определения
онтологии это БЗ специального типа, которые могут "читаться" и
пониматься людьми и программами, отчуждаться от разработчика
и\или физически разделяться их пользователями.
Под формальной моделью онтологии O будем понимать
упорядоченную тройку вида:
O = <X  >, где
X - конечное множество концептов (понятий, терминов)
предметной области, которую представляет
онтология O;
 - конечное множество отношений между концептами
(понятиями, терминами) заданной предметной
области;
 - конечное множество функций интерпретации
(аксиоматизация), заданных на концептах и/или
отношениях онтологии O.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 19
Онтологические модели.
Классификация
Компоненты
модели
X≠
=
Ф=
X≠
=
Ф≠
Формальное
определение
V = <Х, {}, {}>
X = X1  X2,
X1  X2 = ,
X1 – инт-мые терм,
X2 – инт-щие терм.
X≠
 = {is_a}
Ф= 
T = < X, {is_a}, {}>
X≠
≠
Ф≠
таксономия
понятий
онтология
O = < X, , Ф >
$ ( x  X1,
y1, …, yk  X2),
что
x = f (y1, …, yk ),
Vp = < X, {}, {:=}>
Va = < X, {}, Ф>
Пояснение
словник
пассивный /
активный
словарь
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 20
Онтологические модели.
Онтологическая система
Под формальной моделью онтологической системы o будем
понимать триплет вида:
o = <Ometa, {Odomain}, inf >, где
Ometa
- онтология верхнего уровня (мета-онтология) ;
Odomain - множество предметных онтологий ;
inf
- модель машины вывода, ассоциированной с
онтологической системой o.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 21
Онтологические модели.
Методы и средства спецификации
«Сильная» семантика
Модальные логики
Логики первого порядка
Логические теории
OWL+RuleML, KIF
Дескриптивные логики
DAML+OIL, OWL
«Выразительность»
UML
Концептуальные модели
Семантическая интероперабельность
RDF(S)
Таксономии
Расширенные ER-диаграммы
Тезаурусы
Схемы БД,
XML-схема
ER-диаграммы
Реляционные модели,
XML
«Слабая» семантика
Формализация
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Структурная интероперабельность
Синтаксическая интероперабельность
Согласно Лео Обрсту, MITRE
Page 22
Онтологические модели.
Средства спецификации
В рамках «слоеного пирога» Тима Бернерса-Ли
Спецификация
запросов к БЗ
Спецификация
знаний о ПО
Спецификация
вывода на
знаниях
Спецификация
данных о ПО
С сайта http://www.w3.org/2007/Talks/0130-sb-W3CTechSemWeb/layerCake-4.png
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 23
Онтологические модели.
Средства спецификации
Новые средства семантизации для Semantic Web

Microformat
Микроформаты (сокр. μF или uF) — часть языка разметки, которая
позволяет помечать семантику на Веб-страницах, представленных в HTML
или XHTML. Программы могут извлекать данные из Веб-страниц, которые
помечены одним или несколькими микроформатами.


GRDDL (Gleaning Resource Descriptions from Dialects of Languages)
Спецификация GRDDL (подбор описания ресурсов из диалектов
языков) вводит разметку для декларации того, что XML-документ
содержит «диалектные» данные, а также для привязки этих данных к
алгоритмам, обычно представленным как XSLT-преобразование.


WSDL (Web Services Description Language)
Язык спецификации Веб-сервисов, на базее XML. Каждый WSDLдокумент делится на три логические части: определение типов данных
(определение вида отправляемых и получаемых сервисом XMLсообщений), абстрактные операции (список операций, которые могут
быть выполнены с сообщениями), связывание сервисов (способ,
которым сообщение будет доставлено).

Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 24
Использование онтологий.
Основные направления

Семантизация Web-контента

Обработка ЕЯ-текстов

Семантический поиск

Аналитика на знаниях

Приложения для Semantic Web
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 25
Использование онтологий.
Семантизация Web-контента
Семантизация Web-контента является основной
проблемой на пути формирования и использования
пространств знаний, так как основная масса
информации на Web не представлена в SWформатах и нет надежды, что эта работа может
быть выполнена вручную
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 26
Использование онтологий.
Обработка ЕЯ-текстов
 Semantic Web часто связывают с Искусственным Интеллектом, поскольку
идея представления информации в структурированном виде таким образом,
чтобы компьютеры ее «понимали» и могли решать сложные задачи была и
остается одним из краеугольных камней этих направлений исследований и
разработок.
Понятно, что представление биллионов существующих Веб-страниц,
например, в формате RDF – утопия. Альтернатива – обучить компьютеры
естественному языку, после чего дополнительное семантическое
аннотирование будет ненужным. Однако понимание ЕЯ компьютерами в
настоящее время открытая проблема. Поэтому и технологии Семантического
Веба пока даже не ставят эту задачу.


В качестве паллиатива предлагается:
 Разметка существующих страниц людьми-аннотаторами.

Автоматическая разметка с использованием словарей, тезаурусов и онтологий.

Извлечение информации из текстов под управлением онтологий.

Разработка систем понимания естественного языка.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 27
Использование онтологий.
Семантический поиск
Одним из первых кандидатов на приложение «убийцу» в категории
Semantic Web был и остается информационный поиск.

Сначала поисковая машина Hakia, а недавно и поисковик компании
Powerset «проповедуют» идею о том, что семантические поисковики,
основанные на понимании ЕЯ, «побьют» Google.

Однако пока результаты новых поисковых машин слабее, чем
результаты Google, который использует статистические алгоритмы, и
чтобы сместить эту компанию с лидирующего положения, которое она
занимает последние 8 лет, требуется смена парадигмы поиска и
новый опыт использования инновационных подходов к поиску
информации.

Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 28
Использование онтологий.
Семантический поиск (hakia)
Интернет-поисковик компании hakia
Inc. (основана в 2004г.) использует
альтернативную инфраструктуру для
индексирования на основе алгоритма
SemanticRank – решения, которое
«идет» от онтологической семантики,
нечеткой логики, компьютерной
лингвистики и математики. В составе
руководства компании такие известные
специалисты, как Prof. Victor Raskin
(Purdue University) и
Prof. Yorick Wilks, (Sheffield University,
UK).
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 29
Использование онтологий.
Семантический поиск (hakia)
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 30
Использование онтологий.
Семантический поиск (Powerset)
Цель компании Powerset (основана в 2005
г.) в том, чтобы изменить поиск за счет
системы понимания ЕЯ. Первый продукт
компании – поисковик Powerset открыт в
мае 2008 г. для отработки технологии на
страницах Wikipedia. По мнению
разработчиков, Powerset дает более точные
результаты, часто отвечая непосредственно
на вопрос, и агрегирует информацию из
многих статей Wikipedia. Кроме того,
пользователь получает возможность
построения дайджестов и навигации по
контенту.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 31
Использование онтологий.
Семантический поиск (Powerset)
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 32
Использование онтологий.
Семантический поиск (Exactus)
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 33
Использование онтологий.
Традиционный поиск (Google)
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 34
Использование онтологий.
Аналитика на знаниях
 Модельной задачей, которая хорошо иллюстрирует проблемы аналитики на
знаниях, является проблема «отличный отдых» или "Genie in the Bottle“.
Если Вы приходите в турагенство и просите организовать отличный отдых,
оператор не сможет этого сделать. Почему? Да потому, что для решения этой
задачи ему требуются знания о том, где Вы были до этого, кто собирается
отдыхать с Вами, что Вы предпочитаете, каков Ваш бюджет и т.д., и т.п.

Информация в Semantic Web структурирована. Но это не означает, что
компьютер умеет решать сложные задачи и использовать эту информацию
правильно.

Если у Вас есть карта, это не означает, что Вы знаете наилучший маршрут из
пункта A в пункт B. Наличие карты – необходимое, но не достаточное условие.
Необходим алгоритм поиска наилучшего пути.

А ответы на вопросы «Какой город является столицей Франции?» и «Какой
самый лучший рейс сегодня от Нью-Йорка до Парижа?» - совсем разные по
сложности задачи. Не говоря уже о более сложных вопросах типа «Где мне
следовало бы провести следующий отпуск?».

Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 35
Использование онтологий.
Приложения для Semantic Web

Семантические ярлыки (Semantic Shortcuts)
Известные примеры – SnapShots от компании Snap, BlueOrganizer и SmartLinks от
компании AdaptiveBlue, Shortcuts от компании Yahoo! и In-text search от компании
Lingospot.

Общее между всеми этими технологиями то, что здесь используется «легкая»
семантика контента для предоставления дополнительной информации. В случае
Snap и AdaptiveBlue семантика определяется URL, в то время, как Yahoo! и Lingospot
производят анализ текста. Так семантические ярлыки «удаляют» потребность в
поиске, обеспечивая нужный Веб-контент прямо на странице, которую просматривает
пользователь.


Социальные сети (Social Graph)
Социальные сети это не Semantic Web, хотя они стимулируют решения и
разработки в этой области. Знание о том, как связаны люди, очень важны для
решения разных задач. Поэтому социальные сети интересный и значимый тренд
2008 года.


Семантическая навигация (Semantic Navigation)
Семантическая навигация – одно из тех направлений развития Semantic Web,
которое может стать альтернативой семантическому поиску.

Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 36
Онтологические проекты



От AI к SW
 Инициатива (KA)2 – Knowledge Acquisition
Initiative of the Knowledge Acquisition
Community
 Проект SHOE – Simple HTML Ontology
Extensions
Из IT к SW
 Freebase
 Microformat
«Игроки» из ST для SW
 Protégé (Stanford, USA)
 NeOn (6FP, International project)
 ….
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 37
Онтологические проекты.
От AI к SW: Инициатива (KA)2
Аннотация знаний сообществом приобретения
знаний
Цель работ по этому международному проекту (1996-1999):
интеллектуальный поиск в среде Интернет и
автоматическое накопление новых знаний.
В рамках инициативы (KA)2 было три основных направления
исследований:
 Онтологический инжиниринг;
 Аннотация Web-страниц и
 Запросы к информации на Web-страницах и вывод ответов
на базе онтологических знаний.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 38
Онтологические проекты.
От AI к SW: Инициатива (KA)2
Проект Ontobroker [рук. - Fensel]
(интересен с точки зрения средств представления и
обработки онтологических знаний)
Подсистемы Ontobroker:
 Интерфейс формулирования запросов (query interface),
 Машина вывода ответов (inference engine) и
 Машина доступа к Интернет-ресурсам - Webcrawler для
накопления требуемых знаний из этой среды.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 39
Онтологические проекты.
От AI к SW: Инициатива (KA)2
Формализм запросов Ontobroker ориентирован на фреймовое
представление онтологий, в рамках которого определены
понятия экземпляров, классов, атрибутов и значений.
O:C[A->>V] – объект O является экземпляром класса C с
атрибутом A, имеющим значение V
Примеры:
FORALL Obj, FN, EM <Obj:Researcher [firstName->>FN; lastName->>"Иванов"; email->>EM]
Obj = http://www.anywhere.ru/~ivanov/
FN = Иван
EM = mailto:ivanov@anywhere.ru
FORALL Obj,CP <- Obj:Researcher [lastName ->>"Иванов"; cooperatesWith->>CP]
FORALL Att, T <- Researcher [Att=>>T]
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 40
Онтологические проекты.
От AI к SW: Инициатива (KA)2
Формализм представления и машина вывода Ontobroker
Онтология определяется через концепты (классы), связанные отношениями,
атрибуты и аксиомы. В Ontobroker базисом представления являются так
называемые логики фреймов (Frame-Logic)
Базисные конструкции:






Подклассы (Subclassing) - C1 :: C2 (класс C1 является подклассом C2).
Экземпляры (Instance of) - O : C (O является экземпляром класса C).
Декларации атрибутов (Attribute Declaration) - C1[A=>>C2] (для экземпляра класса
C1 определен атрибут A, значением которого должен быть экземпляр C2).
Значения атрибутов (Attribute Value) - запись O[A->>V] (экземпляр O имеет атрибут
A со значением V).
Часть-целое (Part-of) - запись O1 <: O2 (O1 является частью O2).
Отношения (Relations) - предикаты вида p(a1,...,a2) могут использоваться, как и в
обычных логических формализмах, но с тем расширением, что в качестве
аргументов здесь могут выступать не только термы, но и выражения.
Из базисных конструкций строятся более сложные - факты (facts), правила
(rules), "двойные" правила (double rules) и запросы (queries).
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 41
Онтологические проекты.
От AI к SW: Инициатива (KA)2
Пример фрагмента онтологии в формализме Ontobroker
Определения атрибутов
Person [firstName =>> STRING; lastName =>> STRING; eMail =>> STRING; ...
publication =>> Publication].
Employee [affiliation =>> Organization; ...].
Researcher [researchInterest =>> ResearchTopic; memberOf =>> ResearchGroup;
cooperatesWith =>> Researcher].
Publication [ author =>> Person;
title =>> STRING;
year =>> NUMBER;
abstract =>> STRING].
Правила
FORALL Person1, Person2
Person1:Researcher [cooperatesWith ->> Person2] <Person2:Researcher [cooperatesWith ->> Person1].
FORALL Person1, Publication1
Publication1:Publication [author ->> Person1] <->
Person1:Person [publication ->> Publication1].
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 42
Онтологические проекты.
От AI к SW (Проект SHOE)
Проект SHOE (1997-1999) был ориентирован на решение
проблемы добавления к Web-страницам семантической
информации и соотнесения ее с онтологиями
соответствующих предметных областей.
Основные направления исследований:
 Разработка множества повторно используемых онтологий
(reusable ontologies) для концептов, которые наиболее
частотны для Web-ресурсов

Создание средств проектирования онтологий аннотаторов знаний (Knowledge Annotator), которые бы
упростили этот процесс
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 43
Онтологические проекты.
От AI к SW (Проект SHOE)
Формализм представления и машина вывода

SHOE по своей идее близок к инициативе (KA)2 .
Концепция языка представления знаний здесь лежит в русле
расширения HTML специальными тэгами.
 Основное отличие языка SHOE в том, что здесь предлагается
"полномасштабное" расширение HTML. Для этого SHOE вводит в
HTML-стандарт следующие новые тэги для спецификации
онтологий:
 ONTOLOGY, USE-ONTOLOGY, DEF-CATEGORY, DEF-RELATION,
DEF-ARG, DEF-RENAME, DEF-CONSTANT, DEF-TYPE, DEFINFERENCE, INF-IF, INF-THEN,COMPARISON, CATEGORY,
RELATION, ARG и др.


Для аннотирования HTML-документов, кроме того, вводятся
новые тэги

INSTANCE, мета тэг <META HTTP-EQUIV =…"> и др.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 44
Онтологические проекты.
От AI к SW (Проект SHOE)
Общая схема определения онтологии:
<ONTOLOGY ID="идентификатор-онтологии"
VERSION="версия"
[BACKWARD-COMPATIBLE-WITH="список-версий"]
[DESCRIPTION="текст"]
[DECLARATORS="список-деклар.-экземпляров"]>
собственно-декларация-онтологии
</ONTOLOGY>
Данная онтология может расширять другую:
<USE-ONTOLOGY ID=" идентификатор-онтологии"
VERSION="версия" PREFIX="префикс" [URL="URL"]>
Внутри определения онтологи могут специфицироваться новые категории:
<DEF-CATEGORY NAME="имя-категории"
[ISA="список-родительских-категорий"]
[DESCRIPTION="текст"] [SHORT="текст"]>
Аналогичный подход применяется и для определения отношений:
<DEF-RELATION NAME="имя-отношения"
[DESCRIPTION="текст"] [SHORT="текст"]> список-аргументов
</DEF-RELATION>
Определение правил вывода:
<DEF-INFERENCE [DESCRIPTION="текст"]>
<INF-IF> тело </INF-IF>
<INF-THEN> голова </INF-THEN>
</DEF-INFERENCE>
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 45
Онтологические проекты.
От AI к SW (Проект SHOE)
Фрагмент онтологии в формализме SHOE:
<ONTOLOGY ID="HomePageOntology" VERSION="1.0">
<ONTOLOGY-EXTENDS "organization-ontology"
VERSION="2.1" PREFIX="org"
URL="http://www.ont.org/orgont.html">
<ONTDEF CATEGORY="Person" ISA="org.Thing">
<ONTDEF RELATION="lastName" ARGS="Person STRING">
<ONTDEF RELATION="firstName" ARGS="Person STRING">
<ONTDEF RELATION="marriedTo" ARGS="Person Person">
<ONTDEF RELATION="employee" ARGS="org.Organization Person">
………………………………………………………….
</ONTOLOGY>
Фрагмент аннотации персональной страницы:
<BODY>
<META HTTP-EQUIV="Instance" CONTENT="http://www.anywhere.ru/~ivanov">
<USE-ONTOLOGY "HomePageOntology« VERSION="1.0" PREFIX="our"
URL="http://www.ont.org/HomePageOntology.html">
<CATEGORY "our.Person">
<RELATION "our.firstName" TO="Ivan">
<RELATION "our.lastName" TO="Ivanov">
<RELATION "our.marriedTo" TO="http://www.somewhere.ru/~Mariya">
<RELATION "our.employee" FROM="http://www.ccas.ru">
………………………………………………………..
</BODY>
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 46
Онтологические проекты.
Из IT к SW (Freebase)
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 47
Онтологические проекты.
Из IT к SW (Freebase)
Что такое Freebase?

Структурированные данные (специальная БД)
 Кооперативно редактируемые каталоги тем
 Кооперативно формируемая семантика (фольксономии)
 Открытый API + открытые данные
Что «внутри» Freebase?


Более 3.3 млн. объектов
 Примерно 750 000 физических лиц
 Примерно 450 000 геоимен
 Примерно 50 000 организаций
 Примерно 40 000 фильмов
Более 1000 типов и 3000 свойств
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 48
Онтологические проекты.
Из IT к SW (Freebase)
Информация о типах объектов Freebase
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 49
Онтологические проекты.
Из IT к SW (Freebase)
Спецификация Freebase для объектов типа ФизЛицо
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 50
Онтологические проекты.
Из IT к SW (Freebase)
Информация о людях (русских) из БД Freebase
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 51
Онтологические проекты.
Из IT к SW (Freebase)
Создание объектов для погружения в БД Freebase
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 52
Онтологические проекты.
Из IT к SW (Freebase)
Редактор запросов Freebase
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 53
Онтологические проекты.
Из IT к SW (Freebase)
Согласно идеологии Freebase
Онтология
это НЕ
ЭТО



Магия
Панацея
Изменение мира



Артефакт
API
Социальный контент
Разработчики Freebase вводят понятие – семантика «участия» (совместная
семантика), иллюстрируя его следующим образом:
(Автор)
Формальная онтология
(Сообщество)
Новая семантика
Конвергентная семантика
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 54
Онтологические проекты.
Из IT к SW (Freebase)
Фрагмент онтологии Freebase Movie
Из доклада: J. Taylor, C. Evans, T. Segaran, Creating Semantic Mashups: Bridging Web 2.0 and the Semantic Web, In:
Proc. of International Conference “SemTech-2008”, California, USA, 2008
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 55
Онтологические проекты.
Из IT к SW (Freebase)
Запросы и сервисы сервера Metaweb
Пример сервиса (Java Script):
Специфицируются с использованием
языка MQL (Metaweb Query Language).
 Для реализации имеется библиотека
шаблонов, написанных на языках Perl,
Python, PHP и JavaScript.

Фрагмент запроса (JSON):
{
# This is the outer envelope object
"q0": {
# This is the first inner envelope. The name "q0" is arbitrary
"query": { # The first MQL query goes here
}
},
"q1": {
# This is the second inner envelope
"query": [{ # Second MQL query goes here. Note that this one is in []
}]
}
}
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 56
Онтологические проекты.
Из IT к SW (Microformat)
Цель микроформатов – «внедрить» базисную семантику непосредственно в
HTML-страницы.
Пока микроформаты не столь выразительны, как RDF или OWL, но они
очень компактны и используют возможности XHTML для добавления
семантики к страницам Интернет.
Примеры используемых микроформатов:
hCard (используется для аннотирования HTML-страниц таким образом,
чтобы понимающие его Веб-браузеры или поисковые машины могли вывести
такую информацию о человеке, как его имя и фамилия, компания или номер
телефона).
 hCalendar (позволяет аннотировать события на странице).

Facebook и Yahoo! Local, Google Social Graphs и др. используют
микроформаты для аннотирования событий на своих страницах.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 57
Онтологические проекты.
Из IT к SW (Microformat)
API социальных сетей Google
Современный Веб – это связанные страницы, представляющие
документы и людей.
 Поиск Google помогает сделать эту информацию доступной и полезной.
Как? За счет использования разметки FOAF и специальных процедур,
«умеющих» работать с такой разметкой.

Пример FOAF-спецификации человека Edd Dumbill:
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:foaf="http://xmlns.com/foaf/0.1/">
<foaf:Person>
<foaf:name>Edd Dumbill</foaf:name>
<foaf:mbox rdf:resource="mailto:edd@xml.com" />
</foaf:Person>
</rdf:RDF>
Фрагмент описания запроса:
{
"canonical_mapping": { "A": "a" },
"nodes": {
"a": { "attributes": {}, "claimed_nodes": [ "b" ] },
"b": { "attributes": {}, "claimed_nodes": [ ] },
}
}
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 58
Онтологические проекты.
«Игроки» из ST для SW (Collaborative Protege)
Эволюция разработки онтологий
Расширение сообщества разработчиков
Усложнение разрабатываемых онтологий
Повышение качества средств коллективной разработки
(дискуссии, Веб-просмотр и редактирование и др.)



Из доклада: T. Tudorache, N. Noy, Collaborative Protégé: Supporting Community-based Ontology Development,
In: Proc. of International Conference “SemTech-2008”, California, USA, 2008
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 59
Онтологические проекты.
«Игроки» из ST для SW (Collaborative Protege)
Требования к инструментарию:








Средства для дисскуссий и достижения консенсуса
 Аннотирование компонент и (возможно) изменений
 Включение, как часть, в процесс разработки
Контекст для дискуссий в процессе моделирования решений
История изменений и ассоциированных с ними дискуссий
История и доверие
 Поддержка истории концептов
 Обеспечение путей установления доверия
Персонализация взглядов на онтологию на основе
 Ролей пользователя и его задач
 Уровня компетенции пользователя
 Области доверия к пользователю
Контроль доступа
 Взвешенный контроль редактирования и просмотра
Поддержка ролей пользователя
Гибкая поддержка схем разработки
 Конфигурируемые схемы разработки
 Совмещение исполнения схемы разработки и процесса создания онтологии
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 60
Онтологические проекты.
«Игроки» из ST для SW (Collaborative Protege)
Характеристики кооперативной версии Protege:
 Расширение существующей версии

Поддержка
 Аннотирования компонент онтологий и изменений
 Линий дискуссий
 Предложений и голосования
 Поиска и фильтрации
 Регистрация пользователей, групп и политик
 Использование в новой версии OWL и Frames


Возможность многопользовательской и автономной работы
Распределенная инсталляция Protégé
Компоненты кооперативной версии Protege:

Редактор онтологий



Компонент аннотирования


Базисное редактирование
Новые функционалы
Онтология пользователя аннотируется примерами из аннотационной онтологии
Компонент поддержки трека изменений

Изменения сохраняются как примеры в аннотационной онтологии
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 61
Онтологические проекты.
«Игроки» из ST для SW (Collaborative Protege)
Архитектура клиент-сервер
 Приложения и компоненты на стороне клиента используют общий
Changes & Annotations API для работы с аннотациями и изменениями,
связанными с онтологией
Из доклада: T. Tudorache, N. Noy, Collaborative Protégé: Supporting Community-based Ontology Development,
In: Proc. of International Conference “SemTech-2008”, California, USA, 2008
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 62
Онтологические проекты.
«Игроки» из ST для SW (Collaborative Protege)
Онтология ChAO (Changes & Annotation)
Из доклада: T. Tudorache, N. Noy, Collaborative Protégé: Supporting Community-based Ontology Development,
In: Proc. of International Conference “SemTech-2008”, California, USA, 2008
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 63
Онтологические проекты.
«Игроки» из ST для SW (Collaborative Protege)
Веб-интерфейсы
WebProtege


Веб-версия системы
Цели разработки:
Просмотр онтологий через
Веб-браузер
 «легкое» редактирование
 поддержка совместной
работы
 поддержка разных схем
взаимодействия
 простота кастомизации и
расширения

Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 64
Онтологические проекты.
«Игроки» из ST для SW (NeOn)
Проект Networked Ontologies
Справка:
Европейский проект в 6-й
Рамочной Программе по
направлению «Semanticbased Knowledge and Content
Systems» (бюджет € 14.7 млн.,
4 года, начало – 03.2006)
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 65
Онтологические проекты.
«Игроки» из ST для SW (NeOn)
Цели проекта NeOn
Из презентации на конференции IST-2005
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 66
Онтологические проекты.
«Игроки» из ST для SW (NeOn)
Платформа NeOn это:

Поддержка «жизненного цикла»
Взаимодействие активностей
периода разработки и исполнения

Ориентация на онтологический
инжиниринг и использование
онтологий
 Расширяемость архитектуры на
всех уровнях

Из статьи:
T. Tran, P. Haase, H. Lewen, O. Munoz-Garcia, et. al., «Lifecycle-Support in Architectures for Ontology-Based Information Systems»
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 67
Онтологические проекты.
«Игроки» из ST для SW (NeOn)
Инструментарий NeOn:
Редактор OntoStudio
от ontoprice GmBH
Поддерживает
 онтологический
инжиниринг и управление
 полный «жизенный цикл»
 сетевую работу с
онтологиями (модульность,
отображение и т.д.)
 Разработан
 на платформе Eclipse
 Расширяет архитектурe за счет
 механизма плагинов Eclipse
 Веб-сервисов

Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 68
Онтологические проекты.
«Игроки» из ST для SW (…)
... не потому, что других проектов систем нет, а
потому, что их слишком много для обсуждения
Некоторые из игроков на рынке Semantic
Technologies для Semantic Web:
 ontoprice GmBH (Karsruhe, Germany)
 ontoEdit
 Altova (USA)
 AltovaEditor
 etc.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 69
Онтологические модели.
Так откуда и куда мы идем?
В теоретическом плане:
Явное снижение мощности используемых
формализмов и моделей представления знаний
 Frame Logic «>» OWL «>» Microformat
В плане эффективности
Явная тенденция к использованию идей и методов,
наработанных в СУБД, для реализации СУБЗ
 Oracle 11g (RDF-store)
 HP SPARQL Point
 Jena, JSON
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 70
Semantic Web.
Так откуда и куда мы идем?
Взаимодействие знаний и рассуждений
Агенты, которые
знают, учатся и
рассуждают как люди
Семантический Веб
Объединяет
знания
Веб
Объединяет
информацию
Веб «вездесущий»
Формирует
общий интеллект
Социальный Веб
Объединяет
людей
Социальное взаимодействие
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 71
Семантизация контента
под управлением онтологий.
Ситуация в мире
Интегральные характеристики территориального присутствия
Austria - 3%
Bulgaria - 3%
Canada -9%
Others - 5%
China - 3%
France - 5%
USA - 34%
Germany - 9%
Israel - 3%
UK - 7%
Italy - 5%
Switzerland - 3%
Norway - 3%
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Japan - 5%
New Zealand - 3%
Page 72
Семантизация контента
под управлением онтологий.
Ситуация в мире
Производители США и Канады
70
60
50
40
30
20
10
Итого:
0
Технический уров ень
Delphes
Megaputer
Intelligence
Область охв ата
MITRE
SRA International
Teragram
Text Analysis
International
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 73
Семантизация контента
под управлением онтологий.
Ситуация в мире
Европейские производители и другие регионы
80
70
60
50
40
Итого в целом:
30
Итого:
Поддержка стандартов
Масштабируемость решений
Наукоемкость решений
Тип продуктов
20
10
Итого:
Спектр пользователей
Номенклатура функционалов
Спектр обрабатываемых языков
Спектр применений
C
om
pr
is
C
le
ar
Fo
re
C
st
In
o
In
g
te
si
llig nIT
gh
e
tfu
l C Co nce
n
In
xi orp ver
gh
or
a
t S at
i
o
of
tw n
a
O
nt re
ot
e
TE xt
M
IS
0
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 74
Семантизация контента
под управлением онтологий.
Ситуация в мире (Проект Calais)
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 75
Семантизация контента
под управлением онтологий.
Ситуация в мире (Проект Calais)
Entities
Events/Fact
City
Acquisition
Company
Alliance
Continent
Bankruptcy
Country
BusinessRelation
IndustryTerm
Buybacks
MoneyAmount
CompanyEarningsAnnouncement
Organization
CompanyEarningsGuidance
Person
CompanyInvestment
ProvinceOrState
CompanyLegalIssues
Region
JointVenture
URL
ManagementChange
Merger
PersonPolitical
PersonPoliticalPast
PersonProfessional
PersonProfessionalPast
StockSplit
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 76
Семантизация контента
под управлением онтологий.
Ситуация в мире (Проект Calais)
Событие приобретения компании ClearForest Ltd. Агенством
"Reuters":
<rdf:Description rdf:about="http://d.opencalais.com/genericHasher-1/e83cd6932146-32a2-b1fe-c4a73615dbf0">
<rdf:type rdf:resource="http://s.opencalais.com/1/type/em/r/Acquisition"/>
<!--Reuters-->
<c:company_acquirer rdf:resource="http://d.opencalais.com/comphash1/48344864-ce62-3064-ae05-a3b41fab186c"/>
<!--ClearForest Ltd.-->
<c:company_beingacquired rdf:resource="http://d.opencalais.com/comphash1/9dd2192a-4cd2-3b9a-ac2f-b6a0d1fed773"/>
<c:status>planned</c:status>
</rdf:Description>
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 77
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Общие замечания
Анализ ситуации в области наукоемких решений, связанных
с семантизацией контента, показывает, что на данной
области можно выделить следующие взаимосвязанные и
частично пересекающиеся сегменты:



Заказные проекты
Готовые продукты
Удаленные сервисы
В силу специфики данного доклада основное внимание
будет уделено последнему сегменту – семантическим
сервисам
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 78
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Мониторинг ситуации в России и СНГ показывает,
что наиболее активными здесь являются
следующие компании:






ЗАО «Авикомп Сервисез» (основана в 1991 году).
ЗАО «Синергетические Системы» (основана 2006 году).
ООО «ЭР СИ О» (преобразована в самостоятельную
компанию в 2006 году).
Компания САЙТЭК (работает 5 лет).
Компания «Яndex» (работает с 1997 года).
Проект «КтоТам» (инициативная разработка)

Информационный центр ElVisti (начал свою деятельность
в 1992 г. на Украине).

Компания EffectiveSoft (основана в 2000 году в
Беларусии, Минск).
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 79
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
ЗАО «Авикомп Сервисез»
Работы в области обработки ЕЯ и семантических технологий ведутся с 2001 г.
Основные продукты:
Семейство систем извлечения информации из текстов на ЕЯ под управлением
предметных онтологий






Инструментарий онтологического инжиниринга и аналитики на знаниях


LightOntos, LightOntos 2.0 for Workgroups
Семантические хранилища


OntosMiner/English (предметная область – «Политика и бизнес»)
OntosMiner/Russian (предметная область – «Политика и бизнес: Люди и организации»)
OntosMiner/German (предметная область – «Политика и бизнес», бэта-тестирование)
OntosMiner/Medicine (предметная область – «Лекарства: показания и противопоказания»)
RDF-store (Реализация на базе Oracle 11g)
Семантический Веб





OntosMiner/SemWeb English (предметная область – «Новости политики и бизнеса»)
OntosMiner/SemWeb Russian (предметная область – «Новости политики и бизнеса»)
Семантический новостной портал Ontos Russian
Семантический новостной портал Ontos English
Медицинский портал MedTrust
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 80
Решения Ontos для Semantic Web.
Обработка текстов под управлением онтологий
Предметная онтология «Политика и бизнес»
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 81
Решения Ontos для Semantic Web.
Обработка текстов под управлением онтологий
Общая схема обработки текстов
Web
doc, xls, pdf
Crawler
plain
text
filters
OntosMiner™
•Oracle RDF Store
•MS SQL Server 2005
•InMemory DB
•IBM DB2
RDF-Store
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 82
Решения Ontos для Semantic Web.
Обработка текстов под управлением онтологий
Аналитика на знаниях
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 83
Решения Ontos для Semantic Web.
Семантический портал Ontos
Object
card
Object relations
(Employment,
Interactions,
Citations,...)
Relevant
Docs
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 84
Решения Ontos для Semantic Web.
Семантический портал Ontos
Дайжестирование коллекции документов «On Fly»
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 85
Решения Ontos для Semantic Web.
Семантический портал Ontos
Дайжестирование коллекции документов «On Fly» (прод.)
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 86
Решения Ontos для Semantic Web.
Семантический портал Ontos
Пример реферата
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 87
Решения Ontos для Semantic Web.
Семантический портал Ontos
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 88
Решения Ontos для Semantic Web.
Семантический портал Ontos
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 89
Решения Ontos для Semantic Web.
Семантический портал Ontos
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 90
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
ЗАО «Синергетические Системы»
Направления работ:
Инструментальные средства
разработчика семантикоориентированных
информационных и
аналитических систем.
 Решения для автоматического
анализа электронных СМИ.
 Решения для создания
интеллектуальных баз знаний,
электронных библиотек и систем
поддержки принятия решений.
 Решения для автоматической
классификации и каталогизации
неструктурированной
информации.

Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 91
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
ЗАО «Синергетические Системы» (демо SynSys Semantix)
С сайта компании: http://www.semantix4you.com
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 92
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Компания «ЭР СИ О»
На рынке продуктов, связанных с обработкой естественного
языка и семантическими технологиями, RCO занимает
устойчивое положение в течение последних 3-5 лет.
Основные продукты:
 Инструментарий разработчика
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Fact Extractor SDK

Инструментарий аналитика
RCO Fact Extractor
RCO KAOT
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 93
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Компания «ЭР СИ О»
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 94
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Компания «ЭР СИ О» (обработка текстов под управлением онтологий)
Из статьи: А.Е. Ермаков, Автоматическое извлечение фактов из текстов досье: опыт установления анафорических связей, Сб. трудов
Международной конференции «Компьютерная лингвистика и интеллектуальные технологии» (Диалог’2007). – Москва, Наука, 2007
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 95
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Компания «ЭР СИ О» (обработка текстов)
Пример семантической сети, соответствующей
предложению «В ноябре 2003 года Полыхаев
совершил сделку по покупке акций ООО “Ромашка”
у Корейко».
Из статьи: А.Е. Ермаков, Автоматическое извлечение фактов из текстов досье: опыт установления анафорических связей, Сб. трудов
Международной конференции «Компьютерная лингвистика и интеллектуальные технологии» (Диалог’2007). – Москва, Наука, 2007
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 96
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Компания «ЭР СИ О» (RCO Fact Extractor)
С сайта компании: http://www.rco.com
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 97
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Компания «ЭР СИ О» (аналитика на знаниях из текстов – RCO КАОТ)
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 98
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Компания «ЭР СИ О» (аналитика на знаниях из текстов – RCO КАОТ)
С сайта компании: http://www.rco.com
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 99
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Компания «ЭР СИ О» (решение для Semantic Web)
30 января 2008
Решения RCO внедрены в новостной агрегатор
CNews Дайджест
С Нового года издание CNews запустило новую услугу
для своих читателей - новостной агрегатор CNews
Дайджест, в котором отображается самая актуальная
информация из мира ИТ, формируя полную новостную
картину дня.
В проекте использованы разработки RCO в области
компьютерного анализа текста: лингвистические
алгоритмы для понимания естественного языка,
кластерный анализ для агрегации новостей в сюжеты,
алгоритмы классификации для отнесения новостных
сюжетов к рубрикам, методы выделения упоминаний о
компаниях для подсчета их рейтинга. Постоянная
обработка новостей, экспортируемых по технологии
RSS из более 40 информационных источников, а также
всех новостей портала CNews, производится
полностью автоматически.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 100
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
ЗАО «СайТэк»
Флагманский продукт:
 Информационноаналитическая система
«АРИОН» - мощное
средство работы с
разнородными
источниками
информации,
использующее
инновационные
технологии извлечения и
обработки знаний.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 101
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
ЗАО «СайТэк» (общая архитектура системы «Арион»)
С сайта компании: http://www.sytech.com
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 102
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
ЗАО «СайТэк» (обработка текстов в системе «Арион»)
С сайта компании: http://www.sytech.com
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 103
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
ЗАО «СайТэк» (генерация дайджестов в системе «Арион»)
С сайта компании: http://www.sytech.com
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 104
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Компания «Яndex»
Пресс-портреты в Новостях (справочная информация о
людях, упоминаемых в российских СМИ: даты рождения и
смерти, места работы, должности, их высказывания и
мнения третьих лиц).
 Цитаты в Новостях (автоматически выделенная из
сообщений СМИ прямая или косвенная речь с указанием
авторства).
 Новости регионов (новостные рубрики для всех регионов
России и Украины, а также для некоторых зарубежных
стран).

Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 105
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ (Yandex)
Экранные формы пресс-портрета Алины
Кабаевой
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 106
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ (Yandex)
Cервис «Цитаты в новостях»
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 107
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ (Yandex)
Cервис «Цитаты в блогах»
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 108
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Проект «КтоТам»
«КтоТам» – информационнопоисковая система нового типа.
Она позволяет извлекать и
объединять знания из массивов
открытой публичной информации.
Знания этой системы – это люди,
организации, явления и предметы
окружающего нас мира.
Основным ее отличием является
то, что результат поиска – это весь
объем знаний, доступный в одном
месте, а не множество ссылок на
разрозненные сайты. Не менее
важным, а порой и более полезным
отличием выступает возможность
поиска связей между объектами –
связи между людьми, между
организациями, между событиями.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 109
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Проект «КтоТам» (пример хороших результатов)
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 110
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Проект «КтоТам» (организация индекса)
SmartIndex(многоуровневый набор фактов и атрибутов о каком либо
явлении) предложения «глава компании Имярек, Александр Краснов,
подписал приказ о назначении Ивана Франко руководителем отдела
аналитики»:
глава<id=1. ДОЛЖНОСТЬ. ЗНАЧЕНИЕ-Глава>
компании Имярек<id=2. КОМПАНИЯ. НАЗВАНИЕ-Имярек>,
Александр Краснов<id=3. ПЕРСОНАЖ. РОД-МУЖСКОЙ. ИМЯ-Александр. ФАМИЛИЯКраснов>,
подписал<id=4. СОБЫТИЕ. ЗНАЧЕНИЕ-Подписать. ФОРМА-Совершенная>
приказ о назначении<id=5 ФИЗИЧЕСКИЙ ОБЪЕКТ>
Ивана Франко<id=6 ПЕРСОНАЖ. РОД-МУЖСКОЙ. ИМЯ-Иван. ФАМИЛИЯ-Франко>
руководителем<id=7 ДОЛЖНОСТЬ. ЗНАЧЕНИЕ-Руководитель>
отдела аналитики<id=8 КОМПАНИЯ:ПОДРАЗДЕЛЕНИЕ. НАИМЕНОВАНИЕ-отдел
аналитики. ТИП-отдел>
<СВЯЗЬ id3-id2 ТИП=РАБОТА. ДОЛЖНОСТЬ=id1>
<СВЯЗЬ id6-id8 ТИП=РАБОТА. ДОЛЖНОСТЬ=id7>
<и так далее>
Кроме того, SmartIndex содержит информацию об источнике фактов,
атрибуты, дату и множество других дополнительных сведений.
Подобные индексы строятся при каждом упоминании компании Имярек
или Александра Краснова и Ивана Франко.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 111
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Проект «КтоТам» (пример неудачных результатов)
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 112
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Информационный центр ElVisti (главная
страница)
Система InfoStream:
 Доступ к оперативной
информации с единого
интерфейса в поисковом
режиме с учетом возможного
дублирования и семантической
близости, языковых версий и т.
д.;
 Доступ к ретроспективному
фонду, превышающему 50 млн.
записей;
 Поддержку аналитической
работы в режиме реального
времени: построение сюжетных
цепочек, дайджестов, диаграмм
встречаемости и таблиц
взаимосвязей понятий, медиарейтингов.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 113
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Информационный центр ElVisti (поиск сюжетов)
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 114
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Компания EffectiveSoft (основные компоненты
Из документации компании: http://www.effectivesoft.com
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 115
Семантизация контента
под управлением онтологий.
Ситуация в России и СНГ
Компания EffectiveSoft (обработка текстов)
Из документации компании: http://www.effectivesoft.com
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 116
Заключение.
Перспективы Semantic Web
Richard MacManus, Editor, ReadWriteWeb:
1.
2.
3.
4.
5.
6.
Semantic Apps will become popular in 2008, due to their ability to get better content
results and make better data connections. Think search engines like Hakia and Powerset,
wikipedia-like efforts like Twine and Freebase, and apps that use semantic technologies
under the hood (such as AdaptiveBlue and Snap).
In tandem with #1, Google will experiment more with Semantic Apps in '08. The Knols
project, although not overly semantic, is a hint of this direction.
Web Services platforms will be a fierce battleground in '08, with Amazon, Microsoft,
Google, Mozilla and others competing to provide 'Web OS' and online storage to
consumers. Unfortunately this may spell the end of a number of startups in this space.
The online advertising market will consolidate, after the spate of acquisitions in 2007.
CPM will continue to dominate for media brands and CPC for niche sites, although there
will be experimentation in VRM and other forms of highly specific targeting of ads. Privacy
issues will prevent the latter from becoming mainstream though. The much-hyped CPA
(Cost per Action) will continue to be a pipe dream, because publishers simply don't want
it.
The big Internet companies will surprise us all by embracing open standards, and
attempting to compete with each other with features instead of data lock-in.
The most interesting innovations on the Web in 2008 won't happen in Silicon Valley, but in
Asia (China, Japan, Korea). At least one startup from China will break through in the US
market with Twitter-like success in 2008 - and it will almost certainly be a Mobile Web app.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 117
Заключение.
Перспективы Semantic Web
Alex Iskold, Feature Writer, ReadWriteWeb:
1.
2008 will be slow and cautious, with the first half dominated by recession or
fear of recession.
2.
Facebook is going to see the same kind of decline in popularity in 2008 that
MySpace saw in 2007.
3.
Digg is going to be acquired by one of the mainstream media conglomerates.
4.
Implicit applications, which monitor our habits and automatically infer our
likes, will rise.
Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008
Page 118
Спасибо за терпение!
Вопросы?
Ontos
NOW YOU KNOW
Download