П - Институт вычислительной математики и математической

advertisement
П.А.Калантаев, к-т техн. наук
В.П.Пяткин, д-р техн. наук
Ин-т вычислительной математики
и математической геофизики СО РАН
(Россия, 630090, Новосибирск, пр. Лаврентьева, 6,
тел.(383) 3307332, Е-mail: kln@ooi.sscc.ru )
Интерпретация семантики геоданных, распределенных в Web
Аннотация. В докладе представлены идеи, концепции и сервисы глобальной WWW информатики, на основе которых предлагается технология семантической интерпретации
геоданных распределенных в Web. Программное ядро технологии -оригинальный
транслятор текстовых атрибутивных геоданных.
Введение
Парадигма современной информатики
предполагает WWW-интеграцию
глобальных ДДЗ и локальных отраслевых данных в целостный объект данных планета Земля, со всем ее природным и антропогенным содержанием. В первой
части доклада рассматриваются новейшие понятия и направления глобальной
геоинформатики, обуславливающие тему исследования, это: семантическое
моделирование в БД; NeoGeo –неогеография; Web-2; Wiki проекты;
GeoWeb - Geospatial Web; картографические web-сервисы OGC. Новый
подход в разработке локальных ГИС – это вписывание ГИС в глобальный
сетевой массив ДДЗ посредством Web –семантики. Обновление глобальныхлокальных данных сверху-донизу, и это важно, производится посредством
коллективной технологии Wiki, успешно себя зарекомендовавшей в самых разных
приложениях WWW. Новый подход отчасти заявлен первой конференцией
подобной тематики: Infrastructure: Local to Global, 21-26 июля 2008, Ванкувер,
Канада.
Первая часть доклада дает представление об идеях, концепциях и
парадигмах глобальной информатики, на основе которых во второй части доклада
предлагается технология семантической интерпретации геоданных в WEB.
Программное ядро технологии -оригинальный транслятор текстовых
атрибутивных геоданных, разработанный на языке Java.
1. Семантическое моделирование в БД
В реальном проектировании баз данных преобладает естественный метод
семантического моделирования структуры данных, опирающийся на смысл
этих данных. В качестве инструмента семантического моделирования
используются различные варианты диаграмм сущность-связь. По сути, все
варианты диаграмм сущность-связь исходят из одной идеи - рисунок всегда
нагляднее текстового описания. Все такие диаграммы используют графическое
изображение сущностей предметной области, их свойств (атрибутов), и
взаимосвязей между сущностями [1]. Неогеография, рассмотренная ниже, также
базируется на методе семантического моделирования атрибутивных геоданных
представленных в формате гипертекста WWW.
2. NeoGeo –Неогеография
Неогеография — новое поколение средств и методов работы с
геопространственной информацией, отличающееся от предыдущих (карт и ГИС)
тремя основными признаками: 1) Использованием географических (широта,
долгота, высота), а не картографической (x, y) систем координат; Это позволило
решить ключевую проблему обычных карт - сведение высокоточных геоданных
воедино;
2) Применением растрового, а не векторного представления
географической информации в качестве основного; Это позволяет комплексно
отображать местность; 3) Использованием открытых гипертекстовых форматов
представления геоданных. Термин Неогеография (NeoGeo) получил широкое
распространение после выхода в свет в декабре 2006 года книги Эндрю Тёрнера
"Введение в Неогеографию". NeoGeo представляет собой набор методик и
средств, выходящих за рамки “классических” ГИС. NeoGeo объединяет воедино
сложные технологии картографии и ГИС и делает их доступными для
пользователей и разработчиков. NeoGeo эпохи Web 2.0 предполагает, что
картографические данные создаются самими пользователями, которые как
правило, не географы-профессионалы. Классический пример решений,
выполненных в идеологии NeoGeo -это геопорталы Google Earth и Google Maps.
3. Web 2.0
Появление термина Web 2.0 принято связывать со статьёй "Tim O'Reilly - What Is
Web 2.0" от 30 сентября 2005 года. В этой статье Тим О'Рейли выявил некоторые
новые принципы создания сайтов в соответствии с общей тенденцией развития
интернет-сообщества, и назвал это явление Web 2.0, в противовес "старому" Web
1.0.
Исследователи Web 2.0 выделяют несколько основных аспектов этого
явления: Web-службы; AJAX (Асинхронные JavaScript и XML); Webсиндикация; Mash-up (Web приложение комбинирущее данные и функции
нескольких источников: текстовых, графических, аудио, видео и др.); Метки
(теги); Социализация.
4. Wiki проекты
Wiki —web-сайт, структуру и содержимое которого пользователи могут сообща
изменять с помощью простых инструментов, предоставляемых самим сайтом.
Wiki часто используются для коллективного создания объемных и сложных webсайтов различной тематики. Семантическая wiki — wiki, модель знаний которой
описана на ее страницах. Обычные wiki заполняются структурированным текстом
и нетипизированными гиперссылками. Семантические wiki позволяют указывать
тип ссылок между статьями, тип данных внутри статей, а также информацию о
страницах (метаданные). Цель семантической wiki: обеспечить машинную
обработку Web данных с минимальными усилиями для пользователей. По wikiпринципам строят картографические сервисы, пример
http://wikimapia.org
5. GeoWeb - Geospatial Web
Geospatial Web или Geoweb подразумевает объединение географической
(локально-ориентированной) информации с текущей абстрактной информацией
Интернет. Это позволяет создать среду, в которой можно искать вещи на основе
местоположения, вместо поиска по ключевым словам. Среда Geoweb -это киберинфраструктура, объединяющая
Интернет адресацию и иерархическую
пространственную адресацию.
Таким образом Geoweb характеризуется
самосинхронизацией сетевой адресации, времени и места.
6. Картографические web-сервисы OGC
Становятся популярными различные картографические интернет-сервисы,
например, Google Earth / Google Maps. Общие принципы и стандарты
программного обеспечения такого рода сервисов, разрабатываются и
декларируются международной некоммерческой организацией OGC - Open
Geospatial Consortium. Одной из первых разработок OGC были стандарты по
созданию GML - Geography Markup Language - языка группы XML,
предназначенного для описания географически привязанных объектов. GML
может быть использован и как язык моделирования, и как язык передачи
пространственной информации в сети. Важная спецификация OGC -KML Keyhole Markup Language: XML- ориентированный язык схем для экспрессаннотаций и визуализации текущей и будущей Web -основы, двухмерных карт и
трехмерных обзоров Земли.
7. Технология семантической интерпретации геоданных
Технология семантической интерпретации геоданных (рис.1) базируется на
трансляторе пользовательского мета языка семантической разметки
атрибутивных геоданных WEB. Назначение транслятора -автоматизация
семантической разметки и преобразования в формат HTML-XML, уже
накопленных разнородных атрибутивных геоданных для задач исследования
природных ресурсов [3]. Транслятор (рис.2), на основе входного текстового
файла разметки геоданных, формирует выходной файл в формате HTML-XML,
в том числе онтологии конкретных предметных областей. Технология допускает
итеративный процесс семантической разметки и редактирования пользователем
промежуточных результатов трансляции, остановленной после интерпретации
встроенных функций обработки размеченного текста, если таковые обнаружены
транслятором.
Рисунок 1: Блок схема технологии геосемантической разметки в
технологических процессах интерпретации геоданных в WEB
Промежуточный результат трансляции -суть добавление к исходному тексту
(макроподстановка) результатов его интерпретации в формате входного мета
языка, после редакции может быть вновь интерпретирован или окончательно
транслирован в формат HTML-XML. Транслятор может быть настроен на
различные мета языки пользователей, варьируемые в рамках "правил описания
языка". Согласно "правилам" синтаксис языка задается в НФБ (нормальная форма
Бэкуса-Наура). Конструкции пользовательского мета языка семантической
разметки
геоданных:
-- Типы данных, переменных и констант - символьные, текстовые и числовые
целые;
-- Служебные слова и символы семантической разметки;
-- Встроенные функции обработки размеченного текста:
- статистика повторяемости ключевых слов в блоке текста,
- проверка грамматики слов на основе машинного словаря русского языка,
- контекстный поиск и замена по образцу,
- замена почтовых адресов, указанных в блоке текста, в реальные географические
координаты,
- определение принадлежности имени собственного заданным категориям имен,
(фамилия, имя, отчество, название населенного пункта),
- и т.д.
Планируется расширение мета языка управляющими операторами обработки
объектов текста.
Генератор гипертекста HTML-XML представляет собой алгоритм обхода дерева
и выполнения над ним трех операций. Во-первых, получение типов всех функций
и объектов, определение области их видимости. Это позволит автоматически
генерировать код для корректной записи аргументов функций и иных объектов.
Во-вторых, происходит раскрытие конструкций метаязыка в новые ветви дерева.
И последнее - запись обработанных ветвей кода метаязыка обратно во входной
файл (макрорасширение и макроподстановка результатов интерпретации функций
обработки текста).
Рисунок 2: Принципиальная схема транслятора мета языка для
генерации гипертекста HTML-XML.
Заключение
В заключение следует отметить факт разрастающейся, как снежный ком, сферы
применения инструментов и стандартов глобальной WWW в локальных областях
науки, техники и народного хозяйства. Универсализация локальной информатики
в терминах глобальной информатики - процесс добровольный, ибо дает
пользователям как правило бесплатный (FreeWare) инструмент, разработанный
коллективно и наилучшим образом проверенный большим числом пользователей.
Приспособление локальных задач к инструментам решения глобальных задач объективный процесс развития информационных технологий отраслей
промышленности, востребованных на мировом рынке. Вхождение России в
процесс глобальной информатизации происходит
по мере возвращения
отечественной промышленности на передовые позиции в мире. Обоснованная в
докладе, находящаяся в стадии реализации и отладки, технология семантической
интерпретации геоданных в WEB дает функциональное наполнение базы данных
природных явлений, созданной на предыдущем этапе разработки [3].
Работа выполнена частично при финансовой поддержке Российского фонда
фундаментальных исследований, проект № 07-07-00085a.
Список литературы
1. П.А.Калантаев. Семантическая организация пространственных данных. // В сборнике трудов
Международной Конференции "ИНТЕРКАРТО - ИНТЕРГИС 11 Устойчивое развитие территорий:
теория ГИС и практический опыт" 25 сент.-3 окт. 2005 г.,Ставрополь-Домбай-Будапешт, изд-во
СГУ, 2005 г., с.92-96.
2. А.А.Бучнев, П.А.Калантаев, В.П.Пяткин. Интернет технологии в обработке данных
дистанционного зондирования Земли // Труды Международного научного конгресса “ГЕОСибирь-2006”, 24-28 апреля 2006, Новосибирск, Россия, т.3, ч.1. “Мониторинг окружающей среды,
геоэкология, дистанционные методы зондирования Земли и фотограмметрия”, с. 43-51.
3. Калантаев П.А. Функции семантической обработки данных космического мониторинга. //
Труды Международного научного конгресса “ГЕО-Сибирь-2007”, 25-27 апреля 2007,
Новосибирск, Россия, т.3 “Дистанционные методы зондирования Земли и фотограмметрия,
мониторинг окружающей среды, геоэкология”, с.162-165.
Download