П.А.Калантаев, к-т техн. наук В.П.Пяткин, д-р техн. наук Ин-т вычислительной математики и математической геофизики СО РАН (Россия, 630090, Новосибирск, пр. Лаврентьева, 6, тел.(383) 3307332, Е-mail: [email protected] ) Интерпретация семантики геоданных, распределенных в Web Аннотация. В докладе представлены идеи, концепции и сервисы глобальной WWW информатики, на основе которых предлагается технология семантической интерпретации геоданных распределенных в Web. Программное ядро технологии -оригинальный транслятор текстовых атрибутивных геоданных. Введение Парадигма современной информатики предполагает WWW-интеграцию глобальных ДДЗ и локальных отраслевых данных в целостный объект данных планета Земля, со всем ее природным и антропогенным содержанием. В первой части доклада рассматриваются новейшие понятия и направления глобальной геоинформатики, обуславливающие тему исследования, это: семантическое моделирование в БД; NeoGeo –неогеография; Web-2; Wiki проекты; GeoWeb - Geospatial Web; картографические web-сервисы OGC. Новый подход в разработке локальных ГИС – это вписывание ГИС в глобальный сетевой массив ДДЗ посредством Web –семантики. Обновление глобальныхлокальных данных сверху-донизу, и это важно, производится посредством коллективной технологии Wiki, успешно себя зарекомендовавшей в самых разных приложениях WWW. Новый подход отчасти заявлен первой конференцией подобной тематики: Infrastructure: Local to Global, 21-26 июля 2008, Ванкувер, Канада. Первая часть доклада дает представление об идеях, концепциях и парадигмах глобальной информатики, на основе которых во второй части доклада предлагается технология семантической интерпретации геоданных в WEB. Программное ядро технологии -оригинальный транслятор текстовых атрибутивных геоданных, разработанный на языке Java. 1. Семантическое моделирование в БД В реальном проектировании баз данных преобладает естественный метод семантического моделирования структуры данных, опирающийся на смысл этих данных. В качестве инструмента семантического моделирования используются различные варианты диаграмм сущность-связь. По сути, все варианты диаграмм сущность-связь исходят из одной идеи - рисунок всегда нагляднее текстового описания. Все такие диаграммы используют графическое изображение сущностей предметной области, их свойств (атрибутов), и взаимосвязей между сущностями [1]. Неогеография, рассмотренная ниже, также базируется на методе семантического моделирования атрибутивных геоданных представленных в формате гипертекста WWW. 2. NeoGeo –Неогеография Неогеография — новое поколение средств и методов работы с геопространственной информацией, отличающееся от предыдущих (карт и ГИС) тремя основными признаками: 1) Использованием географических (широта, долгота, высота), а не картографической (x, y) систем координат; Это позволило решить ключевую проблему обычных карт - сведение высокоточных геоданных воедино; 2) Применением растрового, а не векторного представления географической информации в качестве основного; Это позволяет комплексно отображать местность; 3) Использованием открытых гипертекстовых форматов представления геоданных. Термин Неогеография (NeoGeo) получил широкое распространение после выхода в свет в декабре 2006 года книги Эндрю Тёрнера "Введение в Неогеографию". NeoGeo представляет собой набор методик и средств, выходящих за рамки “классических” ГИС. NeoGeo объединяет воедино сложные технологии картографии и ГИС и делает их доступными для пользователей и разработчиков. NeoGeo эпохи Web 2.0 предполагает, что картографические данные создаются самими пользователями, которые как правило, не географы-профессионалы. Классический пример решений, выполненных в идеологии NeoGeo -это геопорталы Google Earth и Google Maps. 3. Web 2.0 Появление термина Web 2.0 принято связывать со статьёй "Tim O'Reilly - What Is Web 2.0" от 30 сентября 2005 года. В этой статье Тим О'Рейли выявил некоторые новые принципы создания сайтов в соответствии с общей тенденцией развития интернет-сообщества, и назвал это явление Web 2.0, в противовес "старому" Web 1.0. Исследователи Web 2.0 выделяют несколько основных аспектов этого явления: Web-службы; AJAX (Асинхронные JavaScript и XML); Webсиндикация; Mash-up (Web приложение комбинирущее данные и функции нескольких источников: текстовых, графических, аудио, видео и др.); Метки (теги); Социализация. 4. Wiki проекты Wiki —web-сайт, структуру и содержимое которого пользователи могут сообща изменять с помощью простых инструментов, предоставляемых самим сайтом. Wiki часто используются для коллективного создания объемных и сложных webсайтов различной тематики. Семантическая wiki — wiki, модель знаний которой описана на ее страницах. Обычные wiki заполняются структурированным текстом и нетипизированными гиперссылками. Семантические wiki позволяют указывать тип ссылок между статьями, тип данных внутри статей, а также информацию о страницах (метаданные). Цель семантической wiki: обеспечить машинную обработку Web данных с минимальными усилиями для пользователей. По wikiпринципам строят картографические сервисы, пример http://wikimapia.org 5. GeoWeb - Geospatial Web Geospatial Web или Geoweb подразумевает объединение географической (локально-ориентированной) информации с текущей абстрактной информацией Интернет. Это позволяет создать среду, в которой можно искать вещи на основе местоположения, вместо поиска по ключевым словам. Среда Geoweb -это киберинфраструктура, объединяющая Интернет адресацию и иерархическую пространственную адресацию. Таким образом Geoweb характеризуется самосинхронизацией сетевой адресации, времени и места. 6. Картографические web-сервисы OGC Становятся популярными различные картографические интернет-сервисы, например, Google Earth / Google Maps. Общие принципы и стандарты программного обеспечения такого рода сервисов, разрабатываются и декларируются международной некоммерческой организацией OGC - Open Geospatial Consortium. Одной из первых разработок OGC были стандарты по созданию GML - Geography Markup Language - языка группы XML, предназначенного для описания географически привязанных объектов. GML может быть использован и как язык моделирования, и как язык передачи пространственной информации в сети. Важная спецификация OGC -KML Keyhole Markup Language: XML- ориентированный язык схем для экспрессаннотаций и визуализации текущей и будущей Web -основы, двухмерных карт и трехмерных обзоров Земли. 7. Технология семантической интерпретации геоданных Технология семантической интерпретации геоданных (рис.1) базируется на трансляторе пользовательского мета языка семантической разметки атрибутивных геоданных WEB. Назначение транслятора -автоматизация семантической разметки и преобразования в формат HTML-XML, уже накопленных разнородных атрибутивных геоданных для задач исследования природных ресурсов [3]. Транслятор (рис.2), на основе входного текстового файла разметки геоданных, формирует выходной файл в формате HTML-XML, в том числе онтологии конкретных предметных областей. Технология допускает итеративный процесс семантической разметки и редактирования пользователем промежуточных результатов трансляции, остановленной после интерпретации встроенных функций обработки размеченного текста, если таковые обнаружены транслятором. Рисунок 1: Блок схема технологии геосемантической разметки в технологических процессах интерпретации геоданных в WEB Промежуточный результат трансляции -суть добавление к исходному тексту (макроподстановка) результатов его интерпретации в формате входного мета языка, после редакции может быть вновь интерпретирован или окончательно транслирован в формат HTML-XML. Транслятор может быть настроен на различные мета языки пользователей, варьируемые в рамках "правил описания языка". Согласно "правилам" синтаксис языка задается в НФБ (нормальная форма Бэкуса-Наура). Конструкции пользовательского мета языка семантической разметки геоданных: -- Типы данных, переменных и констант - символьные, текстовые и числовые целые; -- Служебные слова и символы семантической разметки; -- Встроенные функции обработки размеченного текста: - статистика повторяемости ключевых слов в блоке текста, - проверка грамматики слов на основе машинного словаря русского языка, - контекстный поиск и замена по образцу, - замена почтовых адресов, указанных в блоке текста, в реальные географические координаты, - определение принадлежности имени собственного заданным категориям имен, (фамилия, имя, отчество, название населенного пункта), - и т.д. Планируется расширение мета языка управляющими операторами обработки объектов текста. Генератор гипертекста HTML-XML представляет собой алгоритм обхода дерева и выполнения над ним трех операций. Во-первых, получение типов всех функций и объектов, определение области их видимости. Это позволит автоматически генерировать код для корректной записи аргументов функций и иных объектов. Во-вторых, происходит раскрытие конструкций метаязыка в новые ветви дерева. И последнее - запись обработанных ветвей кода метаязыка обратно во входной файл (макрорасширение и макроподстановка результатов интерпретации функций обработки текста). Рисунок 2: Принципиальная схема транслятора мета языка для генерации гипертекста HTML-XML. Заключение В заключение следует отметить факт разрастающейся, как снежный ком, сферы применения инструментов и стандартов глобальной WWW в локальных областях науки, техники и народного хозяйства. Универсализация локальной информатики в терминах глобальной информатики - процесс добровольный, ибо дает пользователям как правило бесплатный (FreeWare) инструмент, разработанный коллективно и наилучшим образом проверенный большим числом пользователей. Приспособление локальных задач к инструментам решения глобальных задач объективный процесс развития информационных технологий отраслей промышленности, востребованных на мировом рынке. Вхождение России в процесс глобальной информатизации происходит по мере возвращения отечественной промышленности на передовые позиции в мире. Обоснованная в докладе, находящаяся в стадии реализации и отладки, технология семантической интерпретации геоданных в WEB дает функциональное наполнение базы данных природных явлений, созданной на предыдущем этапе разработки [3]. Работа выполнена частично при финансовой поддержке Российского фонда фундаментальных исследований, проект № 07-07-00085a. Список литературы 1. П.А.Калантаев. Семантическая организация пространственных данных. // В сборнике трудов Международной Конференции "ИНТЕРКАРТО - ИНТЕРГИС 11 Устойчивое развитие территорий: теория ГИС и практический опыт" 25 сент.-3 окт. 2005 г.,Ставрополь-Домбай-Будапешт, изд-во СГУ, 2005 г., с.92-96. 2. А.А.Бучнев, П.А.Калантаев, В.П.Пяткин. Интернет технологии в обработке данных дистанционного зондирования Земли // Труды Международного научного конгресса “ГЕОСибирь-2006”, 24-28 апреля 2006, Новосибирск, Россия, т.3, ч.1. “Мониторинг окружающей среды, геоэкология, дистанционные методы зондирования Земли и фотограмметрия”, с. 43-51. 3. Калантаев П.А. Функции семантической обработки данных космического мониторинга. // Труды Международного научного конгресса “ГЕО-Сибирь-2007”, 25-27 апреля 2007, Новосибирск, Россия, т.3 “Дистанционные методы зондирования Земли и фотограмметрия, мониторинг окружающей среды, геоэкология”, с.162-165.