в формате Word ~ 1,8Mb

реклама
На правах рукописи
Заботнев Максим Сергеевич
РАЗРАБОТКА МЕТОДОВ И СРЕДСТВ
АНАЛИЗА МНОГОМЕРНЫХ БАЗ ДАННЫХ
С НЕПОЛНОЙ ИНФОРМАЦИЕЙ
Специальность 05.13.11 – Математическое и программное обеспечение
вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Москва, 2006
Работа выполнена в Государственном научно-исследовательском институте
информационных образовательных технологий “Госинформобр” (г. Москва).
Научный руководитель:
доктор технических наук, профессор,
В.П. Кулагин
Официальные оппоненты:
доктор технических наук, доктор
экономических наук, профессор
В.Я. Цветков
кандидат технических наук, доцент
И.П. Карпова
Ведущая организация – Государственное образовательное учреждение
высшего профессионального образования "Московский государственный
институт радиотехники, электроники и автоматики (технический
университет)"
Защита диссертации состоится 27 июня 2006 года в _____ часов на заседании
диссертационного совета Д 212.133.01 в Московском государственном
институте электроники и математики по адресу: 109028 Москва,
Б.Трехсвятительский пер., д. 1-3/12, стр.8
С диссертацией можно ознакомиться в библиотеке Московского
государственного института электроники и математики.
Автореферат разослан ____ _________________ 2006 г.
Ученый секретарь
диссертационного совета,
к.т.н., доцент
С.Е. Бузников
2
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность
темы.
Эффективное
управление
организацией,
предприятием, отраслью невозможно без принятия взвешенных, адекватных
решений. Выработка таких решений требует от руководителей, управленцев
анализа
больших
объемов
информации,
как
правило,
в
условиях
существенных ограничений по времени. Возможность анализа информации
подразумевает необходимость проведения сбора исходных (первичных)
данных по некоторому числу территориально-распределенных объектов. В
связи с этим особую актуальность в настоящее время приобретают задачи
автоматизации сбора и анализа территориально-распределенной информации.
Практика проведения сбора первичных данных по большому числу
территориально распределенных объектов показывает, что зачастую в силу
различных причин собранные данные не соответствуют в полной мере как
заданным показателям, так и исследуемой территории. В общем случае
различным территориальным объектам соответствуют различные собранные
показатели. Таким образом, информация, на основе которой в дальнейшем
принимается решение, может быть определена как неполная.
Задачи повышения эффективности управления на основе анализа
неполной информации возникают в самых различных сферах деятельности: в
образовании,
экономике,
экологии,
медицине,
и
др.
Характерной
особенностью таких задач является то, что для их решения и выработки
некоторого управленческого воздействия наличие полной информации не
является критически важным. Вместе с тем, при разработке программных
средств, предназначенных для решения таких задач, факт неполноты
исходных данных имеет принципиальное значение.
В качестве средств поддержки принятия управленческих решений
используются
информационно-аналитические
системы,
позволяющие
пользователю (аналитику, управленцу) сформировать запрос к системе и
получить требуемую информацию в виде отчета установленной формы.
Широкую популярность в сфере анализа количественных данных в настоящее
3
время завоевывает технология оперативной аналитической обработки данных
(OLAP), в основе которой лежит многомерная модель представления данных.
Применение
многомерной
модели
данных
в
случае
неполной
информации ведет к возникновению ряда принципиальных проблем,
существенно снижающих эффективность использования исходных данных.
Для решения этих проблем необходима разработка методов и средств анализа
многомерных баз данных с неполной информацией. В ряде научных трудов, в
т. ч. отечественных специалистов (Цаленко М.Ш., Калиниченко Л.А., Рывкин
В.М., Кузнецов С.Д.), рассматриваются теоретические основы реляционных
баз данных с неполной информацией, однако единого подхода к технической
реализации информационно-аналитических систем на основе многомерных
баз данных с неполной информацией в настоящее время не сформировано.
Таким образом, рассматриваемая задача является актуальной.
Цель работы состоит в разработке методов и средств анализа
многомерных баз данных с неполной информацией, позволяющих повысить
эффективность
использования
исходных
данных
в
задачах
анализа
территориально распределенной информации.
Задачи исследования. Для достижения поставленной цели необходимо
решение следующих основных задач:
1. Исследование возможностей современных методов и средств обработки
данных применительно к задачам сбора и анализа территориально
распределенной информации.
2. Разработка метода оценки степени заполненности многомерной БД,
позволяющего формализовать задачи анализа многомерных БД с
неполной информацией.
3. Разработка эффективных методов поиска и извлечения данных из
многомерных БД с неполной информацией, в т.ч. с использованием
современных
методов
визуализации
картографической визуализации).
4
(трехмерной
графики,
4. Разработка метода агрегации данных в многомерной БД с неполной
информацией,
позволяющего
оценивать
уровень
достоверности
программных
средств,
реализующих
полученных значений.
5. Создание
и
апробация
разработанные методы и алгоритмы.
Методы исследования. В процессе исследования использовались
методы проектирования многомерных и реляционных баз данных, теория
множеств, теория графов.
Научная новизна и положения, выносимые на защиту
1. Метод оценки заполненности многомерной БД с использованием
оператора подсчета непустых ячеек.
2. Алгоритмы
построения
карт
заполненности,
позволяющих
осуществлять визуальную оценку степени заполненности многомерных
БД с неполной информацией.
3. Алгоритм
коррекции
пользовательского
запроса,
позволяющий
повысить эффективность доступа к данным в многомерной БД с
неполной информацией.
4. Метод агрегации данных, позволяющий пользователю оценивать
уровень
достоверности
значений,
полученных
при
агрегации
первичных данных.
Практическая ценность и внедрение результатов
Практическая значимость представленных в работе результатов
заключается в создании комплекса методов и средств, позволяющих
повысить
эффективность
аналитической
обработки
использования
данных
при
технологии
создании
оперативной
информационно-
аналитических систем на основе многомерных баз данных с неполной
информацией.
Результаты работы использовались при реализации ряда проектов,
выполненных в рамках научно-методической программы “Научное, научнометодическое, материально-техническое и информационное обеспечение
5
системы
образования”
(2001-2002гг.),
а
также
федеральной
целевой
программы “Развитие единой образовательной среды (2001-2005 годы)”, в
частности: “Разработка программных средств сбора и анализа статистических
данных общего среднего и высшего профессионального образования” (20012002гг.),
“Организация
комплексного
сопровождения
реализации
мероприятий ФЦП РЕОИС в субъектах Российской Федерации” (2004г.),
“Разработка
научно-методических
основ
информационно-коммуникационного
создания
обеспечения,
единой
системы
сопровождения
и
поддержки развития образования” (2005г.), “Разработка автоматизированного
рабочего
места
для
анализа
данных
статистики
образования
в
государственных и муниципальных органах управления образованием”
(2005г.). Эксплуатация информационных систем, основанных на результатах
работы, показала свою эффективность, что подтверждено соответствующими
актами о внедрении.
Область применения результатов работы не ограничивается рамками
сферы образования. Изложенные в работе методы и средства анализа
многомерных БД с неполной информацией могут применяться в различных
отраслях с целью повышения эффективности использования исходных
данных
при
решении
задач
анализа
территориально-распределенной
информации.
Апробация работы и публикации
Результаты работы были представлены на различных конференциях, в
частности: Всероссийской конференции “Современная образовательная
среда” (Москва, 2001), Всероссийской научно-методической конференции
“Телематика” (Санкт-Петербург, 2002-2004гг.), Всероссийской научнотехнической конференции “ТиПВСИТ” (Улан-Уде, 2003), Всероссийской
научно-техническая конференции "Информационные технологии" (Воронеж,
2005).
Результаты
образовательная
работы
представлялись на выставках
среда”
(ВВЦ,
2002,
6
2003,
2004гг.),
“Современная
“Российский
образовательный форум” (Сокольники, 2004, 2005) и были отмечены
дипломом ВВЦ (Диплом №773, постановление №92 от 29.10.2002). По
результатам
работы
автор
был
награжден
золотой
медалью
ВВЦ
(Удостоверение №1543, постановление №55 от 23.10.2003).
По результатам работы опубликовано 8 печатных работ.
Структура и объем работы
Текст диссертации состоит из введения, четырех глав, заключения и
списка литературы, включающего 85 наименований. Диссертация содержит
134 страницы машинописного текста, 44 иллюстрации, 6 таблиц.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность работы, определяются цель
и задачи исследования, формулируется научная новизна, приводятся сведения
о
структуре
работы
и
краткое
описание
основных
положений
диссертационной работы.
В первой главе приводится обзор современных технологий создания
информационных
систем,
ориентированных
на
анализ
данных
и
информационную поддержку принятия управленческих решений. Дается
историческая справка о развитии технологий баз данных - как основы
создания современных информационно-аналитических систем. Приводится
описание технологии OLAP. Рассматриваются тенденции и перспективы
развития отрасли OLAP-продуктов и возможности их использования на
отечественном рынке информационных систем. Описываются проблемы,
возникающие при использовании многомерных баз данных с неполной
информацией. Представлены возможные подходы к их решению.
В настоящее время популярным средством создания информационных
систем, ориентированных на анализ данных является технология оперативной
аналитической обработки данных - OLAP. Целью создания и использования
OLAP-системы
является
предоставление
возможности
пользователю
(аналитику, управленцу, руководителю) оперативно получать требуемые
данные, количественно описывающие исследуемую предметную область. По
7
данным исследований Найгеля Пендса, автора известного интернет-издания
“The OLAP Report”, коммерческий рынок OLAP-систем уверенно растет с
начала 90-х годов и в настоящее время оценивается в 5,5 млрд. долларов.
Для решения множества задач, связанных с необходимостью анализа на
основе неполной информации применение популярных OLAP-продуктов
(Microsoft, Oracle, SAP и др.) является нецелесообразным прежде всего по
причине их дороговизны, а также необходимости вложения дополнительных
средств на осуществление “доводки” системы под решение конкретной
задачи. При этом общими недостатками универсальных технологических
решений, основанных на многомерной модели данных, являются:
- низкая эффективность традиционных средств поиска и извлечения
данных из многомерных баз данных (БД) с неполной информацией;
- некорректность использования полученных значений при агрегации
данных в многомерных БД с неполной информацией.
Наличие этих недостатков существенно снижает эффективность
использования исходных данных в задачах анализа территориальнораспределенной информации. Для устранения указанных недостатков
необходима разработка методов и средств анализа многомерных БД с
неполной информацией, позволяющих:
- получить визуальное представление о структуре и наличии данных с
целью повышения эффективности доступа к данным в многомерной БД
с неполной информацией;
- повысить эффективность выборки данных из многомерной БД с
неполной информацией путем сокращения числа нерезультативных
отчетов;
- производить процедуру агрегации с учетом полноты представления
первичных данных;
- оценивать уровень достоверности значений, полученных при агрегации
данных.
8
Вторая глава посвящена описанию многомерной модели данных, как
основы OLAP-системы. Приводится формальное описание терминов OLAP, а
также операций манипулирования данными. Предложено формальное
описание метода оценки плотности гиперкуба данных по выбранному набору
измерений на основе оператора подсчета количества непустых ячеек.
Приводится концепция бинарного представления гиперкуба данных и
способа вычисления значения оператора подсчета количества непустых ячеек.
В виде модели сетевого графа представлен процесс построения запроса на
выборку данных из гиперкуба данных. Описывается концепция реализации
логической многомерной модели данных на основе реляционной структуры
ROLAP.
Основным понятием многомерной модели данных является понятие
гиперкуба данных, представляющего собой множество ячеек Η ( D, M ) ,
соответствующих множеству измерений D  {d1 , d 2 ,..., d n } и множеству
значений
измерений
M  M d1  M d 2  ...  M d n ,
(меток)
где
M d i  {m1i , m2i ,..., mki } - множество меток измерения di . Множество
данных (мер), соответствующих ячейкам гиперкуба, обозначим как V (H ) .
Пример гиперкуба данных для трех измерений приведен на рис. 1.
Каждой
ячейке
гиперкуба
данных
h  ΗD, M 
соответствует
единственно возможный набор меток измерений. Ячейка может быть пустой
(не содержать данных) или содержать значение показателя – меру. Гиперкуб с
большим количеством пустых ячеек принято называть разреженным.
Многомерная база данных может включать один или несколько гиперкубов
данных. Таким образом, исходная задача сводится к исследованию свойств
разреженных гиперкубов данных.
9
Гиперкуб данных (Data Hypercube)
Η ( D, M ) - множество ячеек
V (H ) - множество мер
d1
Метки (Members)
Измерения
(Dimensions)
m12
m22
D  {d1 , d 2 ,..., d n } -мн-во измерений
m32
m13
M d i  {m1i , m2i ,..., mki } - мн-во
m23
m33
m11
меток измерения
X 133
X 233
X 333
X 123
X 223
X 323
m21
M  M d1  M d 2  ...  M d n -мн-во
меток
d2
m31
X 213
null
X 313
Ячейка (Cell)
d3
di
Мера (Value, Measure)
Пустая ячейка (Empty Cell)
D  D - мн-во фиксированных
измерений
M   M - мн-во фиксированных
меток
HD, M  | H  H - срез гиперкуба
Рис. 1. Пример гиперкуба данных
Для получения доступа к данным пользователю необходимо указать
множество интересующих его измерений D  D и значений измерений
M  M
(фиксировать
фиксированным
меткам
метки).
и
Множество
измерением
ячеек,
соответствующее
обозначим
как
срез
HD, M  | H  H .
Для определения плотности среза H  гиперкуба данных H предлагается
использовать
оператор
подсчета
количества
непустых
ячеек
C (H) : {D, M }  c , ставящий в соответствие множествам фиксированных
измерений D  и меток M  число c, равное количеству непустых ячеек в
срезе H  :
C 
C (H)
, где H   M d i   M d i при D \ D   .

H
D
D \ D
Плотность гиперкуба в целом:
C
C (H)
, где H   M d i при D  , M    .
H
D
Для вычисления значения оператора C (H) предлагается использовать
модель
бинарного
представления
10
гиперкуба
данных:
ΗD, M ,V (H) BD, M ,V B. Структура бинарного гиперкуба B( D, M )
аналогична структуре гиперкуба данных Η ( D, M ) . Ячейки бинарного
гиперкуба содержат:
1 – если соответствующая ячейка h  Η содержит меру vh V ,
0 – если соответствующая ячейка h  Η пуста.
Значение оператора C (H) в этом случае может быть вычислено как
сумма мер бинарного гиперкуба B( D, M ) по срезу B  : C (H) 
v .
B
i
Множество значений операторов, соответствующих всем меткам M d i
выбранного измерения d i :
  
  

 
Pi  C1 H d i , m1i , C2 H d i , m2i ,..., Ck H d i , mki

представляет собой одномерную проекцию бинарного гиперкуба
данных
B ( D, M )
по
выбранному
измерению
d i  D . Аналогично
определяется двух- и трехмерная проекция по выбранным измерениям.
Построение одно-, двух- и трехмерных проекций бинарного представления
гиперкуба данных является основой метода создания карт заполненности
многомерных баз данных и может быть использовано при решении
различных задач, связанных с анализом данных на основе многомерных баз
данных с неполной информацией.
Третья глава посвящена описанию методов поиска и агрегации
данных в разреженных гиперкубах данных. Приводится описание алгоритмов
построения карт заполненности гиперкуба данных – как основы создания
средств визуальной оценки степени заполненности многомерной базы данных
с
неполной
информацией.
Приводится
алгоритм
коррекции
пользовательского запроса, позволяющий избежать получения пустой
выборки на этапе формирования запроса. Рассматривается альтернативный
метод агрегации данных в разреженном гиперкубе данных, позволяющий
11
оценивать уровень достоверности полученных результатов. Предложен метод
унифицированного доступа к многомерной базе данных ROLAP.
Метод построения карт заполненности может быть использован в
качестве основы создания средств эффективного доступа к данным, а также
средств администрирования и анализа многомерных баз данных с неполной
информацией. Суть метода состоит в создании визуального представления
гиперкуба
данных,
заполненности
позволяющего
многомерной
БД
и
пользователю
оценить
осуществить
визуальный
степень
поиск
информации в ней.
Карта заполненности представляет собой набор визуальных образов
(разноцветных графических примитивов) и строится на основе одно, двух или
трехмерной проекции бинарного представления гиперкуба данных (рис. 2).
Рис. 2. Карта заполненности
Популярным способом обеспечения доступа к данным является т.н.
пошаговый
конструктор
запросов,
предоставляющий
пользователю
возможность последовательно (по шагам) фиксировать метки и получить
доступ к интересующим его ячейкам.
Процедура пошаговой фиксации меток может быть представлена в виде
модели сетевого графа G ( S , P ) (рис. 3), вершины которого соответствуют
меткам гиперкуба данных Η ( D, M ) . Множество вершин графа S включает n
12
подмножеств – слоев S i  S , соответствующих “шагам” пользователя при
последовательной фиксации меток. Слой S i , i  1,..., n состоит из вершин
s ji , j  1,..., M ,
соответствующих
меткам,
которые
могут
быть
фиксированы пользователем на i-м шаге. Множество ребер графа P
представляет собой набор пар вершин


pijk  s ji , s ji1 . Ребро графа pijk  P ,
таким образом, соединяет j-ю вершину слоя
Si
-
s ji c
j-й вершиной слоя
Si1 - s j i 1 . Последовательность фиксации меток может быть представлена
на сетевом графе
G ( S , P ) в виде последовательности ребер (пути)
w  { p 0jk , p1jk ,..., p njk }, отражающей процесс формирования пользовательского

...
P – мн-во ребер pijk  P p ijk  s ji , s ji1

Si  M , n  D , j, k  1,..., M
...
M d2
...
...
...
Последовательность фиксации меток
путь w  { p 0jk , p1jk ,..., p njk }
...
...
...
Доступ к ячейке h( w)  Η( D, M )
...
M dn
...
...
S – мн-во вершин Si  S , i  1,..., n
...
...
M d1


Сетевой граф G ( S , P )
...
...
...
 
...
запроса.
...
n
Рис. 3. Процедура пошаговой фиксации меток
В разреженном гиперкубе данных полученная ячейка h (w) в общем
случае может оказаться пустой, что необоснованно увеличивает среднее
время формирования результативного запроса. Использование пошагового
13
конструктора запросов в этом случае ведет к снижению эффективности
работы пользователя с системой.
Эффективность работы пошагового конструктора запросов может быть
определена как величина обратная среднему времени результативного
запроса:
 n q

r


t

t

  ji i 
1
i 1
j 1

E~
t  
,
,
t
R
N
q
где t ji - время, затраченное на фиксацию метки j-го измерения при
формировании i-го запроса,
t ir - время отклика системы на i-й запрос, N -
число сформированных запросов, R - число результативных запросов, n число измерений гиперкуба данных.
q
q
r
Принимая t i  t i и усредняя по t ji , получим E ~
R
~C.
nN
Зависимость величины E от степени разреженности гиперкуба данных
C для случаев n  1,2,3,4 измерений представлена на рис. 4. Эффективность
работы
пошагового
конструктора запросов, таким образом, обратно
пропорциональна степени разреженности гиперкуба данных. Снижение
эффективности при росте степени разреженности гиперкуба данных
обуславливается увеличением времени, которое необходимо затратить на
получение результативного отчета.
Задача повышения эффективности работы пошагового конструктора
запросов, таким образом, сводится к разработке алгоритма, обеспечивающего
поиск множества путей Wtrue на сетевом графе G ( S , P ) , ведущих к непустым
ячейкам.
14
E
E1
n=1
E2
n=2
E3
n=3
E4
n=4
C
20%
40%
60%
80%
100%
Рис. 4. Эффективность пошагового конструктора запросов
Для решения указанной задачи предлагается использовать алгоритм
коррекции пользовательского запроса (Рис.5). Суть алгоритма заключается в
динамическом формировании доступных пользователю для
фиксации
множеств меток и измерений M A , D A в зависимости от фиксированных ранее
M , D  с учетом наличия данных.
Использование
данного
алгоритма
при
реализации
пошагового
конструктора запросов позволяет пользователю избежать получения пустой
выборки на этапе формирования запроса, что приводит к повышению
эффективности работы с разреженным гиперкубом данных до уровня
полностью заполненного гиперкуба.
Агрегация данных представляет собой процесс получения новых
значений (агрегатов), соответствующих меткам уровня l  1 иерархического
измерения на основе данных, соответствующих меткам предыдущего уровня.
Ось иерархического измерения d i , первоначально содержащая метки,
соответствующие нижнему уровню иерархии ( l  0 ), может быть дополнена
метками, соответствующими уровням иерархии, начиная с l  1 (рис. 6-а).
Таким образом, различие между метками, соответствующими первичным
данным и метками, соответствующим агрегатам является условным и
15
гиперкуб
данных
может
быть
дополнен
ячейками,
содержащими
агрегированные значения (Рис. 6-б).
Начало
D  D0
M  M
D  
0
Dc  D  d
M
D  M
A
A
Цикл1
повсем измерениям

Цикл2
повсем меткам
измеренияd
d  D
m  M d
Mc  M   m
c( Dc , M c )  0
Конеццикла1
d   D A M d  M A
M
A
0
Конеццикла2
нет
DA  DA  d
M A  M A  M dA
M  M A  M d
D  
да
Конец
T
(получение факта)
D  {d1 , d 2 ,..., d n }
-множествоизмерений
M  {M d1 , M d 2 ,..., M d n }
M d  {m1 , m2 ,..., mk }
DA
M
A
D
M
M dA  M dA  m
нет
да
D  D  d 
M   M   M d
D  DA  d
нет
да
-множествозначенийизмерений
-множествозначенийизмеренияd
-множестводоступныхпользователюизмерений
-множестводоступныхпользователюзначенийизмерений
-множествовыбранныхпользователем измерений
-множествовыбранныхпользователем значенийизмерений
Рис. 5. Алгоритм коррекции пользовательского запроса.
16
d2

N
L
2
1
A02
A12
m
l=2
m11
l=1
l=0
2
2
m10
m30
N
m31
m12
m 20
Область агрегации
первичных данных
измерения d2
A01
m40
m50
2
1
N2
N1
A10
Область
первичных данных
  
N0
A11
A21
Область
агрегации
агрегатов
A00
m60
A22
mil - i-я метка уровня иерархии l  0,..., L
A20
Область
агрегации
первичных
данных
измерения
d1
d1
N
1
1
N 21
а)
б)
Рис. 6. Агрегация данных
Проблема агрегации разреженного гиперкуба данных состоит в
некорректности
применения
традиционных
методов
агрегации.
При
получении агрегата пользователю необходимо оценить степень полноты
представления исходных данных. Для осуществления этой возможности
предлагается
ввести
в
структуру
многомерной
БД
дополнительный
показатель – уровень достоверности (Рис. 7).
l2
l 1
Ti l
X il
l 3
X il
X il
l  0 xi0 t i0
Ti l
Ti l
X il
Ti l
xi0 t i0
xi0 t i0
t i0

0,5
AVG
Ti l
t i0
1
AVG
t i0
xi0
1
xi0
1
H li
Рис. 7. Уровень достоверности
17
AVG
xi0
1
0,5
0
0
0
0
Значение агрегата
X il
на уровне иерархии начиная с
X il 
определяется формулой:
x
H li
l 1
l 1
j
 
CH
l
i
l  1,..., L; i  1,..., M dl ; j  1,..., H li ,
 
C H li
l
T 
l
уровень достоверности: i
, где H i - срез гиперкуба данных,
Hi
l
l
соответствующий дочерним меткам родительской метки mi .
Применение данного метода дает возможность пользователю при
построении отчета наряду с самим значением агрегата получить показатель
достоверности, характеризующий степень полноты представления исходных
данных, на основе которых был вычислен агрегат.
В четвертой главе описаны результаты практического использования
рассмотренных
методов
и
алгоритмов
создания
и
использования
многомерных баз данных с неполной информацией. Приведена оценка
возможностей использования БД ROLAP в качестве основы информационноаналитической системы регионального и федерального уровней. Рассмотрены
границы применимости алгоритма коррекции пользовательского запроса.
Приводится описание компонент технологического комплекса по сбору и
обработке данных, характеризующих уровень информатизации сферы
образования. Приводится описание принципов создания территориальнораспределенного хранилища данных об образовательных ресурсах.
Рассмотренные методы и алгоритмы анализа многомерных баз данных
с неполной информацией были применены при создании технологического
комплекса сбора и обработки данных о состоянии образовательных ресурсов
РФ. Комплекс включает набор программных средств, позволяющих решать
задачи сбора тематических показателей по заданному числу территориальнораспределенных объектов, создания и наполнения многомерной базы данных,
18
осуществления комплексного анализа данных и поддержки принятия
управленческих решений на различных уровнях управления.
Программные
средства
выполнены
в
виде
набора
компонент,
реализованных на платформе Java 2, которые могут быть использованы как
по отдельности, так и в рамках единой информационной системы, а также
быть интегрированы в другие информационные системы для обеспечения и
поддержки необходимого функционала.
Компонента унифицированного доступа к базе данных ROLAP
представляет собой универсальное средство формирования запроса на
выборку данных из базы данных ROLAP и получения отчета в виде таблицы.
Компонента может быть использована в качестве основы создания
интерфейса доступа к различным базам данных, организованных по схеме
ROLAP и предоставляет следующую функциональность:
- поддержка многомерной модели данных и функционала OLAP;
- возможность работы с произвольным числом измерений и меток;
- оптимизация формирования пользовательского запроса на основе
анализа заполненности базы данных.
Компонента 3D-визуализации многомерной БД является программной
реализацией
метода
построения
3-х
мерной
проекции
бинарного
представления гиперкуба данных и предоставляет пользователю возможность
визуальной навигации по многомерной базе данных. Компонента позволяет
отобразить многомерную БД или ее часть в виде куба, грани которого
соответствуют выбранным пользователем измерениям. Ячейки куба содержат
графические примитивы (шарики), показывающие наличие (или отсутствие)
данных по соответствующим значениям измерений. Компонента может быть
использована в качестве основы визуального конструктора запросов к
многомерной базе данных с неполной информацией.
Компонента картографического анализа предназначена для построения
одномерных
картографических
проекций
бинарного
представления
разреженного гиперкуба данных по выбранному уровню иерархии измерения
19
территориальных объектов. В зависимости от наличия таких уровней
картографическая проекция может быть построена по федеральным округам,
субъектам федерации, районам, населенным пунктам. Одномерная проекция,
выполненная по методу картограммы, наглядно представляет наличие данных
по
выбранному
уровню
территориальных
объектов
и
может
быть
использована в качестве средства подготовки отчетов по результатам сбора
данных, а также служить основой для выборки данных путем указания
интересующих пользователя объектов на карте.
Общая
структурная
схема,
реализующая
функционал
анализа
многомерных баз данных с неполной информацией, представлена на рис. 8.
Серверная часть
Web-сервер
Модуль
Модуль
унифицированного
унифицированного
доступа
(applet)
доступа(applet)
Модуль
Модуль
3D-визуализации
3D-визуализации
(applet)
(applet)
Измерение
CubeDimension.class
Куб
db3dPanel.class
Метка
CubeMember.class
Управление
db3dControl.class
Дерево
treeRenderer.class
Поведение
PickBehavior.class
dbTree.class
dbTree.class
СерверБД
Картографические
данные
(слои)
Модуль
Модуль
картографической
картографической
визуализации
(applet)
визуализации(applet)
Пакет Geotools
db3d.class
db3d.class
Модуль
взаимодействия
с БД1 (servlet)
БД1
Модуль
взаимодействия
с БД2 (servlet)
БД2
Модуль
взаимодействия
с БД3 (servlet)
БД3
dbGeo.class
dbGeo.class
Клиентскаячасть
Web-браузер
Клиентскоеприложение
Модуль ETL
Интерфейспользователя
(загрузка данных)
Модуль
агрегации
Модуль
создания БД
Рис. 8. Структурная схема системы
Система построена по принципу клиент-сервер и обеспечивает
возможность удаленного многопользовательского доступа к серверной части
системы. В качестве клиентского приложения может использоваться
стандартный
Интернет-браузер,
поддерживающий
технологию
Java
(например, Microsoft Internet Explorer). По запросу пользователя браузеру
передается
Java-апплет,
реализующий
функциональность
клиентского
приложения. Выборка данных из многомерной БД осуществляется на основе
20
апплет-сервлетного взаимодействия, что обеспечивает высокий уровень
универсальности и безопасности работы с данными.
В заключении приводятся основные результаты и выводы по работе,
обсуждаются перспективы дальнейшего развития исследований в области
анализа многомерных баз данных с неполной информацией.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
Главным результатом работы является решение актуальной научнотехнической задачи, состоящей в разработке комплекса методов и средств
анализа многомерных баз данных с неполной информацией, позволяющих
повысить эффективность использования данных при решении задач анализа
территориально-распределенной информации. При этом:
1. Исследованы возможности современных методов и средств обработки
данных
при
решении
задач
сбора
и
анализа
территориально
распределенной информации, выявлены их недостатки.
2. Предложен формальный метод оценки плотности
разреженного
гиперкуба данных на основе оператора подсчета непустых ячеек,
позволяющий сформировать подход к решению задач повышения
эффективности использования первичных данных в многомерных БД с
неполной информацией.
3. Предложен метод построения карт заполненности многомерной БД и
алгоритмы построения карт заполненности произвольно выбранных
измерений разреженного гиперкуба данных, позволяющие создавать
визуальное представление многомерной БД и использовать его в
качестве визуального интерфейса доступа к многомерной БД с
неполной информацией.
4. Разработан
позволяющий
алгоритм
повысить
коррекции
пользовательского
эффективность
доступа
к
запроса,
данным
в
многомерной БД с неполной информацией при использовании
пошагового конструктора запросов.
21
5. Предложен метод агрегации данных, основанный на введении в
структуру БД дополнительного показателя, характеризующего степень
заполненности многомерной БД и позволяющий оценивать уровень
достоверности полученных значений.
СПИСОК ПУБЛИКАЦИЙ
1. Адоньев Р.В., Заботнев М.С., Ионов Д.В. Разработка информационной
системы сбора и анализа образовательной статистики // Всероссийская
конференция “Современная образовательная среда”, Москва-2001.– С.4041.
2. Адоньев Р.В., Заботнев М.С., Ионов Д.В. Информационная система сбора
и анализа образовательной статистики // Телематика –2002. Труды
Всероссийской научно-методической конференции. – Санкт-Петербург,
2002. – С.46-47.
3. Заботнев М.С.. Многомерная модель представления данных по
образовательной статистике // Телематика –2003. Труды Х Всероссийской
научно-методической конференции. – Санкт-Петербург, 2003. – С.245-246.
4. Адоньев Р.В., Заботнев М.С., Ионов Д.В. Концепция построения
аналитических систем на базе интеграции OLAP и GIS технологий //
Теоретические и прикладные вопросы современных информационных
технологий (ТиПВСИТ’2003). Материалы четвертой конференции. - УланУде, 2003 – С.254-257.
5. Информатизация образования: направления, средства, технологии.
Пособие для системы повышения квалификации / Т.И. Гусева, М.С.
Заботнев, В.П. Кулагин и др. под общ. ред. С.И. Маслова. Москва,
Издательство МЭИ, 2004. - 868 с.
6. Адоньев Р.В., Заботнев М.С., Родионов А.Э. Интерактивная
геоинформационная справочная система анализа образовательной
статистики // Телематика –2004. Труды ХI Всероссийской научнометодической конференции. – Санкт-Петербург, 2004. – С.291-292.
7. Заботнев М.С., Кулагин В.П. Проблемы анализа данных в территориально
распределенных системах // Информационные технологии: Материалы
Всероссийской научно-технической конференции. – Воронеж, 2005.С.160-161.
8. Заботнев М.С. Методы поиска и агрегации информации в разреженных
гиперкубах данных // Информационные технологии №1, 2006. – С.57-62.
22
Скачать