Тезисы - Бийский технологический институт

реклама
ИНТЕГРИРОВАННЫЙ ПОДХОД К ОБРАБОТКЕ ИНФОРМАЦИИ ИЗ
НЕСОПОСТАВИМЫХ ИСТОЧНИКОВ
Бубарева О.А., Попов Ф.А.
Бийский технологический институт,
г.Бийск, [email protected]
В докладе рассматриваются проблемы интеграции информации в информационноуправляющих системах (ИУС). Приводятся недостатки существующих методов интеграции
и предлагается синхронный интегрированный подход к решению проблем по интеграции
информации.
Тенденции современности, такие, как глобализация, рост информационной открытости и
усиление роли интеграции во всех сферах деятельности ставят новые задачи перед
дисциплиной информационных систем. Теперь, наряду с другими, имеют решающее
значение такие задачи, как обработка информации и интеграция распределенных сведений с
целью предоставления их пользователю в виде единой информационной структуры.
Зачастую пользователи тратят очень много времени на поиск и сбор, сопоставление и
коррекцию релевантной информации вручную, вместо того, чтобы использовать полученную
информацию в своей непосредственной деятельности.
Решение для интеграции информации улучшает принятие решений, обеспечивая
интегрированное представление данных, независимо от того, где эти данные фактически
расположены. Такое решение обеспечивает повышенную эффективность эксплуатации,
позволяя нескольким приложениям работать совместно. В конечном счете это может
привести к сокращению количества источников данных и улучшению взаимодействия и
сотрудничества среди оставшихся источников.
Доступ к гетерогенным данным является проблемой, затрагивающей многие компании.
Многие из них эксплуатируют несколько различных систем баз данных. В каждой из этих
систем хранятся данные и имеется набор приложений, которые выполняются с этими
данными. Консолидация этих данных в одной системе баз данных часто оказывается
тяжелой задачей – в значительной степени потому, что многие из приложений, которые
выполняются для одной базы данных, могут не иметь эквивалента, который выполнялся бы
для другой базы данных. До тех пор, пока не станет возможной переход к одной
консолидированной системе баз данных, необходимо обеспечивать взаимодействие для
различных гетерогенных систем баз данных.
Главная задача состоит в том, чтобы через единственное приложение быстро,
эффективно и экономно развернуть данные, которые могут существовать на многих
несопоставимых источниках, обеспечивая исчерпывающее представление данных в виде
единого результата, вне зависимости от базы данных или операционной системы.
Это можно реализовать в информационно-управляющей системе. Благодаря интеграции
данных пользователь системы имеет дело с единым и единообразным интерфейсом.
Информационной системе, использующей данную информацию, нет необходимости иметь
представление о том, где хранятся данные. Благодаря прозрачности вызова она может также
не знать, какой язык или интерфейс программирования поддерживается исходной базой
данных. Данной системе также необязательно знать физические условия хранения данных
вследствие физической независимости данных, прозрачности фрагментации и репликации,
или о том, какие используются сетевые протоколы. Информационная система
взаимодействует только с единым виртуальным репозиторием данных.
Хранение всей информации в хранилище - текущей и устаревшей, основной и
второстепенной - отрицательно сказывается на производительности. Существует аппаратное
решение - разделить эти данные на два типа: часто используемые самые последние данные
1
хранятся в хранилище, тогда как более старая информация хранится, например, на лентах с
резервными копиями. Однако информационной системе для вывода результата поиска
информации не нужно знать о таком распределении данных; это можно обеспечить
благодаря принципу интеграции.
Под виртуальным репозиторием данных понимается виртуальная база данных со всеми
функциями реляционной базы данных. Пользователь может выполнить любые запросы в
рамках предоставленных ему полномочий доступа. По выполнении запроса возвращается
результирующий набор, содержащий все записи, которые отвечают критериям выбора.
В современной производственной среде, основанной на использовании информации,
разработчики часто реализуют решения интеграции данных. Проблемы, с которыми они
сталкиваются, обычно вызываются некоторыми архитектурными решениями, которые могут
диктоваться ограничениями технического, делового или договорного характера. Во-первых,
данные, необходимые для поддержки условия выборки информации, размещаются в
нескольких источниках; их необходимо интегрировать и представить потребителю в виде
единого результата. Далее, целевые источники данных, чтобы удовлетворять условиям
доступа, не могут быть реплицированы или скопированы.
По решению данных проблем можно предложить следующий подход, цель которого
заключается именно в предотвращении избыточности данных при создании
интегрированного представления данных на основе разнотипных источников. Суть подхода
заключается в том, чтобы эффективно объединить и обработать информацию из
несопоставимых источников в режиме реального времени (рисунок 1).
Целевое
назначение
Применение/загрузка
Обработка
Извлечение
Источник
данных
Источник
данных
Источник
данных
Рисунок 1
Т.е. система получает запрос, адресованный интегрированному представлению
различных источников, далее преобразовать этот запрос с помощью сложных
оптимизирующих алгоритмов, в результате чего запрос разбивается на серию операций.
Затем идет применение эти операции к соответствующим источникам, собираются
результаты от всех источников, выполняется сборка интегрированных результатов и,
2
наконец, возвращается интегрированные результаты инициатору запроса. Эта
последовательность обработки данных осуществляется синхронно в реальном времени.
Также в данном подходе необходимо учитывать синхронизацию манипуляций над
данными в различных источниках. Это обеспечит соответствие критериям атомарности,
непротиворечивости, изолированности и долговечности для транзакций и достижению
относительной непротиворечивости данных.
Использовать интегрированные результаты могут также и другие информационные
системы, приложения, порталы, нуждающиеся в доступе к распределенной информации. Это
показано на рисунке 2.
Портал
Приложения
Виртуализация данных
Источник структурированных
данных
Неструктурированные
данные
Система интеграции данных
Рисунок 2
Система после получения запроса к интегрированному представлению информации
разбивает его на несколько подопераций и определяет место размещения данных,
необходимые для ответа на запрос; виды операций, необходимых для преобразования
разнотипных представлений источников. Для этого система должна иметь статистику базы
данных источника. После того, как система определит наилучшую стратегию выполнения
всех подопераций, она устанавливает соединение с источниками данных, чтобы получить
релевантные данные. Затем, в соответствии с общим планом выполнения запроса,
подоперации выполняются в базах данных источников. Полученные результаты
агрегируются в результаты интегрированного представления. Затем результаты
возвращаются потребителю.
Вследствие доступа к данным источника в реальном времени, сразу по получении
запроса к интегрированному представлению, интеграция данных всегда возвращает самую
актуальную информацию источника. Поскольку система не создает копий данных
источника, изменения источника в этом подходе не копируются и не обрабатываются.
Запрос к системе выполняется в синхронном режиме. Сразу после получения ответа
запросчик может вызвать следующий запрос. Система может поддерживать параллельные
запросы, инициированные несколькими запросчиками. Последовательные запросы,
выполняемые с высокой частотой, должны иметь такие же показатели производительности,
как один запрос.
3
Преимущества интеграции используются наилучшим образом, если к ограниченному
результирующему набору, составленному из данных от нескольких непротиворечивых,
взаимодополняющих источников данных, выполняется ограниченное количество запросов.
Подводя итог, можно сказать, что синхронный интегрированный подход к
распределенным данным в режиме реального времени есть решение для эффективного
объединения и обработки информации из разнотипных источников.
Библиография:
1. Гари Хансен, Джеймс Хансен. Базы данных: разработка и управление//Пер. с англ. –
М.: ЗАО «Издательство БИНОМ», - 2003.-704 с.:ил.
2. Линьков В.М. Представление объектов в системе автоматизированного
проектирования систем измерений/ Линьков В.М., Дружаев А.А., Иванов М.А.
Пенза: ПГПУ. – 2004. -76-80с.
4
Скачать