Костин В.Г. ЭВМдм-52 Механизмы поиска знаний – как основа управления знаниями Организация эффективного поиска на основе онтологий Сегодня все чаще можно встретить два близких по значению термина: «Интеллект бизнеса» « (business intelligence — BI) и «Управление знаниями» (knowledge management — КМ). Первым термином обычно обозначают средства, дающие конечному пользователю возможности доступа и последующего анализа прикладных структурированных данных, с целью прогнозирования и принятия решений. Впервые идея BI и само название были предложены аналитиками GartnerGroup в конце 80-х, но особую популярность приобретает сегодня. «Управление знаниями» — дисциплина более универсальная, отличающаяся более широкой полосой охвата. Она основана на интегральном подходе к созданию, накоплению, и, в некотором смысле, управлению знаниями, хранящимися в виде документов различного рода, а также знаниями, принадлежащими сотрудникам предприятия. Совсем недавно сложился конгломерат — KM-Enabled BI («Интеллект бизнеса, поддерживаемый Управлением знаниями»). Многочисленность красивых названий и разнообразие поддерживающих технологий может создать мозаичную, малосвязанную картину, напоминающую известную индийскую притчу, в которой слепцы на ощупь пытались определить, что такое слон. Может показаться, intranet и средства для групповой работы, СУБД и хранилища данных, добыча данных и текста, телеконференции и системы дистанционного обучения – все это разрозненные технологии. В действительности дело обстоит не так: технологии гармонично прогрессируют по пути от «простых» вычислительных операций к обработке данных — и далее к КМ. С точки зрения целей общества, где доминируют информационные технологии, знания - это просто интеллект, используемый в работе. Знания, приобретаемые фактическим опытом, продуктивны только когда они используются при выполнении работы или интегрируются в процесс выполнения работы. Артур Андерсен определяет знания как «ценную информацию». Но самое точное определение знаниям было дано задолго до информационной и электронной революций и даже задолго до индустриальной революции. Сэр Френсис Бэкон (1561-1626) дал знаменитое определение: «знания – сила». Сегодня мы окружены громадными объемами информации, поэтому такое определение кажется очень современным. Информации так много, что мы оказываемся неспособными использовать ее. Знания - это сегодняшняя валюта. Организации, способные работать с уже имеющимися у них и получаемыми в процессе работы знаниями, будут «на коне» в XXI веке Слайд Знания приобретают разные формы и поэтому ими становится сложнее управлять. Часто знания оказываются чем-то большим, чем просто информацией и данными о событиях, продуктах или процедурах. Знания - это: Необходимо отметить различие между неявными и явными знаниями. Неявные знания трудно выразить: они часто заключены в интуиции и в не поддающихся анализу опыте, навыках и привычках. Неявными знаниями может обладать отдельный человек или группа людей. Явные знания легко выражаются четкими данными, сообщениями, словами и числами. Явные знания в большей степени систематизированы, закодированы и, следовательно, более легко извлекаются из локальных и глобальных баз данных, сообщений электронной почты (e-mail), HTML-файлов, различных систем управления документами, систем класса workflow и других источников информации. Неявные и явные знания являются существенными компонентами при разработке стратегии управления знаниями. Слайд Управление знаниями - это распространение и поиск опыта людей и актуальной информации в среде связанных между собой людей или групп людей. Здесь самое главное - это знания людей и взаимодействие между людьми: обмен идеями, решениями и актуальной информацией при попытках создавать новые решения. В анализе фирмы Gartner Group говорится: "При управлении знаниями взаимодействие людей есть фокус сбора, распространения и многократного использования информации. При управлении информацией технология есть фокус сбора, распространения и многократного использования информации". Ключом к управлению знаниями является доставка нужных знаний нужным людям в пределах группы людей и организации в целом и в нужное время. Цель управления знаниями заключается в том, чтобы помочь людям лучше работать вместе, используя все возрастающие объемы информации и управляя ими. Результатом успешно работающей системы управления знаниями должна стать знающая, самообучающаяся и развивающаяся организация. Есть три основных компонента управления знаниями: Люди, процессы и технологии - новые строительные блоки успеха на сегодняшних рынках, переполненных информацией. Люди решают проблемы, используя мозговой штурм, нововведения, творческие силы и знания, полученные из опыта. Совместная работа людей умножает знания, накапливаемые организацией, и улучшает условия достижения потенциального успеха ("две головы лучше, чем одна"). Здесь организации также необходимы умело спроектированные и эффективные бизнес-процессы для создания атмосферы коллективного творчества. Даже самые лучшие решения в мире не будут работать, если они не распространяются для внесения исправлений и выполнения. Работа идет в так или иначе сложившихся группах (коллективах людей), пытающихся решать общую проблему или новую задачу. Наконец, для поддержки человека при его работе над нововведениями и стремлении к прогрессу, необходима технологическая инфраструктура, обеспечивающая условия для успешной коллективной работы, создания корпоративных знаний и быстрой практической выработки новых идей и решений Слайд Externalization Externalization - это выборка знаний из внешних хранилищ и организация их в соответствии с классификационной оболочкой или систематикой. Самые простые - это технологии, которые позволяют только извлечь знания и хранить их, поддерживая интерактивный доступ, - к примеру, системы визуализации или базы данных. Технологии поддержки потоков работ предоставляют более высокий уровень функциональности. Следующий уровень externalization предусматривает более мощные и многообещающие средства поиска и системы управления документами, которые классифицируют хранящиеся знания и выявляют аналогии среди различных источников информации. Построенный на этом кластерный подход может быть использован для выявления скрытых отношений или связей между различными компонентами знаний в корпоративной базе знаний. В конечном итоге роль externalization - сделать накопленные знания доступными для тех, кто в них нуждается, с помощью двух других базовых функций - internalization и intermediation. В рассмотренном выше примере интегрированный инструментарий управления документами и хранилищами данных, использованный в сети супермаркетов, позволил выявить аналогии в спросе на пиво и бумажные полотенца. Менеджеры подтвердили наличие такой связи, и теперь пиво и полотенца имеются в супермаркетах примерно в одинаковых количествах, что позволило еще больше увеличить объем одновременных продаж. Слайд Internalization В то время как externalization стремится выявить наличие похожих компонентов знания, internalization пытается выявить компоненты знания, соответствующие требованиям конкретного пользователя. С помощью internalization знания извлекаются из внешнего хранилища и фильтруются с, тем чтобы выяснить, какие из них соответствуют интересам пользователя. Internalization помогает исследователю сформулировать проблему или интересующую его тему и найти соответствующие компоненты знаний, уже собранные с помощью externalization. В приложениях высокого класса, реализующих internalization, выбранные знания могут переформатироваться и представляться в наиболее удобном виде, возможно с несколькими уровнями интерпретации. Текстовые компоненты могут быть сведены до ключевых элементов данных, которые представляются как серии диаграмм или конспекты оригинальных текстов. К примеру, исследователи международной фармацевтической компании смогли передать запросы, соответствующие их проекту, быстро выявить, какие из уже проводившихся исследований могут быть связаны с их проектом, и получить знания, скрытые в многочисленных записях и отчетах. Слайд Intermediation В то время как internalization концентрируется на передаче явных знаний, intermediation оценивает скрытые знания. Она предлагает пользователю, которому нужна информация, наилучший источник знаний. Сопоставляя проведенную ранее работу и интересы пользователей, intermediation может связать специалистов, работающих над определенной темой, с сотрудниками компании, которые, возможно, являются носителями знаний в этой предметной области. Рассмотрим действия научного сотрудника фармацевтической фирмы. В ответ на запрос о необычной серии побочных эффектов некоторого препарата сотрудник получает несколько соответствующих документов из корпоративной информационной базы данных. Но благодаря методам, реализующим intermediation, сотрудник узнает имя ученого, работающего в другой стране, чьи интересы (как следует из анализа запросов, проведенного системой) показывают, что он уже проводил аналогичные исследования. Теперь оба специалиста могут вести совместные эксперименты и выяснить возможные случаи побочного действия препаратов. Intermediation автоматизируется с помощью таких технологий, как групповое программное обеспечение, intranet, а также системы поддержки потоков работ и управления документами. Первые две обеспечивают базовую платформу для поддержки обмена между владельцем "скрытого" знания и пользователем, которому эти знания необходимы. При использовании системы поддержки потоков работ intermediation может быть реализована с помощью двух подходов. В том случае, когда правила четко определены, intermediation выполняется автоматически. К примеру, если сотрудник, работающий с финансовыми документами, получил заказ из Кореи, он может сразу обратиться за помощью к корпоративному эксперту, занимающемуся вопросами торговли со странами Дальнего Востока. В менее очевидных ситуациях система поддержки потоков работ "посоветует" наиболее подходящего специалиста, способного дать ответ на возникший вопрос, выбрав его на основе иерархического анализа результатов предыдущей деятельности специалистов этой организации. Слайд Cognition Cognition - это использование знаний, полученных с помощью предшествующих трех функций, и конечная цель управления знаниями. Для автоматизации процесса cognition применяется несколько технологий к примеру, экспертные системы или компонент на основе искусственного интеллекта. Эти системы принимают решения самостоятельно. Например, одна страховая компания использует автоматизированную систему, для того чтобы определить, насколько обоснованно требование рабочего о получении компенсации. Хотя существуют автономные системы, реализующие cognition, параллельно компании стремятся внедрить cognition в системы поддержки потоков работ. Обычно в системах поддержки потоков работ используются точные правила обработки и логики. Но если система позволяет формализовать знания, полученные по результатам предыдущих аудиторских проверок, механизм потоков работ может применяться для автоматизированного принятия решений на основе аналогичных случаев. К примеру, в автоматической системе переговорного центра при ответах на вопросы могут быть установлены соответствия с аналогиями в ситуациях, возникавших ранее. Действия, которые в прошлом позволили устранить неисправность, могут быть автоматически предложены системой поддержки потоков работ в качестве предпочтительного решения. Слайд Состояние технологии В конечном итоге роль, которую играет эта технология в управлении знаниями, вторична по отношению к изменению корпоративной культуры и структуры базовых принципов конкуренции и оценки ценностей. Суть в том, чтобы не только учитывать возможные преимущества, обещанные конкретным решением, но понимать, какую пользу организации может принести творческое применение существующих технологий в сочетании с предлагаемыми на рынке новшествами. Система управления знаниями должна обладать следующими важными характеристиками. Чувствительность к контексту. Система должна "понимать" контекст требуемых знаний. К примеру, она должна различать размножение животных и размножение документов. Чувствительность к пользователю. Система должна организовывать знания с учетом сферы интересов и опыта работы пользователя - так, чтобы они были максимально полезны заказчику. Гибкость. Система должна иметь возможность обрабатывать знания в любой форме, в том числе по любой теме, в различной структуре и на самых разнообразных носителях. Эвристичность. Система должна накапливать информацию о своих пользователях и о знаниях, которые она получает во время работы. Таким образом, со временем ее возможность "продуманно" предоставлять пользователям знания должна совершенствоваться. Предусмотрительность. Система должна выявлять причину потребности в знании и предлагать "сопутствующие" знания, помимо тех, которые четко заявлены пользователем. Слайд Новые технологии управления знаниями, по всей вероятности, будут созданы на том же основании, но с визуальными средствами, которые предусматривают упрощенную навигацию, с более мощными автоматизированными средствами мониторинга скрытых знаний, механизмами, позволяющими добавлять согласованное решение нескольких сотрудников к информационной базе. И наконец, они будут оснащены более совершенными инструментальными средствами добычи знаний из пока не использующихся источников, таких как аудио и видео. Несмотря на незрелость технологий управления знаниями, перспективы, которые они предлагают, достойны вашего внимания Слайд В настоящее время проблема поиска информации в больших массивах сравнивается с проблемой Вавилонской башни. Эта проблема усугубляется еще и тем, что существующие поисковые механизмы осуществляют поиск информации без учета семантики слов, входящих в запрос, а также контекста, в котором они используются. В данной работе рассматривается применение онтологий для повышения эффективности поиска информации в больших массивах знаний, в частности, в сети Internet. Деятельность отдельных людей, коллективов и организаций сейчас все в большей степени зависит от имеющейся у них информации и способности ее эффективно использовать. Имея доступ к морю информации, представленной в Internet, пользователю хотелось бы получать только нужные ему документы, в то время как поисковые системы работают более чем неудовлетворительно. Проблема усугубляется еще и тем, что различные группы людей, занимающиеся сбором и поиском информации, используют для общения с поисковыми системами, как свои специальные термины, так и термины, широко используемые другими сообществами в ином контексте. Вследствие этого может возникнуть проблема несовместимости используемых терминов, так как современные машины поиска используют в основном механизмы поиска по ключевым словам, не учитывающие контекст, в котором существует информация. В итоге результатом работы таких машин поиска являются сотни тысяч ссылок, большинство из которых указывают на документы, не относящиеся к делу, что затрудняет восприятие и выбор полезной информации. Таким образом, возникает противоречие между хранящейся в Internet информации и ограниченными возможностями человека по ее поиску и переработке. Порожденный указанными выше проблемами информационный кризис еще больше подогрел интерес к разработке интеллектуальных механизмов поиска информации в сети Internet. С другой стороны, Web стал рассматриваться как потенциальная база знаний, для работы с которой нужны специальные методы представления и обработки знаний и запросов. Разумным здесь кажется применение методов и средств, разработанных в области искусственного интеллекта. В рамках такого подхода внимание различных исследователей сейчас привлекают онтологии (Майкевич98;Khoroshevsky98). В частности, при создании средств поиска информации предлагается использовать онтологии, описывающие семантику представленных в сети ресурсов. При этом онтологии могут выступать и в качестве единого «канонического» описания, помогающего решить проблему несовместимости и противоречивости понятий, используемых для извлечения информации из больших массивов знаний. Слайд Понятие онтологии, заимствованное из философии, сейчас активно применяется в искусственном интеллекте и информатике. В философии онтология изучает категории бытия, которые существуют или могут существовать. В искусственном интеллекте онтологии упоминаются в контексте с такими понятиями как концептуализация, знание, представление знаний, системы, основанные на знаниях. Одни пытаются дать неформальные определения, другие описывают онтологии на основе понятий и конструкций логики и математики. Но, несмотря на то, что построено множество различных онтологий и увеличивается область их применения, до сих пор нет точного определения этого понятия применительно к области искусственного интеллекта. Самым распространенным на данный момент является определение T. Gruber, согласно которому,онтология является точной спецификацией концептуализации. С этой точки зрения каждая база знаний, система, основанная на знаниях, или агент знаний фиксируется явно или неявно некоторой концептуализацией. Множество объектов и отношения между ними отражаются в словаре, в котором система, основанная на знаниях, представляет свои знания. Таким образом, считается, что основу онтологии составляют множества представленных в ней терминов. Слайд Методология построения онтологий (Ushold,Gruninger96;Ushold,King95) предполагает рассмотрение следующих важных вопросов: 1. Обозначение целей и области применения создаваемой онтологии. Для этого необходимо определить для чего создается онтология, и как она будет в дальнейшем использоваться. 2. Построение онтологии 2.1. Фиксирование знаний о предметной области, которое включает в себя: a) определение основных понятий и их взаимоотношений в выбранной предметной области; b) создание точных непротиворечивых определений для каждого основного понятия и отношения; c) определение терминов, которые связаны с этими терминами и отношениями; d) окончательное согласование всех выше названных этапов. •2.2. Кодирование, которое подразумевает a) разделение совокупности основных терминов, используемых в онтологии, на отдельные классы понятий; b) выбор или разработку специального языка для представления онтологии; c) непосредственно задание фиксированной концептуализации на выбранном языке представления знаний. Слайд Так как при обращении к поисковой системе пользователь должен иметь возможность получить в ответ ресурсы релевантные смыслу запроса, то их поиск должен быть семантически ориентированным. Для этого средства поиска соответствующей запросу информации предлагается организовать на основе онтологии, содержащей описания семантики ресурсов. Известно, что семантика Internet-ресурсов очень разнообразна, следовательно, осуществлять поиск необходимой информации тем проще, чем уже и специфичнее предметная область. Вследствие этого на практике можно ограничиться построением онтологии одной конкретной области. Как уже было сказано выше, для построения онтологии требуется формальное декларативное представление четко организованных конструкций, которые включают в себя словарь терминов тематической области, описание определений этих терминов, существующие взаимосвязи между ними, их теоретически возможные и невозможные взаимосвязи. Описанные таким образом онтологии предлагается применить в качестве посредника между пользователем и поисковой системой (см. Рис. 1). Взаимодействие с онтологией предполагается на следующих этапах: 1) формирование поискового образа релевантного документа; 2) построение запроса к поисковой системе; 3) формирование списка релевантных документов. Проблема состоит в том, чтобы сделать поиск динамичным и удобным для пользователя. Для любого типа запроса, возникающего у человека в практической деятельности, должны быть найдены адекватные знания в информационном пространстве Internet. При этом язык для формулирования поискового требования не должен был слишком сложным. В частности, общение пользователя с поисковой системой можно сделать более простым, приблизив язык запроса к естественному языку. При такой организации поиска на этапе формирования образа релевантного документа из пользовательского запроса выделяются смысловые структуры: значимые слова и термины предметной области. Эти смысловые структуры затем используются для формирования поискового образа с применением эвристических правил и вывода на онтологии. Образ релевантного документа представляет собой описание желаемого результата работы поисковой системы, которое включает в себя: •1) набор терминов, которые должны включаться в документ; •2) набор характеристик документа; •3) набор требований к результату поисковой системы, таких как количество документов и т.п. На этапе построения запроса к поисковой системе осуществляется вывод на онтологии. При этом выполняется преобразование пользовательского запроса в соединенный логическими связками набор терминов и понятий, которые будут использоваться поисковой системой. Слайд В онтологии для предметной области представление знаний механизм вывода на онтологии может осуществляться на основе таких представленных в ней отношений между понятиями как Синоним, Основа, Ассоциация, Род-вид, Часть-целое, Это, Средство_для. Рассмотрим несколько примеров, демонстрирующих применение онтологии для формирования запроса. Пример 1.Если пользователя интересуют документы, содержащие информацию о моделях представления знаний, то данный запрос может быть расширен понятиями, которые связаны с требуемым понятием отношением Род_вид, т.е. являются моделями представления знаний. Запрос = “Какие существуют модели представления знаний?” Род_вид (Модель,Продукционная), Род_вид (Модель,Сетевая), Род_вид (Модель,Фреймовая), Запрос = “ Продукционная модель U Семантическая сеть U Фрейм ” Пример 2.Если запрос пользователя содержит в себе понятие семантическая сеть, то он дополняется синонимичным понятием ассоциативная сеть, которое связано с требуемым понятием отношением Синоним. Запрос = “… Семантическая сеть …” Синоним (Семантическая сеть, Ассоциативная сеть) Запрос = “… (Семантическая сеть U Ассоциативная сеть)…” Пример 3.Отношение Ассоциация «дополняет» запрос пользователя такими понятиями, которые по той или иной причине, могут вызывать у пользователя ассоциации. Так, например, некоторые исследователи под понятием Система представления знаний имеют в виду Экспертную систему. Запрос = “… Система …” Ассоциация (Система, Экспертная система) Запрос = “… U Экспертная система…” Пример 4.Отношение Часть-целое также дополняет запрос, добавляя в него понятия. Например, если пользователь интересуется понятием присоединенная процедура, то с помощью этого отношения в строку запроса добавляется термин фрейм. Запрос = “… Присоединенная процедура …” Часть_целое (Присоединенная процедура,Фрейм) Запрос = “… Присоединенная процедураUФрейм ” Слайд После преобразования исходного запроса с использованием онтологии пользователю в режиме диалога предлагается уточнить поисковое предписание. Затем, расширенный и уточненный таким образом запрос автоматически модифицируется в запрос к поисковой системе. При этом задаются параметры поиска, специфичные для каждой системы. Результатом работы поисковой системы является множество ссылок на HTML-документы. Так как среди этого множества ссылок могут содержаться ресурсы, не имеющие ничего общего с запросом пользователя, то на следующем этапе происходит проверка результатов работы поисковой системы на соответствие поисковому образу документа. Анализ соответствия результатов HTML-документов должен основываться на выделении ключевых слов из таких частей документа как заголовки, ссылки и тела документа. Так как результатом работы поисковой системы может быть большое количество ссылок, то анализ документов должен проводиться на основе жестких критериев отбора. После проведенного «отсечения» лишних документов результаты поиска отображаются в удобном пользователю виде.