1 Тема доклада Технология сбора, извлечения и систематизации ядерных знаний, представленных в виде текстовых документов 2 МГТУ им. Н.Э. Баумана. Факультет ИУ Факультет «Информатика и системы управления» (ИУ) МГТУ им. Н.Э. Баумана готовит высококвалифицированные инженерные и научные кадры, специализирующиеся в тех областях научнотехнических знаний, которые связаны с созданием и внедрением новейших информационных технологий, программноаппаратных средств вычислительной техники, средств автоматизации приборов и систем управления, ориентации, стабилизации и навигации. 3 НПЦ «ИНТЕЛТЕК ПЛЮС» Работает в области информационных технологий с 1992. Ядро коллектива составляют выпускники МГТУ им. Н.Э. Баумана, среди них – 4 кандидата технических наук. Тесное сотрудничество с кафедрой «Компьютерные системы и сети» МГТУ им. Н.Э. Баумана (ИУ-6). В результате были подготовлены и успешно защищены 8 кандидатских диссертаций по тематике НПЦ. 4 Основные направления деятельности Объектные СУБД Технологии полнотекстового поиска и семантического анализа документов Технологии извлечения и классификации информации Технологии Data mining, Text Mining, Web Mining и Process Mining Создание и использование онтологических моделей данных Решение задач интеграции справочных данных и данных о жизненном цикле сложных изделий с использованием стандарта ISO 15926 Разработка специализированных ИС и Web-сервисов 5 Технология извлечения и систематизации ядерных знаний. Основные принципы ядерные знания содержатся в электронных документах, имеющих разные форматы и наборы метаданных в виде текстов либо в форме табличного представления; • документы распределены по различным разнородным источникам (открытым – Интернет-ресурсы и ограниченного доступа); • имеются эксперты, которые могут определить интересующие источники информации, сформулировать темы, подлежащие мониторингу и определить принципы систематизации знаний. • 6 7 Основные технологические блоки Система онтологического моделирования знаний предметной области Интернетисточники Система сбора материалов из разнородных источников Внешние Внешние ИС ИС Система интеграции знаний Внешние Внешние системы системы управления управления знаниями знаниями Подсистема хранения текстовых материалов ПользовательПользовательаналитик аналитик ИПС Подсистема хранения табличных данных Система Система накопления накопления ии хранения хранения данных данных Система анализа данных и прогноза ПользовательПользовательаналитик аналитик 8 Структура ИС Интернетисточники Сбор текстовых материалов с веб-сайтов Устранение дублей Интеграция с внешними документальными ИС Документы из внешней ИС Внешние Внешние ИС ИС ПользовательПользовательаналитик аналитик Система Система сбора сбора материалов материалов из из разнородных разнородных источников источников Материалы SQL СУБД Классификация текстовых материалов Хранилище Хранилище Извлечение табличных данных Сервер хранилищ Табличные данные Внешние Внешние аналитические аналитические системы системы Пользователь Пользователь ИС ИС Web-сервер Веб-клиент АРМ Редактор Документ для проверки Сервис онтологического мэппинга Интегрируемые Интегрируемые онтологии онтологии ODB-Jupiter Распределенная Распределенная система система хранилищ хранилищ Хранилище Сервер хранилищ Java-сервис интеграции Хранилище Аналитические Аналитические приложения приложения Внешняя Внешняя аналитическая аналитическая система система Документ описания Сервис аннотирования и кластеризации Веб-клиент ПользовательПользовательаналитик аналитик Сервис построения прогноза Веб-клиент Сервис геопривязки Извлечение характеристик из документа Управление онтологиями посредством Jena и SPARQL Проверка по онтологии Подготовка каталожных описаний SQL СУБД OWL RDF БД Подготовка инженерных онтологий и онтологий ИСО 15926 Редактор онтологий Protégé ГИС Редактор Редактор кталожных кталожных описаний описаний Система Система онтологического онтологического моделирования моделирования знаний знаний предметной предметной области области Подсистема хранения текстовых материалов. Архитектура ODB-Jupiter 9 10 Архитектура системы сбора материалов из разнородных источников Веб-клиент ИПС Результат сбора текстовых данных Открытые источники текстовых материалов АРМ администратора сбора Текст материала Метаданные в XML форме Подсистема обнаружения сбоев Подсистема накопления (ИПС) Подсистема удаления дубликатов АРМ администратора ИПС Подсистема контроля качества RSS, HTML, DOC, XLS АРМ редактора ИПС Текстовые материалы Сбор текстовых и табличных материалов Результат сбора табличных данных Журнал работы Табличные данные в XML форме Табличные данные Внешние аналитические системы 11 Архитектура подсистемы сбора текстовых материалов АРМ администратора сбора Подсистема сбора текстовых материалов Планировщик RSS, HTML, DOC, XLS Загрузчик Результат сбора Парсер Метаданные Формирование материала Текст Источники текстовых материалов Загрузчик текстов Парсер текстов Текст материала Журнал работы Журнал работы XML-документ с метаданными 12 Веб-интерфейс системы сбора 13 Возможные области применения Подсистема сбора текстовой и табличной информации извлекает требуемые данные из разнородных источников, в том числе вебсайтов. Например: Новости атомной энергетики; Статистические показатели; Результаты мониторинга оборудования и протекания технологических процессов; Научные статьи; Технические характеристики новых приборов. 14 Подсистема обнаружения сбоев Возможные последствия изменения структуры веб-сайта: Данные не извлекаются (проблема может быть обнаружена самой системой сбора) Данные извлекаются некорректно (требуется подсистема обнаружения сбоев) Веб-сайты Система сбора Подсистема обнаружения сбоев Сбоя нет База данных Обнаружен сбой Правила Xpath Параметры Администратор 15 Архитектура подсистемы обнаружения сбоев АРМ администратора системы сбора Подсистема обнаружения сбоев Веб-сайты RSS, HTML, DOC, XLS Оперативный детектор Параметры детектора Система сбора Классификатор Текст XML-карточка с метаданными да нет Статистические данные Обнаружен сбой? Журнал Подсистема накопления Два этапа проверки: • Оперативная проверка; • Отложенная проверка. Текстовые материалы Статистические данные Эталон Анализатор Преимущества такого подхода: • Быстрая реакция на сбой; • Высокое качество анализа. да нет Обнаружен сбой? Отложенный детектор Администратор Характеристики разработанного подхода к обнаружению сбоев Основные характеристики: • • • • Двухступенчатый анализ. Быстрая иерархическая кластеризация. Сравнение законов распределения характеристик документов с помощью расстояния Кульбака-Лейблера. Использование пороговой функции при отложенном детектировании сбоев. Качество работы оперативного детектора: • • 99,54% правильно распознанных корректных документов; 100% правильно распознанных некорректных документов. Качество работы отложенного детектора: • • В 90,47% – 100% случаев правильно определено отсутствие сбоя; В 72,22% – 100% случаев правильно определено наличие сбоя. 16 17 Подсистема обнаружения дубликатов Документы, опубликованные одним из источников, могут дублироваться другими. В результате в базу данных системы попадают одинаковые или очень близкие по содержанию документы (дубликаты) Процесс обнаружения дубликатов включает два этапа: • построение векторных моделей документов; • сравнение векторных моделей двух документов и определение, являются ли они нечеткими дубликатами. Устранение дублей Построение векторной модели Векторная модель Текст документа Сравнение документов Построение векторной модели Текст документа Векторная модель Вердикт о наличии дубликата 18 Построение векторных моделей документа Построение векторной модели документа включает 2 этапа: • токенизация – разбиение текста документа на множество элементов; • векторизация – присвоение этим элементам весов, характеризующих их значимость. Построение векторной модели Векторизация Токенизация Выделение слов Российская академия наук планирует предложить Выделение N-грамм рос осс сси сий ийс Текст документа Выделение характеристик Число параграфов: 4 Число слов: 214 Число букв: 1293 Средняя длина слова: 6.04 Расчёт весов слов weight tf * idf Расчёт весов N-грамм tf nti k n j 1 tj Расчёт весов характеристик zi* zi Z Z Фортов Минобрнауки наука кандидатура Ливанов 0.023 0.014 0.012 0.009 0.008 нау аук орт кан уки 0.009 0.009 0.006 0.005 0.005 Число параграфов Число слов Число букв 0.15 0.28 0.25 Средняя длина слова -0.24 19 Сравнение документов При обнаружении дублей сравниваются векторные модели документов и делается заключение о том, является ли один из них дубликатом другого. Для этого выполняются следующие шаги: 1. Сравнение. Векторы, соответствующие одной категории токенов, сравниваются с использованием косинусной меры близости. Полученные результаты сравнения объединяются в результирующий вектор. 2. Принятие решения. Определяется наличие или отсутствие дублирования путем бинарной классификации результирующего вектора методом SVM. слова: Векторная модель документа A слова => Сравнение векторов Сравнение векторных моделей Δ слов n-граммы => n-граммы: характеристики => Δ n-граммов Сравнение векторов Векторная модель документа B слова => n-граммы => характеристики => характеристики: Сравнение векторов Δ характеристик Δ слов Δ n-граммов Δ характеристик Бинарный классификатор Результат Архитектура подсистемы прогноза Сервис построения прогноза Веб-клиент Сервис построения прогноза Сервер хранилищ Хранилище Хранилище Java-сервис интеграции Сервер СУБД ODB-Jupiter Сервер хранилищ ПользовательПользовательаналитик аналитик 20 Внешний Внешний сервис сервис построения построения прогноза прогноза Внешний Внешний сервис сервис построения построения прогноза прогноза Хранилище Хранилище Распределенная Распределенная система система хранилищ хранилищ Пример поискового шаблона и результатов поиска ядерн*\5/безопасност*\500/фукусим* 21 22 Методы анализа и прогноза Подсистема построения прогноза позволяет выполнить прогнозирование ситуации, заданной поисковым шаблоном. Основные характеристики: • Анализ развития ситуации на основе частоты встречаемости документов, удовлетворяющих соответствующему поисковому шаблону. • Возможность использования различных моделей прогноза, таких как: o Авторегрессионные модели; o Регрессионные модели; o Искусственные нейронные сети; o Модели на основе нечетких временных рядов. • Возможность использования для построения прогноза внешних аналитических систем. Представление результатов Аналитический отчет Графики реального и прогнозируемого развития ситуации Пример отчета 23 24 Результаты прогноза Прогноз ситуации средствами внешней аналитической системы 25 26 Гео-привязка Извлечение информации о географии новостей Построение распределения новостей по географическому принципу Визуализация результатов извлечения Извлечение информации Особенности нашего подхода: Метод основан на использовании шаблонов; Правила извлечения хранятся в формате XML отдельно от системного кода; Изменение правил извлечения отделено от изменения системы извлечения; Метод учитывает неоднозначность естественного языка; Выразительная сила языка правил извлечения может быть с легкостью расширена путем добавления предметноориентированных семантических признаков; Правила извлечения имеют простую структуру и просты как для человеческого понимания, так и для автоматического построения. 27 28 Пример правила извлечения <rule name=“company_1" size="5"> <ct len="[1;1]" set="{ЕД},{И|ЕД}"/> <ex len="[1;1]" set="{eng}"/> <ct len="[0;1]" set="{нрч}"/> <ct len="[1;1]" set="{сов|пхд|нвз|глг|ЕД|3}"/> <ct len="[1;1]" set="{В}"/> </rule> Компания nVidia официально отложила день выпуска видеокарты ... Фирма Apple опровергла слухи о том... Построение правил извлечения с использованием машинного обучения Подход, основанный на машинном обучении: Может быть использован для построения правил извлечения на основе подготовленных обучающих примеров; Может существенно снизить стоимость разработки системы извлечения информации; Использует индуктивный подход машинного обучения; Демонстрирует высокое качество работы несмотря на ошибки, которые могут присутствовать в обучающих примерах; Демонстрирует высокую производительность; Обучение производится для оптимизации точности и полноты целевой системы извлечения информации. 29 30 Распознавание словосочетаний Подсистема интеграции ядерных знаний в соответствии с ISO 15926 Цели использования стандарта: обмен информацией между различными компаниями без необходимости предъявления требований к организации хранилищ этой информации; организация непосредственного взаимодействия ИС предприятий без необходимости непосредственного участия человека в процессе этого взаимодействия; повышение точности передаваемой информации, исключению ошибок человекаоператора при передаче данных, организации автоматического контроля при обмене данными. 31 32 Схема подсистемы интеграции Сторонние приложения Мэппинг Модуль работы с онтологией OWL Модуль генерации интерфейса Запросы Браузер Информация для отображения SPARQL RDL RDF Store (Jena) Поисковые запросы Адаптер Ссылки на документы Адаптер Словарная служба НСИ (ТЗ, ТУ, ГОСТ) НСИ (ТЗ, ТУ, ГОСТ) Документы ODB Text 33 Этапы интеграции Включение в федеральную систему каталогизации Средство маркетинга продукции ТУ, НСИ Стандарт Консорциума W3C Semantic WEB Широкое использование WEB-технологий КО OWL ISO 15926 Интеграция приложений, САПР и т.д. 34 Краткий обзор результатов этапов интеграции ТУ, НСИ КО OWL ISO 15926 Интеграция 35 Вопросы? Березкин Дмитрий e-mail: dmitryb2007@yandex.ru