Донецкий национальный университет Кафедра компьютерных технологий Современные проблемы информатики Тема 1. Интеллектуальные агенты Понятие агента. Типичные свойства интеллектуальных агентов. Тема 2. Информационный поиск в Web Поисковые агенты: принципы работы ИПС. Полнота охвата, полнота отклика, релевантность, пертинентность. SEO – Search Engine Optimization. Факторы, влияющие на поисковый ранг. Модели информационного поиска. Булева модель, Векторная модель. Тема 4. Семантический Web Понятие семантического Web. Метаданные, онтологии, знания. RSS-агенты: Проблемы поиска новостей традиционными ИПС. Синдикация новостной информации RSS-агентами посредством онтологий. Основы XML, RSS-ленты. Онтологии: XML → RDF → OWL. Основы OWL. Онтологии для семантического Web. Модель семантической сети. Пример схемы онтологий. Базы знаний с онтологиями. Тема 5. Адаптивные Web-ресурсы Понятие персонализации Web-ресурсов. Основные функции персонализации. Архитектура адаптивной информационной системы. Основные приёмы адаптации представления Webресурсов. Тема 6. Web-Mining Интеллектуальный анализ данных (АИД) в Web. Топология данных во Всемирной паутине. Обнаружение знаний. Виды закономерностей, выявляемые ИАД. Ассоциативные правила. Пример Web Mining для персонализации. Тема 7. Социальные сети Понятие социальной сети. Теория малого мира (модель случайного графа). Mодели формирования сетей. Тема 8. Grid-технологии. Облака Понятие Grid. Понятие облачных вычислений. Отличие от вычислительного кластера и облака. 2 ИНСТРУКЦИИ К ЛАБОРАТОРНЫМ РАБОТАМ 1. Знакомство с интеллектуальными агентами ИПС в Internet Необходимо по данным сети Internet выявить динамику изменения объёма всех публикаций за последние годы, касающихся сути Вашей магистерской диссертации. Построить в отчёте к лабораторной работе соответствующую таблицу и график, которые в дальнейшем Вы можете использовать и в отчёте к магистерской диссертации для обоснования актуальности темы. Для выполнения работы Вам необходимо выбрать в сети Internet какие-либо три ИПС. Для них найти и кратко описать основные правила словарного поиска (AND, OR, +, -, ~, «…», расстояние между словами…). Для выбранных ИПС составить требуемые выражения-запросы по булевой модели. Запросы составляйте по образцу слайда «Примеры профессиональных запросов к ИПС». Результаты ответов ИПС должны быть релевантными, не содержать ссылок на посторонние документы. Для получения количества публикаций (количества документов, найденных ИПС) за каждый год, предусмотрите в Вашем запросе отбор документов только по заданному году. Не «лопухнитесь» в запросе на поиск публикаций, в которых лишь упоминаются документы других лет и которые не являются публикациями заданного года. Не забудьте, в дополнение к полученным графикам, включить в отчёт тему магистерской диссертации, выражение-запрос для каждой ИПС, копии первых страниц ответов для публикаций текущего года. При сдаче лабораторной работы надо знать ответы на вопросы: 1. 2. 3. 4. 5. Как работает булева модель поиска? Как работает векторная модель поиска? Что такое релевантность и как она может вычисляться? Что такое SEO и что такое поисковый ранг? Как повысить поисковый ранг сайта? 2. Интеллектуальный RSS-агент. Семантика и базы знаний. Разработать Internet-агент (мультиагентную систему) в виде робота по сбору, доставке и показу в браузере или Win-приложении новостей из RSS-лент по ключевым словам, заданным пользователем. Перечень адресов возможных RSSлент разместить в базе агента. Рекомендации, как это может выглядеть: Пользователь вводит фразу для которой он хочет получить новости. Агент выбирает ключевые слова, просматривает в Интернете RSS-ленты (из своего списка адресов лент), выбирает подходящие новости в лентах (по ключевым словам). Показывает новости пользователю в порядке частоты встречаемости ключевых слов. 3 В простейшем варианте (оценивается небольшим количеством баллов) агент должен показывать новости RSS-ленты по указанному URL-адресу. При сдаче лабораторной работы надо знать ответы на вопросы: 1. Понятие интеллектуального агента, мультиагентной системы. 2. Какие свойства интеллектуальных агентов были реализованы в Вашей лабораторной работе? 3. Как реализована семантика в технологии синдикации Internetновостей? 4. Что собой представляют метаданные в RSS-лентах? 5. Нарисуйте семантическую сеть RSS-ленты и классифицируйте её по количеству отношений, по типу отношений, по количеству типов отношений. 6. Что такое база знаний? Где в RSS-ленте данные, а где знания? Чем отличаются языки запросов к базе знаний от языка SQL запроса к данным? 3. Обнаружение знаний. Кластеризация. Применить методы интеллектуального анализа данных (ИАД) и провести кластеризацию страниц сайта по их популярности на основе log-файла webсервера ДонНУ: 1. Организовать очистку данных log-файла. Получить файл «чистых» данных с именами страниц (объекты кластеризации) и количеством посещений (признаки кластеризации); 2. Выбрать меру расстояния между объектами; 3. Реализовать восходящую иерархическую кластеризацию: 3.1. Задать матрицу расстояний между объектами по выбранной мере; 3.2. Для оценки расстояния R между объектами (кластерами) используйте метод взвешенного попарного среднего. В качестве примера используйте материалы сайта http://www.aiportal.ru/articles/autoclassification/wpgma.html. 3.3. Модернизируйте указанный пример для объединения кластеров не по минимальному расстоянию R, а по R<d; 3.4. Посредством численных экспериментов подберите наилучшее начальное значение d =δ, отражающее суть каждого уровня дендрограммы кластеризации страниц сайта; 4. Построить дендрограмму полученных кластеров. 5. Сделать выводы. При сдаче лабораторной работы надо знать ответы на вопросы: 1. Что такое скрытые знания? 2. Расскажите алгоритм обнаружения знаний в ИАД. 3. Что такое шаблоны и зачем они нужны в ИАД? 4 4. Чем отличается классификация от кластеризации? 5. На что влияют достоверность, поддержка в шаблонах ассоциативных правил? 4. Социальные сети. Построить граф социальной сети ВКонтакте включающий вас и ваших друзей. Для этой цели можно использовать приложение ВКонтакте https://vk.com/club27702860 в группе «Интерактивный граф друзей». Данные о количестве узлов и связей в сети можно получить через приложение http://www.yasiv.com/vk. Найти коэффициент кластеризации C для данной сети относительно вас. В полностью связанной сети (каждый знает каждого) C = 1. В случайном графе C ~ 1/N, где N – количество членов общества. В сетях малого мира значение 1/N << C << 1. По результатам найденного значения коэффициента кластеризации C сделать вывод: удовлетворяет ли рассматриваемая сеть модели малого мира? Рассчитать среднюю длину пути в рассматриваемой сети. На сколько она отличается от средней длины пути в модели случайного графа для населения всей Земли? Если предположить, что время распространения инфекции в вашей сети за один средней шаг пути составляет 2 дня, то через какое время заболеет весь ваш социальный кластер? При сдаче лабораторной работы надо знать ответы на вопросы: 1. Какие типичные процессы моделируют и исследуют в комплексных сетях? 2. Что такое модель случайного графа? 3. Особенности модели сети малого мира? 4. Особенности модели сети предпочтительного соединения? 5. О чём свидетельствует схожесть структуры Вселенной, социальных сетей и мозга человека? 6. Что такое диффузионная модель сети? 5 ОРГАНИЗАЦИЯ ТЕКУЩЕГО, МОДУЛЬНОГО И ИТОГОВОГО КОНТРОЛЯ Критерии оценок: Каждая выполненная и сданная без замечаний лабораторная работа – 20 баллов. Модульный контроль (4 вопроса) – по 5 баллов за вопрос, всего – 20 баллов. Экзамен (4 вопроса) – по 5 баллов за вопрос, всего – 20 баллов. Вопросы для модульного контроля и экзамена Что такое «Интеллектуальные агенты» и их типичные свойства? Задачи агентов информационно-поисковых систем. Каков смысл их задач? Булева модель поиска? Векторная модель поиска? Основные идеи технологии PageRank. Как разработчик Web-ресурсов может влиять на SEO? 6. Что такое Semantic Web? 7. Semantic Web: Что такое семантическая сеть? Классификация сетей. 8. Semantic Web: Приведите пример построения семантической сети. 9. Semantic Web: Что такое база знаний и для чего нужен язык SPARQL? 10.Что такое адаптация (персонализация) Web-ресурсов и её основные функции? 11.Основные приёмы адаптации представления Web-ресурсов? 12.Web Mining: Алгоритм интеллектуального анализа данных для обнаружения знаний в Web? 13.Web Mining: Типичные виды закономерностей, выявляемые при интеллектуальном анализе данных? 14.Web Mining: Ассоциативные правила интеллектуального анализа данных? Приведите пример. 15.Алгоритм Web Mining построения модели пользователя для персонализации? 16.Что такое GRID? Чем он отличается от вычислительного кластера и облака? 17.Социальные сети и формализм моделей комплексных сетей? 18.Модели комплексных сетей: Что такое модель случайного графа? 19.Модели комплексных сетей: Особенности модели сети малого мира? 20.Модели комплексных сетей: Модель предпочтительного соединения? 1. 2. 3. 4. 5. 6 Методичне забезпечення Сайт В. К. Толстых http://www.tolstykh.com, слайды: Введение в интеллектуальные Web-технологии; Поиск в динамической новостной среде; Характеристики ИПС; Модели информационного поиска; Web-Mining; Семантический Web; Service Oriented Architecture; GRID; Инструкции к лабораторным работам. РЕКОМЕНДОВАНА ЛІТЕРАТУРА 1. Беллиньясо Марко. Разработка Web-приложений в среде ASP.NET 2.0: задача-проект-решение. : Пер. с англ. – М.: ООО «И.Д. Вильямс», 2007. - 640 с.: ил. 2. Боженюк A.B. Интеллектуальные интернет-технологии : учебник / A.B. Боженюк, Э.М. Котов., A.A. Целых. — Ростов н/Д: Феникс, 2009С — 381. 3. Гаряка А. А. Основы ASP.NET 2.0: Учебное пособие – БИНОМ, 2007.-296 с.: ил. 4. Гаврилова Т. А. Базы знаний интеллектуальных систем : учебник / Т. А. Гаврилова, Ф. В. Хорошевский. — СПб.: Питер, 2001. — 384 с. 5. Дари Кристиан, Сирович Джейми. Поисковая оптимизация на ASP.NET для профессионалов. Руководство разработчика по SEO.- М.: ООО «И. Д. Вильямс», 2008.- 400 с.: ил. 6. Джувел Лёве. Создание служб Windows Communication Foundation. – СПб.: Питер, 2008 . – 592 с.: ил. 7. Жуков Л. Теория социальных сетей. — http://leonidzhukov.ru/hse/2012/socialnetworks/ 8. Ландэ Д. В. Поиск знаний в Internet.- М: Диалектика, 2005.- 272с. 9. Эспозито Д. Microsoft ASP.NET 2.0. Углублённое изучение / Пер. с англ. – М.: «Русская редакция»; СПб.: Питер, 2007.-592 с.: ил. 10.Web Mining: интеллектуальный анализ данных в сети Internet // Управление знаниями. — https://sites.google.com/site/upravlenieznaniami/