Лекция 1.Современные проблемы анализа информации

advertisement
Современные проблемы
анализа информации
Турдаков Денис Юрьевич
turdakov@ispras.ru
Отдел информационных
систем ИСП РАН
• http://modis.ispras.ru - сайт отдела
• http://modis.ispras.ru/seminar - сайт научного
семинара
• Хранение и поиск данных
– XML СУБД Sedna (http://sedna.org)
– On-line демонстрация (http://wikixmldb.org/)
• Анализ текстовых данных
– Texterra - технология анализа текстов
– *Noon - технология управления коллекциями документов
• BlogNoon - семантический поиск и навигация по блогосфере
• Анализ социальных сетей
Основная часть
Немного об обработке
информации
• Неструктурированная
Текст
Аудио
Изображения
Видео
• Полуструктурированная
XML
Таблицы
Списки
• Структурированная
Реляционные
данные
Классические задачи
обработки текстов
• Информационный поиск (IR)
• Извлечение информации (IE)
• Вопросно-ответные системы (QA)
• Классификация и кластеризация
• Автоматическое аннотирование и
реферирование
• Диалоговые системы
• Машинный перевод
Уровни обработки текстов
• Морфологический
– I’m - I am
– кошка-кошки, дно-?
• Синтаксический
– Мне один черный кофе и один сладкий булка...
• Семантический
– Сколько китайского шелка было экспортировано в
Западную Европу в конце 18 века?
• Прагматический (дискурс)
– Сколько тогда было штатов в США?
Многозначность
• Ключевая проблема обработки текстов
• Я траву косил косой,
Дождик вдруг пошел косой.
Бросил я тогда косить
И на Стешу стал косить.
Ну а Стеша,ох,краса,
Как огонь её коса!
Многозначность
• Морфологическая
–часть речи
–мой (-- нос, -- руки)
–look ( look at me, have a look)
Алгоритмы определения
частей речи (part of
speech tagging)
• Синтаксическая
–мужу изменять нельзя
–мать любит дочь
–Flying planes can be dangerous
Синтаксический
разбор (parsing)
Многозначность
• Лексическая (семантическая)
разрешение
лексической
многозначности (word
sense disambiguation)
–Омонимия (ключ)
–полисемия (платформа)
–семантическая многозначность (лиса)
• Прагматическая
–тот человек в толпе...
–You have a green light
Многозначность и перевод
• Help для Windows 95
... Мышь может неадекватно реагировать на щелчок по
почкам. Но не спешите! Это могут быть физические
проблемы, а не клоп Окон 95.
Почистите вашу мышь.
Отсоедините ее поводок от компьютера, вытащите
гениталий и промойте его и ролики внутренностей спиртом.
Снова зашейте мышь.
Проверьте на переломы поводка.
Подсоедините мышь к компьютеру.
Приглядитесь к вашей прокладке (подушке) - она не должна
быть источником мусора и пыли в гениталии и роликах.
Поверхность прокладки не должна стеснять движения
мыши.
...
Сложность языка
• Естественный язык:
–многозначен на всех уровнях
–сложное, едва уловимое использование
контекста для передачи значения
–включает знания и рассуждения о мире
• Но обработка естественного языка может
быть иногда очень простой
–использование грубых признаков часто
позволяют достичь очень хороших результатов
Текущее состояние
• Разговорные агенты используются
некоторыми авиакомпаниями
• Можно отдавать голосовые команды
устройствам (телефон, в автомобиле...)
• Многоязыковой информационный поиск
Google
• Перевод страниц Google
• Компании занимающиеся анализом
текстов позволяют анализировать мнения
и предпочтения людей
Проекты ИСП РАН
Стек технологий Texterra-Noon
*Noon
'()*+$, "$"-%#" .)/01+$2)*
!"#" #$"$%&
}
Texterra
{
'()*+$, 03("*-+$%4
/)--+/5%41% .)/01+$2)*
База знаний
• Необходима для разрешения
многозначности
• Википедия как источник знаний
• Другие источники знаний
• Автоматическое извлечение знаний
Википедия
Семантическая близость
• Нормализованное количество общих соседей
Peter the great
Andrey
Kolmogorov
Mstislav
Keldysh
Sergey
Sobolev
Yury Osipov
Moscow
Institute for
System
Programming
Markov Prize
Sergey
Bulgakov
Akademgorodok
GraphiCon
Vitus Bering
Rector
Landau Institute
for Theoretical
Physics
Free Economic
Society
Theoretical and
Mathematical
Physics
Nikolay
Sklifosovskiy
Mikhail
Lomonosov
Catherine I of
Russia
Saint Petersburg State
University
Moscow Institute of
Physics and Technology
Ivan Sechenov
Catherine II of
Russia
Vladimir Arnold
• Близкие концепции чаще встречаются вместе
Linked data
Автоматическое извлечение
знаний
• Можно ли автоматически построить базу
знаний на основе анализа текстов?
• Модели использующие только тексты
дают низкую точность
• Идея: создать систему, обогащающую
существующую базу знаний новыми
понятиями из текстов
– В процессе разработки
– Есть возможность поучаствовать в этом
процессе
Уровень анализа документов
• Texterra: устранение
многозначности и выделение
ключевых понятий текста
• Анализ эмоциональной окраски
текстов
• Распознавание и классификация
именованных сущностей
• Извлечение информации об авторе
• Анализ изображений/видео/аудио
• ...
'()*+$, 03("*-+$%4
/)--+/5%41% .)/01+$2)*
'()*+$, "$"-%#" .)/01+$2)*
!"#" #$"$%&
Устранение лексической
многозначности
• Наиболее частое значение (MCS)
• Алгоритм Леска (1986): “PINE CONE”
– PINE
1. Kinds of evergreen tree with needle-sheped leaves
2. Waste away through sorrow or illness
– CONE
1. Solid body which narrows to a point
2. Something of this shpe whether solid or hollow
3. Fruit of certain evergreen tree
– PINE #1 ∩ CONE #3 = 2
Метод, использующий
однозначный контекст
D.Turdakov, P.Velikhov (SYRCoDIS 2008)
Jigsaw is W3C's open-source project that started in May
1996. It is a web server platform that provides a sample
HTTP 1.1 implementation and …
platform
(game)
implementation
platform
computing
open-source
Platform
...
Railway
platform
web server
HTTP
Результат работы системы Texterra
Уровень управление
коллекциями документов
• Информационный поиск
• Терминологический поиск
• Фасетный поиск
• Система рекомендаций
• Автоматическое реферирование и
аннотирование
• Вопросно-ответная система
• Персонализация работы пользователя
• Мониторинг информационного пространства
'()*+$, 03("*-+$%4
/)--+/5%41% .)/01+$2)*
'()*+$, "$"-%#" .)/01+$2)*
!"#" #$"$%&
BlogNoon
• Система семантического поиска
информации и навигации по блогосфере
• http://blognoon.com
Фасетный интерфейс
Рекомендации
Другие наши работы
• Анализ табличных данных
• Анализ потоков данных
• Анализ социальных сетей
–Антон Коршунов. 25 февраля.
• http://modis.ispras.ru
Download