Проект “How Much Information”.

advertisement
Воронежский государственный университет
Факультет компьютерных наук
Кафедра информационных систем
Введение.
Проблема информационного
поиска
Информационно-поисковые системы. Сычев А.В. 2006 г.
1
Проект “How Much Information”

http://www2.sims.berkeley.edu/research/project
s/how-much-info-2003/)
 Цель
проекта: оценка объемов
производимой в мире информации
в год.
Информационно-поисковые системы. Сычев А.В. 2006 г.
2
Проект “How Much Information. 2003”.
Объемы производимой информации
Носители
информации
2002 г.,
верхняя
оценка, в
ТБ
2002 г.,
нижняя
оценка, в
ТБ
Бумажные
1634
327
1200
240
36
Пленочные
420254
76690
431690
58209
-3
Магнитные
4999230
3416230
2779760
2073760
80
Оптические
103
51
81
29
28
ВСЕГО:
5421221
3416281
3212731
2132238
69
1999-2000
гг.,
верхняя
оценка, в
ТБ
1999-2000
гг., нижняя
оценка, в
ТБ
Информационно-поисковые системы. Сычев А.В. 2006 г.
Изменение
верхней
оценки, в
%
3
Проект “How Much Information”.
Суммарное годовое потребление информации
жителями США
1992 г.,
часов
Раздел
2000 г.,
часов
2000 г.,
МБайт
Изменение,
%
Телевидение
1510
1571
3142000
4
Радио
1150
1056
57800
-8
Музыкальные записи
233
269
13450
15
Газеты
172
154
11
-10
Книги
100
96
7
-4
Журналы
85
80
6
-6
Домашнее видео
42
55
110000
30
Видео игры
19
43
21500
126
Интернет
2
43
9
2050
ВСЕГО:
3324
3380
3344783
Информационно-поисковые системы. Сычев А.В. 2006 г.
1.7
4
Выводы
Ежегодный мировой объем производимой
информации увеличивается
экспоненциально.
 Доля информации на цифровых носителях
с каждым годом увеличивается по
сравнению с аналоговыми носителями.
 Суммарное годовое потребление
информации пользователями остается
постоянной величиной.

Информационно-поисковые системы. Сычев А.В. 2006 г.
5
Проблема
Ежегодно увеличивается
экспоненциальный разрыв между
объемом производимой
информации и её потреблением
конечными пользователями
Информационно-поисковые системы. Сычев А.В. 2006 г.
6
Подходы
 Автоматизация
средств поиска нужной
конечному пользователю информации.
 Разработка средств адресной доставки
потенциально востребованной
информации конечным пользователям.
Информационно-поисковые системы. Сычев А.В. 2006 г.
7
Жизненный цикл
информационного ресурса
 Становление
ресурса
 Каталогизация
 Автоматическое индексирование
 Канонизация поисковых сервисов
 Угасание ресурса
Информационно-поисковые системы. Сычев А.В. 2006 г.
8
Средства навигации для текстовой
информации: этапы становления
 Ранняя
•
•
•
история
Библейские индексы и конкордансы
1247 – Hugo de St. Caro – было
задействовано 500 монахов для
составления конкорданса ключевых
слов к Библии
Журнальные индексы (Королевское
научное общество, 1600-е)
Информационно-поисковые системы. Сычев А.В. 2006 г.
9
Библиотечные поисковые системы

Применение информационного поиска в библиотеках



Первый этап
• Автоматизация традиционных технологий (карточных
каталогов)
• Поиск по автору и названию
Второй этап:
• Тематический поиск, ключевые слова
В настоящее время:
• Развитый графический интерфейс
• Электронные формы
• Гипертекст
• Открытая архитектура
Информационно-поисковые системы. Сычев А.В. 2006 г.
10
Информационный поиск: этапы
становления

Термин “Information Retrieval”
(информационный поиск) был введен в
употребление Кельвином Муерсом (Calvin
Mooers) в 1952 г.
Информационно-поисковые системы. Сычев А.В. 2006 г.
11
Информационный поиск: этапы
становления
1958
1960
1961
1965
1968
1972
1976
1980
1981
Исследование статистических свойств языка (Luhn)
Вероятностное индексирование (Maron & Kuhns)
Ассоциирование терминов и кластеризация (Doyle)
Модель векторного пространства (Salton)
Расширение запросов (Roccio, Salton)
Статистическое взвешивание (Sparck-Jones)
Взвешивание по релевантности (Robertson, Sparck Jones)
Нечеткие множества (Bookstein)
Вероятности без обучения (Croft)
Информационно-поисковые системы. Сычев А.В. 2006 г.
12
Информационный поиск: этапы
становления
1983
1983
1985
1987
1990
1991
1992
1992
1994
1998
Линейная регрессия (Fox)
Вероятностные завсисмости (Salton, Yu)
Модель обобщенного векторного пространства (Wong,
Rhagavan)
Нечеткая логика и РУБРИКА/ТЕМА (Tong, и др.)
Латентное семантическое индексирование (Dumais, Deerwester)
Полиномиальная и логистическая регрессия (Cooper, Gey, Fuhr)
TREC (Harman)
Сети вывода (Turtle, Croft)
Нейронные сети (Kwok)
Языковые модели (Ponte, Croft)
Информационно-поисковые системы. Сычев А.В. 2006 г.
13
Исторические исследовательские
документально-поисковые системы
Вероятностное индексирование (Maron, Kuhns 1960)
SMART – Г.Сэлтон (Gerard Salton) – Модель векторного
пространства, 1970-е годы.


•
•
http://www.cs.uiuc.edu/class/fa05/cs511/Spring05/other_papers/p613salton.pdf
ftp://ftp.cs.cornell.edu/pub/smart/

I3R – Крофт.
Cheshire I (1990)
TREC – 1992.
Inquery - http://citeseer.ist.psu.edu/update/26307
Cheshire II (1994) - http://cheshire.berkeley.edu/
MG - Managing Gigabytes (1995) -

http://www.cs.mu.oz.au/mg/oldversions/
Lemur (2000) - http://www.lemurproject.org/





Информационно-поисковые системы. Сычев А.В. 2006 г.
14
Литература

Проект “How Much Information”
(http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/)

Larson R. “Principles of Information Retrieval”. Слайды
(http://www.sims.berkeley.edu/academics/courses/is240/s06/)

Талантов М.
Профессиональный поиск в Интернете:
полнота, достоверность, скорость. - Компьютер-Пресс.
1999, № 7. (http://compress.ru/Archive/CP/1999/7/13/ )
Информационно-поисковые системы. Сычев А.В. 2006 г.
15
Download