Viena_video

advertisement
Электронные библиотеки –
лучше семь раз отмерить, чем
потом всю жизнь мучится
Племнек Александр Иванович,
Ассоциация региональных библиотечных
консорциумов (АРБИКОН)
Технологические новости середины
ноября 2008 года









Sony анонсировала 12,25-мегапиксельную камеру для
мобильника
Робот научился копировать человеческую мимику
AMD выпустила 45-нанометровые чипы
Американцы создали самый мощный суперкомпьютер в
мире
Имя
-Производительность
-(Квадралионов операций в секунду)
Количество процессоров
–
Обьем оперативной памяти
–
Оббьем дисковой памяти
–
JAGUAR
1.64 ПЕТАФЛОПА
45.000
362 Терабайта
10 Петабайт
История вопроса
Alvin Toffler(*) обращает наше внимание на тот факт, что «…если
последние 50 000 лет существования человека разделить на
отрезки жизни приблизительно в 62 года каждый, то окажется
около 800 таких отрезков жизни.
 Из этих 800 полных 650 прошли в пещерах.
 Только за последние 70 таких отрезков жизни стало возможным
эффективно передавать информацию от одного поколения к
другому благодаря письменности.
 Только в последние шесть отрезков жизни люди использовали
печатное слово.
 Только за последние четыре стало возможным измерить время с
требуемой степенью точности.
 Только в последние два использовался электрический двигатель.
 И подавляющее большинство всех материальных благ, которыми
мы пользуемся в повседневной жизни в настоящее время, были
придуманы в течение настоящего, 800-го отрезка жизни».
* Амер социолог и футуролог один из авторов концепции “сверхиндустриальной цивилизации”
Прямое следствие технического
прогресса – большие объемы
порождаемой информации

Бытовой случай заставил задуматься о
проблеме больших объемах информации
Почему возникает проблема
объемов информации?
1.
Началась эра исследований с высокой
скоростью порождения данных (Большой Адронный
Коллайдер(CERN) генерирует 1.5GB в секунду, что приводит
к порождению 1 EB в день! Для сохранения используется
дисковый массив площадью 1 кв.км.)
2.
3.
Глобальное большинство информации
появляется в цифровом виде
Данные порождаются в полуавтоматическом
либо полностью автоматическом режиме
Информация к размышлению
В 2002 году суммарный объем:
Cохраненной информации включая бумажные носители, пленки,
ленты и пр. составил 5 EB (пять миллиардов миллиардов байт). Из
них 92% сохранены на магнитных носителях (50% диски, 42%
ленты(фото, аудио, видео))
Переданной по сетям информации составил 18 EB. Из них 97% телефонные разговоры, 2% - трафик Интернет, <1% CD&DVD

*
В исследовании не учитывалось тиражирование информации – только
однократная публикация

В 2006 году объем сохраненной информации составил уже 161 EB
В 2010 году ожидается увеличение объема до 988 EB что
составляет 6 кратный прирост

Предполагаемый профиль сохраняемого
информационного массива к 2010 году
Из 998 EB в 2010 году:
Прирост новой информации составит 25%
Неструктурированная информация составит 95%
(мультимедия, нетекстовое представление)
70% новой информации будет создано отдельными
пользователями
85% данных будет находиться в институциональных
хранилищах и будет контролироваться фирмами (что
приведет к решительному изменению системы
работы с информацией как в процессе производства
так и в процессе использования)
Библиотеки и читатели в
информационном контексте





Совокупный объем информации на бумажных носителях всех
видов составляет 0.001% от учтенного общего объема
информации (причем эта доля учитывалась не в форме текста
а в форме изображения страниц с разрешением 600 точек на
дюйм). Большинство из этих документов составляют офисные.
КНИГИ составляют всего 2.4% от 0.001% (в сканированном
виде)
БУМАГА – самый дорогой из современных носителей
За год в мире порождается 4 TB информации в текстовом виде
Читающий человек за всю жизнь потребляет максимум 1GB
информации в текстовом формате
Мы уже находимся в состоянии
кризиса






Скорость порождения информации не позволяет
производить даже грубый отбор
Современные технологии уже не справляются с
необходимостью регистрации информационного
потока
Хранение информации требует существенных
затрат
В ряде случаев стоимость затрат на репозитарное
хранение значительно превышает стоимость самой
информации
Практически не решена проблема сохранности и
архивации. Уже были прецеденты потери
значительных объемов информации
Человечество не успевает осмыслить накопленные
объемы информации
Некоторые факты






Уже накоплены значительные информационные массивы – так
банк данных о солнечной системе содержит более 1 миллиарда
документов (примерно 250.000 документов о каждой планете). В
США есть архивы превышающие 100PB(аэропорты, медклиники,
морские порты, военные архивы). Архивы France Telecom
превысили 25 PB. Объем цифровой библиотеки LC на сегодня
составляет 7 PB
Зачастую извлечение информации из цифровых библиотек
занимает часы
Ненадежность устройств хранения влечет проблему логической
и физической миграции данных практически не разрешенную на
сегодня.
Новые данные порождаются быстрее, чем осуществляется
перезапись старых данных
Все чаще термин “архивное хранение” подразумевает ВЕЧНОЕ
ХРАНЕНИЕ
Хранение – ОЧЕНЬ дорогое удовольствие
Факты
Дилемма с дисками –
На сегодня максимальный объем диска = 1 TB. 1PB
можно записать примерно на 1200 дисков. Диск
потребляет 15 ВТ в час. Таким образом 1200
дисков потребляют 18 КВт в час по цене 0.32
USD = $5.76. За 10 лет - 87.600 часов =>
504,576.00 USD
Учитываем примерно равные затраты на
охлаждение -- получаем 1,000,000 .00USD
По теореме Мура сумму можно удвоить.
ИТОГО примерно:
2,000,000.00 USD

Факты
Дилемма с сохранностью – срок службы носителей
определяет время сохранности.
Срок службы дисков – 5 лет!
Срок службы лент – 7-10 лет (требуется перемотка до 4 раз
за этот срок)!
Срок жизни информации от 1 дня до пожизненного.
 Прочие носители
Папирусы – более 3000 лет.
Низкокислотная бумага – книги Гутенберга живы.
Фотопленка – 140 лет и остаются в приемлемом состоянии
Живопись – 21000 лет и сохраняется в нормальном
состоянии (Французские пещеры)

Реальность





Необходимость перезаписи архивов каждые 5-7
лет
Время перезаписи в ряде случаев превышает
недели и месяцы
Скорость поступления новых данных выше, чем
скорость перезаписи архивов
Процесс миграции данных бесконечен, что
влечет бесконечные финансовые траты
На сегодня только дисковые массивы
гарантируют 100% корректную миграцию
информационных массивов

Перед созданием крупных проектов по
оцифровке или созданию электронных
библиотек – лучше семь раз подумать…
И немного конкретики из современных
тенденций.-
Тенденции






Использование интеллектуальных обьектноориентированных хранилищь
Переход к глобальному сетевому сервису
хранения(архивирования) данных
Использование больших файлов(сейчас терабайты,
в перспективе петабайты)
Увеличение количества файлов
Хранение информации в сети
Широкое использование GRID – технологий
Таким образом мы стремимся к обеспечению
прозрачного и унифицированного доступа на
логическом уровне к гетерогенным
информационным ресурсам распределенным в
сети
Технологические требования, предъявляемые
к Grid, определены следующим образом:
1.
2.
3.
4.
5.
6.
Гибкие отношения доступа (client-server, peer-to-peer).
Чёткий высокоуровневый контроль над использованием
ресурсов.
Многоуровневый контроль прав доступа, локальные и
глобальные политики доступа.
Поддержка распределения различных ресурсов - программ,
данных, устройств, вычислительных мощностей.
Поддержка различных моделей пользования многопользовательской, однопользовательской, режимов
performance-sensitive и cost-sensitive.
Контроль над качеством предоставляемых услуг, планирование,
резервное предоставление услуг.
ВАМ это ничего не напоминает???
Спасибо за внимание !
http://www.arbicon.ru
E-mail: plm@arbicon.ru
2008 г.
Download