Электронные библиотеки – лучше семь раз отмерить, чем потом всю жизнь мучится Племнек Александр Иванович, Ассоциация региональных библиотечных консорциумов (АРБИКОН) Технологические новости середины ноября 2008 года Sony анонсировала 12,25-мегапиксельную камеру для мобильника Робот научился копировать человеческую мимику AMD выпустила 45-нанометровые чипы Американцы создали самый мощный суперкомпьютер в мире Имя -Производительность -(Квадралионов операций в секунду) Количество процессоров – Обьем оперативной памяти – Оббьем дисковой памяти – JAGUAR 1.64 ПЕТАФЛОПА 45.000 362 Терабайта 10 Петабайт История вопроса Alvin Toffler(*) обращает наше внимание на тот факт, что «…если последние 50 000 лет существования человека разделить на отрезки жизни приблизительно в 62 года каждый, то окажется около 800 таких отрезков жизни. Из этих 800 полных 650 прошли в пещерах. Только за последние 70 таких отрезков жизни стало возможным эффективно передавать информацию от одного поколения к другому благодаря письменности. Только в последние шесть отрезков жизни люди использовали печатное слово. Только за последние четыре стало возможным измерить время с требуемой степенью точности. Только в последние два использовался электрический двигатель. И подавляющее большинство всех материальных благ, которыми мы пользуемся в повседневной жизни в настоящее время, были придуманы в течение настоящего, 800-го отрезка жизни». * Амер социолог и футуролог один из авторов концепции “сверхиндустриальной цивилизации” Прямое следствие технического прогресса – большие объемы порождаемой информации Бытовой случай заставил задуматься о проблеме больших объемах информации Почему возникает проблема объемов информации? 1. Началась эра исследований с высокой скоростью порождения данных (Большой Адронный Коллайдер(CERN) генерирует 1.5GB в секунду, что приводит к порождению 1 EB в день! Для сохранения используется дисковый массив площадью 1 кв.км.) 2. 3. Глобальное большинство информации появляется в цифровом виде Данные порождаются в полуавтоматическом либо полностью автоматическом режиме Информация к размышлению В 2002 году суммарный объем: Cохраненной информации включая бумажные носители, пленки, ленты и пр. составил 5 EB (пять миллиардов миллиардов байт). Из них 92% сохранены на магнитных носителях (50% диски, 42% ленты(фото, аудио, видео)) Переданной по сетям информации составил 18 EB. Из них 97% телефонные разговоры, 2% - трафик Интернет, <1% CD&DVD * В исследовании не учитывалось тиражирование информации – только однократная публикация В 2006 году объем сохраненной информации составил уже 161 EB В 2010 году ожидается увеличение объема до 988 EB что составляет 6 кратный прирост Предполагаемый профиль сохраняемого информационного массива к 2010 году Из 998 EB в 2010 году: Прирост новой информации составит 25% Неструктурированная информация составит 95% (мультимедия, нетекстовое представление) 70% новой информации будет создано отдельными пользователями 85% данных будет находиться в институциональных хранилищах и будет контролироваться фирмами (что приведет к решительному изменению системы работы с информацией как в процессе производства так и в процессе использования) Библиотеки и читатели в информационном контексте Совокупный объем информации на бумажных носителях всех видов составляет 0.001% от учтенного общего объема информации (причем эта доля учитывалась не в форме текста а в форме изображения страниц с разрешением 600 точек на дюйм). Большинство из этих документов составляют офисные. КНИГИ составляют всего 2.4% от 0.001% (в сканированном виде) БУМАГА – самый дорогой из современных носителей За год в мире порождается 4 TB информации в текстовом виде Читающий человек за всю жизнь потребляет максимум 1GB информации в текстовом формате Мы уже находимся в состоянии кризиса Скорость порождения информации не позволяет производить даже грубый отбор Современные технологии уже не справляются с необходимостью регистрации информационного потока Хранение информации требует существенных затрат В ряде случаев стоимость затрат на репозитарное хранение значительно превышает стоимость самой информации Практически не решена проблема сохранности и архивации. Уже были прецеденты потери значительных объемов информации Человечество не успевает осмыслить накопленные объемы информации Некоторые факты Уже накоплены значительные информационные массивы – так банк данных о солнечной системе содержит более 1 миллиарда документов (примерно 250.000 документов о каждой планете). В США есть архивы превышающие 100PB(аэропорты, медклиники, морские порты, военные архивы). Архивы France Telecom превысили 25 PB. Объем цифровой библиотеки LC на сегодня составляет 7 PB Зачастую извлечение информации из цифровых библиотек занимает часы Ненадежность устройств хранения влечет проблему логической и физической миграции данных практически не разрешенную на сегодня. Новые данные порождаются быстрее, чем осуществляется перезапись старых данных Все чаще термин “архивное хранение” подразумевает ВЕЧНОЕ ХРАНЕНИЕ Хранение – ОЧЕНЬ дорогое удовольствие Факты Дилемма с дисками – На сегодня максимальный объем диска = 1 TB. 1PB можно записать примерно на 1200 дисков. Диск потребляет 15 ВТ в час. Таким образом 1200 дисков потребляют 18 КВт в час по цене 0.32 USD = $5.76. За 10 лет - 87.600 часов => 504,576.00 USD Учитываем примерно равные затраты на охлаждение -- получаем 1,000,000 .00USD По теореме Мура сумму можно удвоить. ИТОГО примерно: 2,000,000.00 USD Факты Дилемма с сохранностью – срок службы носителей определяет время сохранности. Срок службы дисков – 5 лет! Срок службы лент – 7-10 лет (требуется перемотка до 4 раз за этот срок)! Срок жизни информации от 1 дня до пожизненного. Прочие носители Папирусы – более 3000 лет. Низкокислотная бумага – книги Гутенберга живы. Фотопленка – 140 лет и остаются в приемлемом состоянии Живопись – 21000 лет и сохраняется в нормальном состоянии (Французские пещеры) Реальность Необходимость перезаписи архивов каждые 5-7 лет Время перезаписи в ряде случаев превышает недели и месяцы Скорость поступления новых данных выше, чем скорость перезаписи архивов Процесс миграции данных бесконечен, что влечет бесконечные финансовые траты На сегодня только дисковые массивы гарантируют 100% корректную миграцию информационных массивов Перед созданием крупных проектов по оцифровке или созданию электронных библиотек – лучше семь раз подумать… И немного конкретики из современных тенденций.- Тенденции Использование интеллектуальных обьектноориентированных хранилищь Переход к глобальному сетевому сервису хранения(архивирования) данных Использование больших файлов(сейчас терабайты, в перспективе петабайты) Увеличение количества файлов Хранение информации в сети Широкое использование GRID – технологий Таким образом мы стремимся к обеспечению прозрачного и унифицированного доступа на логическом уровне к гетерогенным информационным ресурсам распределенным в сети Технологические требования, предъявляемые к Grid, определены следующим образом: 1. 2. 3. 4. 5. 6. Гибкие отношения доступа (client-server, peer-to-peer). Чёткий высокоуровневый контроль над использованием ресурсов. Многоуровневый контроль прав доступа, локальные и глобальные политики доступа. Поддержка распределения различных ресурсов - программ, данных, устройств, вычислительных мощностей. Поддержка различных моделей пользования многопользовательской, однопользовательской, режимов performance-sensitive и cost-sensitive. Контроль над качеством предоставляемых услуг, планирование, резервное предоставление услуг. ВАМ это ничего не напоминает??? Спасибо за внимание ! http://www.arbicon.ru E-mail: [email protected] 2008 г.