Итоги и перспективы проектной деятельности АРБИКОН Племнек Александр Иванович, Ассоциация региональных библиотечных консорциумов (АРБИКОН) Корпоративные библиотечные системы: технологии и инновации 23-29 июня 2008 г. Россия, Финляндия, Швеция История вопроса Alvin Toffler(*) обращает наше внимание на тот факт, что «…если последние 50 000 лет существования человека разделить на отрезки жизни приблизительно в 62 года каждый, то окажется около 800 таких отрезков жизни. Из этих 800 полных 650 прошли в пещерах. Только за последние 70 таких отрезков жизни стало возможным эффективно передавать информацию от одного поколения к другому благодаря письменности. Только в последние шесть отрезков жизни люди использовали печатное слово. Только за последние четыре стало возможным измерить время с требуемой степенью точности. Только в последние два использовался электрический двигатель. И подавляющее большинство всех материальных благ, которыми мы пользуемся в повседневной жизни в настоящее время, были придуманы в течение настоящего, 800-го отрезка жизни». * Амер социолог и футуролог один из авторов концепции “сверхиндустриальной цивилизации” Справка Кило = 10(3) Мега = 10(6) Гига = 10(9) Тера = 10(12) Пета = 10(15) Экзо = 10(18) Зетта = 10(21) Йотта = 10(24) 1KB = 1024B 1MB = 1024KB 1GB = 1024MB 1TB = 1024GB 1PB = 1024TB 1EB = 1024PB 1ZB = 1024EB 1JB = 1024ZB 2(10) 2(20) 2(30) 2(40) 2(50) 2(60) 2(70) 2(80) Насколько реальна угроза информационного беспредела? Информационный бумажный беспредел перешел в информационный цифровой беспредел Почему возникает проблема объемов информации? 1. 2. 3. Началась эра исследований с высокой скоростью порождения данных Глобальное большинство информации появляется в цифровом виде Данные порождаются в полуавтоматическом либо полностью автоматическом режиме Информация к размышлению В 1996 году пользователей Интернет – 48 Млн. человек В 2006 году пользователей Интернет – 1 100 Млн. человек К 2010 году ожидается 1 600 Млн. человек Сегодня темпы роста производства информации в цифровом виде в развивающихся странах выше на 30-40% Информация к размышлению В 2002 году суммарный объем: Cохраненной информации включая бумажные носители, пленки, ленты и пр. составил 5 EB (пять миллиардов миллиардов байт). Из них 92% сохранены на магнитных носителях (50% диски, 42% ленты(фото, аудио, видео)) Переданной по сетям информации составил 18 EB. Из них 97% телефонные разговоры, 2% - трафик Интернет, <1% CD&DVD * В исследовании не учитывалось тиражирование информации – только однократная публикация В 2006 году объем сохраненной информации составил уже 161 EB В 2010 году ожидается увеличение объема до 988 EB что составляет 6 кратный прирост Предполагаемый профиль сохраняемого информационного массива к 2010 году Из 998 EB в 2010 году: Прирост новой информации составит 25% Неструктурированная информация составит 95% (мультимедия, нетекстовое представление) 70% новой информации будет создано отдельными пользователями 85% данных будет находиться в институциональных хранилищах и будет контролироваться фирмами (что приведет к решительному изменению системы работы с информацией как в процессе производства так и в процессе использования) НЕОБХОДИМОСТЬ СМЕНЫ ПАРАДИГМЫ Библиотеки и читатели в информационном контексте Совокупный объем информации на бумажных носителях всех видов составляет 0.001% от учтенного общего объема информации (причем эта доля учитывалась не в форме текста а в форме изображения страниц с разрешением 600 точек на дюйм). Большинство из этих документов составляют офисные. КНИГИ составляют всего 2.4% от 0.001% (в сканированном виде) БУМАГА – самый дорогой из современных носителей Читающий человек за всю жизнь потребляет максимум 1GB информации в текстовом формате За год в мире порождается 4 TB информации в текстовом виде Феномен открытых информационных массивов Новые научные инструменты Большой Адронный Коллайдер(CERN) генерирует 1.5GB в секунду, что приводит к порождению 1 EB в день! Для сохранения используется дисковый массив площадью 1 кв.км. 2. Новые научные модели Раскрытие генома человека потребовало анализа 1 Млрд. цепочек Глобальные модели климата 3. Новые научные коллективы Для изучения генома мухи дрозофилы создано 195 научных коллективов 4. Новые знания о свойствах больших информационных массивов Большинство открытий из наблюдений телескопа Hubble сделано при анализе открытых массивов 1. Мы уже находимся в состоянии кризиса Скорость порождения информации не позволяет производить даже грубый отбор Современные технологии уже не справляются с необходимостью регистрации информационного потока Хранение информации требует существенных затрат В ряде случаев стоимость затрат на репозитарное хранение значительно превышает стоимость самой информации Практически не решена проблема сохранности и архивации. Уже были прецеденты потери значительных объемов информации Человечество не успевает осмыслить накопленные объемы информации Некоторые факты Уже накоплены значительные информационные массивы – так банк данных о солнечной системе содержит более 1 миллиарда документов (примерно 250.000 документов о каждой планете). В США есть архивы превышающие 100PB(аэропорты, медклиники, морские порты, военные архивы). Архивы France Telecom превысили 25 PB. Объем цифровой библиотеки LC на сегодня составляет 7 PB Зачастую извлечение информации из цифровых библиотек занимает часы Ненадежность устройств хранения влечет проблему логической и физической миграции данных практически не разрешенную на сегодня. Новые данные порождаются быстрее, чем осуществляется перезапись старых данных Все чаще термин “архивное хранение” подразумевает ВЕЧНОЕ ХРАНЕНИЕ Хранение – дорогое удовольствие Факты Дилемма с дисками – На сегодня максимальный объем диска = 1 TB. 1PB можно записать примерно на 1200 дисков. Диск потребляет 15 ВТ в час. Таким образом 1200 дисков потребляют 18 КВт в час по цене 0.32 USD = $5.76. За 10 лет - 87.600 часов => 504,576.00 USD Учитываем примерно равные затраты на охлаждение -- получаем 1,000,000 .00USD По теореме Мура сумму можно удвоить. ИТОГО примерно: 2,000,000.00 USD Факты Дилемма с сохранностью – срок службы носителей определяет время сохранности. Срок службы дисков – 5 лет! Срок службы лент – 7-10 лет (требуется перемотка до 4 раз за этот срок)! Срок жизни информации от 1 дня до пожизненного. Прочие носители Папирусы – более 3000 лет. Низкокислотная бумага – книги Гутенберга живы. Фотопленка – 140 лет и остаются в приемлемом состоянии Живопись – 21000 лет и сохраняется в нормальном состоянии (Французские пещеры) Тенденция изменения стоимости различных систем хранения Реальность Необходимость перезаписи архивов каждые 5-7 лет Время перезаписи в ряде случаев превышает недели и месяцы Скорость поступления новых данных выше, чем скорость перезаписи архивов Процесс миграции данных бесконечен, что влечет бесконечные финансовые траты На сегодня только дисковые массивы гарантируют 100% корректную миграцию информационных массивов Лавина информации: бедствие или шествие свободы? Одна из возможных тем для обсуждения на конференции АРБИКОН Тенденции Использование интеллектуальных обьектноориентированных хранилищь Переход к глобальному сетевому сервису хранения(архивирования) данных Использование больших файлов(сейчас терабайты, в перспективе петабайты) Увеличение количества файлов Хранение информации в сети Широкое использование GRID – технологий Таким образом мы стремимся к обеспечению прозрачного и унифицированного доступа на логическом уровне к гетерогенным информационным ресурсам распределенным в сети Наше “библиотечное” будущее – БИБЛИОГРИД? GRID дает возможность объединить вычислительные ресурсы в единое множество и управлять этим множеством как единой системой, что снижает затраты на администрирование. Поскольку невозможно администрировать программное обеспечение на сотнях и тысячах компьютеров одновременно, реализуется целая инфраструктура самонастройки, самотестирования, самоконфигурации. Т.е. необходимость сложного администрирования отдельных узлов отпадает и это тоже снижает затраты на администрирование. Управление всей GRID системой возможно "с единого пульта« Grid не следует рассматривать как абсолютно новую и не совместимую с существующими технологию, напротив, Grid может успешно использоваться как дополнение к уже существующим протоколам и сервисам для предоставления и получения более качественных услуг в рамках чёткой стандартной модели. Технологические требования, предъявляемые к Grid, определены следующим образом: 1. 2. 3. 4. 5. 6. Гибкие отношения доступа (client-server, peer-to-peer). Чёткий высокоуровневый контроль над использованием ресурсов. Многоуровневый контроль прав доступа, локальные и глобальные политики доступа. Поддержка распределения различных ресурсов - программ, данных, устройств, вычислительных мощностей. Поддержка различных моделей пользования многопользовательской, однопользовательской, режимов performance-sensitive и cost-sensitive. Контроль над качеством предоставляемых услуг, планирование, резервное предоставление услуг. ВАМ это ничего не напоминает??? Глобальные проекты, косорциумы стран Итог 10 лет сотрудничества 1 этап (1996 – 2003) – создание инфраструктуры распределенной корпоративной библиотечной сети России 2 этап (2003 -- 2006) – стабилизация межкорпоративной базовой (универсальной) инфраструктуры 3 этап (2006 -- ) – переход к специализированным сервисам на основе базовой инфраструктуры (Реорганизация АРБИКОН) Направления реорганизации-1 признать созданную базовую инфраструктуру основой для развития корпоративных сервисов АРБИКОН; дать возможность каждому члену АРБИКОН участвовать только в тех направлениях, которые совпадают с целями и задачами данной конкретной организации; ввести проектный принцип в развитие новых сервисов, когда заинтересованные организации объединяются для развития нового корпоративного сервиса; Направления реорганизации -2 отойти от принципа общедоступности всех ресурсов и сервисов– теперь доступными и бесплатными для библиотеки становились сервисы только тех проектов, в которых она участвует, а так же базовый сервис распределенного поиска и заимствования БЗ между партнерами ассоциации; сделать проекты АРБИКОН открытыми для участия организаций, не являющихся членами АРБИКОН; ресурсы и сервисы проектов АРБИКОН сделать доступными для внешних пользователей, при этом члены АРБИКОН имеют льготу на их использование. Основные принципы функционирования проектов АРБИКОН Интеграция через специализацию – каждая организация обеспечивает качественно подготовленный ИР по своей отрасли знаний Специализация через интеграцию – каждая организация использует ресурсы партнеров для формирования полного виртуального фонда по своей отрасли знаний Однократный ввод и многократное использование - минимизация дублирования при создании, вводе и описании ИР Cервисы проектов Проект МАРС (межрегиональной аналитической росписи журнальных статей), создающий информационный ресурс аналитической росписи около 1300 российских журналов (800.000 аналитических записей, пополнение – 1000 записей в день) Проект ЭДД электронного заказа и доставки документов на основе сводного каталога журналов (около 5000 наименований журналов, доставка около 1200 страниц в день) Проект распределенной электронной библиотеки ЭПОС (электронное полнотекстовое собрание) 38000 документов Статистика по участникам проектов МАРС ЭДД 154 участника (60 – члены АРБИКОН, 94 – не члены АРБИКОН) 65 пользователей (46 –члены АРБИКОН, 17 – не члены АРБИКОН, в т.ч. 1 физ. лицо) 16 кандидатов 136 участников (59 – члены АРБИКОН, 77 – не члены АРБИКОН) 8 кандидатов ЭПОС 73 участника (51 – члены АРБИКОН, 22 – не члены АРБИКОН) 9 кандидатов Проект ЭДД Цель - создание современной службы электронного заказа и доставки копий статей за счет распределения обязанностей по обслуживанию заказов между организациями – участниками Проекта. Впервые в стране создается сводный каталог журналов ( с указанием списка библиотекдержателей) на основе оригинальной технологии автоматизированного сбора данных. Программное обеспечение формирования заказа и доставки информации потребителю предоставляется всем участникам Проекта бесплатно. Статистика проекта ЭДД Поступило, шт. Отправлено / Получено, шт. Отказы, шт. Получено, % Количество, ед. Время реакции, ч. I кв. II кв. III кв. IV кв. I кв. 611 978 673 2464 2270 360 / 301 685 / 615 440 / 395 1696 / 1590 1724 / 1660 66 136 85 419 600 49 63 59 65 73 1475 3064 1889 7998 10735 93 110 152 164 577 Инновационные решения Набор компонентов, позволяющих «собрать» систему требуемой функциональности Открытые стандарты – гарант совместимости Использование программных систем с открытым исходным кодом Портальные компоненты для объединения ресурсов и сервисов О стандартах Форматы записей (MARC, DC) Протоколы: HTTP – интерфейс пользователя Z39.50 – распределенный поиск, доп. сервисы SRU, SRW, OAI - поиск, доп. сервисы Механизмы взаимодействия компонентов – XML/RPC, WSDL,… Новые проекты АРБИКОН 2008 года 1. 2. Проект КОРСАР - Сводный издательский план учебной и методической литературы Проект «Сводный каталог периодики библиотек России» Проект КОРСАР - - - Круглый стол на V конференции АРБИКОН, июль 2007 г. – идея Издательство «БХВ-Петербург» (член АРБИКОН) Февраль 2008 г. – проект открыт для библиотек Проект КОРСАР В рамках проекта предполагается: изучение потребности в переиздании литературы среди организаций - членов проекта; обобщение заявок и формирование сводного плана издания учебной и методической литературы; заключение авторских договоров на переиздание учебной и методической литературы; издание по согласованному плану учебной и методической литературы, имеющей общий спрос; поставка изданной литературы участникам проекта по льготным ценам. Приглашение к участию Любая библиотека, после прохождения подготовительного этапа, может стать участником проекта вне зависимости от того, какая именно библиотечная система используется для автоматизации библиотечных процессов. Естественно, более современные библиотечные системы, в состав которых включены функции обмена данными и взаимодействия с библиотекамипартнерами, позволят использовать корпоративные сервисы наиболее эффективно. Все сервисы АРБИКОН реализованы на основе компонентов АБИС «Руслан». Сводный каталог периодики библиотек России обеспечить перевод информационного массива сводного каталога периодики России в формат RUSMARC; разработать программного и организационно-методического обеспечения для создания и использования сводного каталога периодики России, включающего информационный ресурс аналитических записей из 1500 российских журналов; обеспечить доступность сводного каталога периодики России для библиотек Росси в режиме 24*7*365; довести обьем сводного каталога периодики России до 1 000 000 записей; оказать содействие библиотекам РФ, привлекая их в качестве участников и пользователей сводного каталога периодики, для оптимизации процессов обработки литературы и обслуживания пользователей в части периодических изданий. Ближайшие перспективы развития Проектов АРБИКОН Взаимодействие с крупнейшими коммерческими провайдерами контента на взаимовыгодной основе Привлечение в проекты зарубежных партнеров, локализация технологии на иностранных языках Установление партнерских отношений с корпоративными сетями ближнего и дальнего зарубежья Совместный проект с OCLC Спасибо за внимание ! http://www.arbicon.ru E-mail: [email protected] г. С-Петербург, 2008 г.