Разработка методик отбора российских сетевых ресурсов для

advertisement
Разработка методик отбора
российских сетевых ресурсов
для включения в цифровые
фонды — как постановка
проблемы для современной
электронной библиотеки.
Зайцев А.В.
Издания переходят полностью в
цифровую форму
2
Этапы развития сетевых сервисов и услуг
• В мире насчитывается более 70 учреждений,
Международный консорциум по
которые собирают и сохраняют данные из сети сохранению интернет-данных
Интернет.
• 53 полноценных веб-архива
– Объем хранимых данных от 30
тысяч до 80 миллиардов
единиц хранения
– Дисковое пространство от
– 300 Гб to 1000 Тб;
– Форматы хранимых данных:
ARC, WARC, HTTrack
Доклад представителя Национальной
библиотеки Франции Клемент Оури на
конгрессе IFLA 2015
4
Интерфейс архива Библиотеки
Конгресса США
Классификация сетевых электронных
документов
Электронные книги, периодика, журналы
• Документы, которые публикуются по аналогии с традиционными изданиями и
имеют все их аттрибуты, например, ISBN. Чаще всего такие документы не
подвергаются изменениям с течением времени и имеют постоянный URL, или
другой идентификатор (например DOI).
Многостраничные гипертекстовые документы (веб-сайты)
• Документы подготовлены посредством гипертекстовой разметки, могут включать
в себя другие объекты – графику, мультимедиа, интерактивные составляющие.
Контент, генерируемый пользователями
• записи блогов, социальных сетей, электронной почты и других сервисов,
агрегирующих данные поступающие от пользователей и предоставляющие
средства для работы с ними.
6
Электронные книги (E-Books)
- Публикации в цифровой форме, включающие текст и
графику. Доступны для просмотра со стационарных ПК
и специализированных устройств.
Форматы
EPUB DRM, EPUB, PDF DRM, PDF, FB2, FB2.ZIP,
TXT, DJVU, HTM, HTML, RTF, CHM, TCR, PRC
Специализированные устройства –
E-Readers
EPUB является наиболее распространенным
независимым форматом, основанном на XML
разметке (в отличии от PDF). Поддерживается
большинством специализированных устройств.
Хранение
Организации Internet Archive и Open Library предлагают более 6,000,000 электронных
книг в открытом доступе
7
Сетевые электронные документы
Стили
(CSS)
Изображения
Надстройки
(Flash / Silverlight)
Веб-страница
Скрипты и
программы
(JavaScript, …)
Фреймы
(HTML, …)
Мультимедиа
(HTML5)
8
Проект
Библиотеки конгресса СЩА и Twitter
Цифровая коллекция
нового типа
• Публикации между 2006 и 2010
• 170 миллиардов сообщений-твитов
• Более 50 полей описания каждого
сообщения
• Полный объем данных 133,2 Тб
9
Сетевые документы, как объекты
хранения в фондах библиотек (на
примере приема обязательного
экземпляра)
• Тиражные электронные издания
• Электронные документы, которые не имеют
тиражных материальных носителей
• Сбор цифрового наследия
10
Основные вопросы
- Что отбирать?
- Как часто делать обновления? Удалять ли
старые версии?
- На каком правовом основании производить
загрузку материалов?
- Где найти мощности, чтобы хранить и
обслуживать огромные массивы данных?
- Как предоставлять эту информацию
пользователям? Кому она нужна?
11
Программное обеспечение
12
NetArchiveSuite
13
Wayback Machine
14
Спасибо за внимание!
ФГБУ «Президентская библиотека имени Б.Н. Ельцина»
Отдел поддержки интернет-портала
zaitsev@prlib.ru
Санкт-Петербург
2015
15
Download