Документирование научного контента: современные концепции и решения Санкт-Петербург, 2015 Современный подход к документированию научного контента XI век XXI век • Научные публикации базируются на данных, полученных с использованием мультимедийных средств… • …но на конечной стадии оказываются ограниченными бумажным форматом. Почему публикации по-прежнему ограничены бумажным форматом? • Существует устойчивое представление о том, как именно должны выглядеть подготовленные к публикации результаты исследований. • Сложился общий консерватизм практики подготовки и издания научных журналов. • Авторы предпочитают более консервативные и менее «продвинутые» технически журналы, имеющие более высокие рейтинги в престижных библиографических базах данных. Опыт издания научных журналов в Геофизическом центре РАН В рамках сотрудничества с AGU: • редакционная подготовка и издание переводов на английский язык 5 геофизических журналов РАН; • издание журнала AGU International Journal of Geomagnetism and Aeronomy (IJGA) (в электронном и печатном форматах). В рамках сотрудничества с ICSU Press: • публикация трудов Первой и Второй конференций экспертов UNESCO/ICSU по электронным публикациям в науке. Собственные издания ГЦ РАН: • электронный научный журнал Russian Journal of Earth Sciences (RJES – Российский журнал наук о Земле, http://rjes.wdcb.ru); • электронный мультимедийный журнал Вестник ОНЗ РАН (http://onznews.wdcb.ru); • сериальное издание Geoinformatics Research Papers (http://ebooks.wdcb.ru). Основы используемых и разрабатываемых в ГЦ РАН технологий документирования (публикации) научного контента: • профессиональная издательская система TeX/LaTeX с расширениями, обеспечивающими включение в публикации мультимедийного и интерактивного контента; • стандарты PDF и EPUB3, принятые Международной организацией стандартов; • стандарт HTML5, принятый и рекомендованный консорциумом W3C; • программная система MathJax, разработанная по инициативе Американского математического общества и технически поддерживаемая консорциумом MathJax. Опыт разработки технологий документирования научного контента • Основные форматы представления статей: HTML и PDF (с середины 90-х) + форматы EPUB3 и PDF в версии для портативных устройств (с середины 2012 г., в журнале Russian Journal of Earth Sciences). • Первая статья с динамическим контентом опубликована уже в первом выпуске RJES в 1998 г., а первая статья с динамическим контентом в известном журнале Nature была опубликована в 2009 г. • Наши разработки являются объектами public domain и могут быть использованы без необходимости привлечения коммерческого программного обеспечения, что важно для малых издателей. Потенциал используемых форматов отображения научного контента Плюс: изначально предназначен для отображения гипертекста Минус: сложно обеспечить внешнее представление документа на уровне профессионального издания ! Почти не используемой остается возможность включения интерактивного и динамического контента (см., например, элемент canvas) ! Почти не используемой остается возможность включения интерактивного и динамического контента в документы формата PDF (начиная с 9 версии Acrobat Pro) Что можно включить непосредственно в текст статьи в формате PDF? • • • • АНИМАЦИЯ БОЛЬШИЕ РИСУНКИ КАРТЫ ВИДЕО Включение больших карт в текст статьи В данном примере оригинальное изображение преобразуется во флэш-объект (SWF-формат) и включается в окончательную версию статьи в PDF-формате. Включение группы рисунков в текст статьи Объединенные в тематическую группу рисунки отображаются без потери качества. Включение анимации в текст статьи Анимация, построенная с использованием Acrobat JavaScript и технологии OCG. Поиск нового подхода к документированию научного контента: проект Elsevier “Article of the Future” (www.articleofthefuture.com) Данные-информация-публикации Публикация данных – важнейшее направление документирования научного контента. • Согласно Х. Редереру, мы не можем разделить и дать однозначные формальные определения научным данным, информации, интерпретации и т. п. • Информация – мера уменьшения неопределенности. • Данные становятся информацией только после применения к ним алгоритмов обработки, иначе они – набор символов и цифр. • Обработка данных, создает информацию лишь в той мере, в какой устраняется неопределенность, заложенная в алгоритме. • Информация, полученная из данных, становится данными для следующего этапа исследования, т. е. знание производится в результате движения по возрастающей спирали. • Опубликованная научная статья – промежуточный финиш в движении по спирали. • Публикация – это всего лишь придание публичного статуса, либо данным, либо информации, либо интерпретации, а также форма закрепления приоритета. • Данные/публикация должны быть представлены в форме, легко доступной на следующем этапе исследования, и содержать ссылки на доступные источники, использованные в качестве исходных данных Публикация данных • Научные открытия все чаще опираются на «большие данные» (big data). • Отношение к распространению, цитированию и документированию данных изменилось (см. рекомендации Системы мировых данных (МСД), группы FORCE11 и др.). • Данные – полноценный результат научного исследования, наравне с журналами, статьями и книгами. • Запуск проекта ESDB – (База данных по наукам о Земле), http://esdb.wdcb.ru • Основные цели проекта: повышение значимости и доступности геофизических данных для научных исследований, облегчение процесса их поиска, идентификации и публикации, а также развитие культуры цитирования данных. Схема работы проекта ESDB 3. Идентификатор DOI используется в публикациях для цитирования набора данных 4. Ученые обращаются к набору данных по DOI и проводят новые исследования, публикуя новые статьи 1 2 1. Ученые и исследователи создают геофизические данные 2. ESDB регистрирует и публикует геофизические данные с присвоением идентификатора DOI 6 7. Показатели цитируемости способствуют получению нового финансирования 6. Фонды и проверяющие организации оценивают наукометрические показатели 5. Поставщики данных регулярно получают информацию о цитируемости данных (наукометрические показатели) Дальнейший путь развития технологий документирования научного контента Переход к естественной интеграции результатов исследований в поисковые системы Разработка семантики межмашинного взаимодействия Использование инструментов семантического структурирования научного контента Семантическое структурирование текста научной публикации Использование языка XML (eXtensible Markup Language) Преимущества: • учитывает специфику различных предметных областей; • повышает эффективность структурирования при автоматизированной обработке документов для последующей индексации. Недостатки: • Для полноценного семантического структурирования требуется полное онтологическое описание предметной области. Семантическое структурирование текста научной публикации Возможность конвертации LaTeX-текстов в XML • В общем случае корректный перевод произвольных LaTeX-текстов в XML невозможен (TeX/LaTeX несовместим с SGML). • Для более узких задач использование LaTeX позволяет построить достаточно простые и эффективные решения. • Успешно реализовано построение XML-метаописаний публикуемых материалов (для включения их в CrossRef, eLIBRARY и т.п.). Семантическое структурирование текста научной публикации Программный пакет ElXpaper (ELectronic eXtended paper style) ElXpaper – расширение стандартного LaTeX 2ε-класса article.cls. Поддерживает: • двухколоночный журнальный формат; • внутренние и внешние активные гиперссылки; • генерацию предупреждений и сообщения об ошибках в исходном файле; • генерацию результата трансляции в формате DVI или PDF; • генерацию XML-метаописаний для регистрации публикуемых материалов в системе CrossRef и загрузки в Научную электронную библиотеку eLIBRARY.RU. Перспективы развития и дополнения: • семантическое структурирование тех элементов статьи, которые обычно остаются за пределами «видения» поисковых машин; • разработка вариантов реализации сложного поиска в математических текстах, т.е., по сути, «поиска по формулам». Документирование научного контента: современные концепции и решения Спасибо за внимание! Астапенкова Александра Артуровна, н.с. лаборатории технологий хранения и распространения геофизических данных ГЦ РАН [email protected] Санкт-Петербург, 2015