Получение данных

advertisement
Новое поколение метрик цитирования.
Построение IF-scoring rules
Московкин В.М¹., Голиков Н.А².
¹Белгородский государственный национальный исследовательский
университет, Белгород, Россия,
²Независимый исследователь, Харьков, Украина
The new generation of citation metrics. Construction of IF-scoring rules
Moskovkin V. M¹., Golikov N. A².
¹ NRU “Belgorod State University”, Belgorod, Russia,
² Independent researcher, Kharkov, Ukraine
Международная конференция
Проблемы наукометрии: состояние и перспективы развития
10-12 октября 2013 г. Москва, ИПРАН РАН
Бум по созданию Хирше-подобных
метрик цитирования
Как показано в работе L.Waltman & N.E.van Eck
(2012) в 2010 и 2011 гг. почти каждая
четвертая работа, опубликованная в
журналах “Scientometrics” и “Journal of
Informetrics”, цитировала классическую
статью J.E.Hirsch (2005).
После публикации последней работы возник
бум по созданию Хирше-подобных метрик
цитирования: m,g,e,w,hg,q и др.
Ущербность h-index и ему
подобных метрик цитирования
Ущербность h-index на фундаментальном уровне
показана в работе L.Waltman & N.J.van Eck (2012).
Он не удовлетворяет следующим постулатам:
Если два ученых достигают одного и того же
относительного (то же для абсолютного) улучшения
их научной результативности, то их ранжирование
друг относительно друга должно оставаться
неизменным;
Если ученый X1 имеет ранг выше, чем у ученого Y1, а
ученый X2 имеет ранг выше, чем у ученого Y2,
тогда исследовательская группа, состоящая из
ученых X1 и X2 должна иметь совокупный ранг
выше, чем у исследовательской группы, состоящей
из ученых Y1 иY2.
То же самое имеет место для всех Хирше-подобных
метрик цитирования (Marchant, 2009)
Построение улучшенных метрик
цитирования
Задача построения улучшенной метрики
цитирования на основе scoring rules
(summation-based rankings) предполагает
несколько этапов:
1. Построение (вывод) самой расчётной
формулы (формул) предположительно
соответсвующей неким интересующим нас
критериям.
Построение улучшенных
метрик цитирования
Примеры таковых критериев: учёт импактфактора источника публикации, способность
“справиться” с предельными случаями (у
автора одна статья очень высокоцитируемая,
остальные почти не цитируються, все статьи
данного исследователя написаны в
соавторстве, статей очень много но все
малоцитируемы, и т.д.).
Построение улучшенных
метрик цитирования
2. Получение данных для апробирования
метрик. В текущей ситуации
коммерциализации доступа к любым данным,
эта задача является достаточно нетривиальной
.
Построение улучшенных
метрик цитирования
.
3. Апробирование метрики на полученных
массивах данных, проверка её на
соответствие критериям упомянутым в пункте
1.
Формула расчёта метрики
В дальнейшем будут использоваться
следующие обозначения:
Вектор перечня (списка) статей: P  ( P1 ,..., Pi ,..., Pn )
Вектор перечня (списка) журналов
приуроченных к вектору P : J  ( J1 ,..., Ji ,..., J n )
Вектор статей ссылающихся на статью P i:
Pi  ( Pi1 ,..., Pij ,..., Pici )
Формула расчёта метрики
Вектор перечня (списка) журналов
приуроченных к вектору P i : J i  ( J i1 ,..., J ij ,..., J ic )
i
Вектор импакт-факторов исходного перечня
журналов: IF  ( IF1 ,..., IFi ,..., IFn )
Вектора импакт-факторов журналов
приуроченных к вектору J i : IFi  ( IFi1 ,..., IFij ,..., IFic )
i
 
Q P  IF1 ( IF11  ...  IF1 j  ...IF1c1 )  ...
 IFi ( IFi1  ...  IFij  ...IFici )  ...
 IFn ( IFn1  ...  IFnj  ...IFncn )
Формула расчёта метрики
 
n
ci
i 1
j 1
Q P    IFi IFij
Если IFi  IFij  1, то Q  P    ci , если IFij  1
n
i 1
то Q  P    IFi ci
n
i 1
Формула расчёта метрики
Quoted
publication 1
journal
Quoted
publication 1
Impact
factor
Impact
factor
Impact
factor
Quoted
publication 2
journal
Quoted
publication 2
Quoted
publication 3
journal
Quoted
publication 3
Impact
factor
Cited publication
Cited
publication
journal
Формула расчёта метрики
Ji1
Pi1
IFi1
IFi
IFi2
Ji2
Pi2
Ji3
Pi3
IFi3
Pi
Ji
Получение данных
Для апробирования предлагаемой метрики
цитирования необходим достаточно большой
объём данных по каждому научному
сотруднику для которого производится
расчёт.
Получение данных
А именно: список публикаций, источник
(журнал) в котором была осуществлена
публикация, каким-либо образом
рассчитанный импакт-фактор журнала,
список публикаций цитирующих данную, и
импакт-факторы журналов в которых были
опубликованы статьи цитирующие данную.
Получение данных
Такого рода данные, могут быть получены
либо из коммерческих источников (Scopus,
Web of Science) либо из открытых источников
(Google Scholar). Авторами данного
исследования был выбран 2-ой вариант.
Получение данных
Оба подхода предполагают создание
программного обеспечения, позволяющего
автоматизировать сбор и обработку
соответствующей информации. В ходе
проведения данного исследования были
написаны программы, позволяющие
автоматизировать получение информации от
Google Scholar и её обработку.
Получение данных
Программа Scrapper, получающая
информацию от Google Scholar, действует
следующим образом:
1. Считывает информацию из профиля
исследователя на Google Scholar.
Считывается следующая информация:
название статьи, год публикации, журнал в
котором была опубликована статья и др.
Сохраняет полученную информацию в базу
данных.
Получение данных
2. Следует по ссылкам на каждую отдельную
публикацию (опция by cited) . По каждой
такой ссылке мы получаем результаты
поиска Google Scholar - публикации
цитирующие данную.
Получение данных
3. Далее scrapper обрабатывает все страницы
поисковой выдачи Google Scholar,
содержащие описание публикаций
цитирующих данную, сохраняет полученную
информацию в базу данных. Следует учесть,
что Scholar очень часто даёт в выдаче только
фрагменты названия журнала.
Получение данных
4. С сайта Scimago берётся находящийся в
открытом доступе список «скопусовских»
научных журналов с их импакт-факторами.
Получение данных
Так как Google Scholar защищается от попыток
автоматизировать работу с ним и не
предоставляет API для такой автоматизации,
потребовалось предпринять довольно
нетривиальные меры по преодолению
данной защиты
Получение данных
Одна из основных мер по преодолению
защиты — уменьшение частоты запросов к
Google Scholar, что соответственно весьма
сильно сказывается на скорости сбора
данных, разумеется в отрицательную
сторону. По этой же причине пока
достаточное количество данных не получено.
Предварительная обработка
полученных данных
1. Идентифицируются названия журналов,
путём сопоставления полученного от Scholar
названия журнала либо фрагментов
названия с названиями журналов из списка
Scimago. При этом названия приводятся к
единому, «нормализованному», виду: одному
и тому же регистру символов, составляется
вариант названия без вспомогательных слов
(артиклей и т.д).
Предварительная обработка
полученных данных
2. Далее идут сравнения в следующем
порядке: сравниваются необработанные
названия, сравниваются названия
приведённые к единому регистру,
сравниваются названия без вспомогательных
слов.
Предварительная обработка
полученных данных
2. Если однозначного сопоставления не
произошло и получено более одного
совпадения, то требуются дополнительные
действия для идентификации журнала (иного
источника). В этом случае, если в поисковой
выдаче Scholar есть гиперссылка на источник
опубликовавший данную статью, то
исследуется то, что находится по ссылке в
качестве источника.
Предварительная обработка
полученных данных
А именно, если по гиперссылке отдаётся html,
т. е. фактически plain text, то производится
сопоставление каждого из совпавших
названий из списка Scimago с текстом по
гиперссылке. Если есть однозначное
совпадение, то журнал идентифицирован.
Предварительная обработка
полученных данных
3. Если на шаге 1 или на шаге 2 алгоритма
(описаны на 2-х предыдущих слайдах),
совпадений не обнаружено, то данная
публикация помечается как опубликованная в
неизвестном источнике и в дальнейших
расчётах не участвует, либо ей
присваивается некий минимальный импактфактор.
Предварительная обработка
полученных данных
Примечание: в общем виде задача
идентификации источника публикации
весьма сложна и в настоящее время не
решена.
Предварительная обработка
полученных данных
Выше было упомянуто, что пока достаточного
количества данных для апробирования
предлагаемых метрик не получено так что
здесь можно изложить только
предварительные результаты:
Предварительные результаты
Расчёты выполненные для сотрудника БГУ
Рустама Кайбышева на основе данных из его
профиля Google Scholar
(http://scholar.google.com/citations?hl=en&user
=jls0BsYAAAAJ&view_op=list_works&pagesize
=100) – взяты 69 наиболее цитируемых
публикаций для которых были
идентифицированы названия журналов, дали
значение метрики цитирования 5239
Предварительные результаты
Расчёты выполненные для сотрудника БГУ
Андрея Белякова на основе данных из его
профиля Google Scholar
(http://scholar.google.com/citations?hl=en&user
=eA98zsAAAAJ&view_op=list_works&pagesize=100)
– взяты 40 наиболее цитируемых публикаций
для которых были идентифицированы
названия журналов, дали значение метрики
цитирования 2257
Альтернативные подходы к
оценке результативности
Альтернативные методики предполагают
широкое использование machine learning.
Возможно использование методов
unsupervised learning для кластеризации
научных работ и исследователей по
неизвестным нам признакам которые и будут
выявлены в ходе исследования.
Альтернативные подходы к
оценке результативности
Так же возможно имея проставленные
внешними экспертами оценки
результативности исследователей и тексты
их статей можно применить методики
supervised learning для построения системы,
способной определять (predication) с той или
иной достоверностью возможную
импактность ещё неопубликованной статьи.
Download