А.С. Хританков - Antiplagiat Research Home

advertisement
Структуры заимствований в
диссертациях по историческим
наукам
© П.В. Ботов © Д.В. Вьючнов © Н.С. Суровенко
© А.С. Хританков © С.В. Царьков © Ю.В. Чехович
ЗАО «Анти-Плагиат»
Москва
khritankov@antiplagiat.ru
Анализ диссертаций по
историческим наукам
• Исследованы взаимные заимствований текстовых
фрагментов в диссертациях кандидатов и докторов наук
по историческим специальностям рубрикатора ВАК
(07.хх.хх).
• С помощью алгоритмических, статистических методов и
методов анализа графов и сетей были обнаружены группы
сильно связанных по заимствованиям между собой
диссертаций.
• Обнаружены «скомпилированные» работы и указаны
предполагаемые источники таких компиляций.
RCDL 2014
2
Исследовательские вопросы
• Возможен ли «глубокий анализа» заимствований в
объемных текстовых коллекциях на наличие
некорректных заимствований?
• Какова доля работ с существенными
заимствованиями текста из других диссертаций?
• Является ли подготовка таких работ частью процессов
систематической компиляции, либо это единичные не
связанные случаи?
RCDL 2014
3
Исходные данные
• Более 14 тыс. кандидатских и докторских с кодами
исторических наук 07.хх.хх из коллекции диссертаций ЭБД
РГБ
• 165 документов без
текстов или с ошибками
в тексте
• Поиск общих блоков
текста между
документами
в коллекции
системой Антиплагиат
RCDL 2014
4
Первичная обработка данных
• Система «Антиплагиат» анализирует тексты документов,
строит по ним инвертированный индекс групп
последовательно идущих слов (n-грамм) и сравнивает
документы попарно после нахождения потенциально
совпадающих блоков в индексе.
• Найденные блоки объединяются в более крупные
фрагменты, из которых устраняется «шум» и фрагменты
корректного цитирования
• В результате получаем для каждой пары документов
набор заимствованных фрагментов. Направление
заимствования устанавливается по году защиты.
RCDL 2014
5
Фильтрация корректных цитат
Некорректно
• Выделение кандидатов – правила
русского языка и ГОСТ Р 7.0.5 – 2008 оформленная цитата
• Задача классификации,
в целом, удалось на
время обуздать
23 признака
«самостоятельное
– Символы в начале и конце,
революционное творчество
рядом с цитатой
масс» в этой сфере и
сохранить преемственность
– Размеры слов, длина цитаты,
спецсимволы
Корректно оформленная цитата
Дума гор. Вятки «...единогласно высказалась за признание
нового правительства и выразила одушевлявшую всех гласных радость по
поводу поражения старого ненавистного режима дружным ура...» 192 .
RCDL 2014
6
Результаты выделения цитат
• Алгоритм для отбора цитат - дерево решений J48 (C4.5)
• Тексты диссертаций по историческим наукам размечены
– Обучение: 16320 блоков, из которых 2848 цитат
– Контроль: 8159 блоков, из которых 1429 цитат
• На обучающей выборке
– точность
96,8%
– полнота
73,5%
• На тестовой выборке
– точность
95,8%
– полнота
43,8%
RCDL 2014
7
Объединение найденных блоков во
фрагменты
• До и после объединения
блоков, разделенных
менее чем
30 символами
RCDL 2014
8
Распределение фрагментов по
размеру и позиции в документах
RCDL 2014
9
К определению порогового размера
фрагмента для устранения «шума»
RCDL 2014
10
Анализ групп диссертаций
• Построен граф заимствований между диссертациям, в
котором в качестве вершин были диссертации, а ребра
определялись заимствованиями из этих работ.
• Вес ребра рассчитывался как количество совпадающего
текста в символах.
• Анализ групп и сообществ в графе заимствований
позволяет установить «контекст» заимствований между
диссертациями, выделить скрытые внутренние структуры.
• Применяются известные алгоритмы поиска сообществ в
графах.
RCDL 2014
11
Пример сообщества из графа
заимствований
• Узлы графа – документы
• Ребра – суммарные
заимствования
RCDL 2014
12
К определению порогового объема
заимствований
• Выделение структуры в зашумленном графе
заимствований (шум – мелкие случайные заимствования)
• Отсечение по объему попарных заимствований
RCDL 2014
13
Найденные сообщества диссертаций
RCDL 2014
14
Помощь экспертам
• Ежегодно защищается более 25 тыс. новых диссертаций
• Даже для автоматизированной экспертной проверки всех
диссертаций нужно более 100 постоянных экспертов
• Полученные результаты могут использоваться для отбора
«подозрительных» диссертаций
– Продемонстрирована применимость методов,
разработан комплекс программ
– Из 14 тыс. не менее 500 диссертаций имеют
существенный объем более 33% общих текстовых
фрагментов
– Обнаружены следы систематической деятельности по
компиляции диссертации
RCDL 2014
15
Структуры заимствований в
диссертациях по историческим
наукам
Спасибо за внимание!
Контакты
Антон Хританков
khritankov@antiplagiat.ru
RCDL 2014
16
Download