412_Скрнн_Мсв_Лмкна

advertisement
Международная научно-техническая конференция «Информационные системы и технологии»
ИСТ-2014
СЕКЦИЯ 5.2 ТЕХНИЧЕСКАЯ КИБЕРНЕТИКА (ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ)
Д.А. МАЯСОВ (студент), С.С. СКОРЫНИН (студент), Л.С. ЛОМАКИНА (д.т.н., профессор)
(Нижегородский государственный технический университет им. Р. Е. Алексеева)
СТРУКТУРНЫЙ АНАЛИЗ ТЕКСТОВ С ЦЕЛЬЮ ИХ АТРИБУЦИИ





В настоящее время наблюдается повышенный интерес к вопросу определения автора
текстовой информации на основе характеристик текста, общих для всех авторов. В последнее
время задачи атрибуции текста все больше связана с задачами информационной безопасности.
Широко распространены и статистические методы анализа, применяемые к таким объектам, как
литературные тексты, написанные писателями-профессионалами. Идентификация авторства
является важным направлением в теоретическом плане, так как способно вывести задачу
атрибуции на качественно новый уровень и формализовать процесс ее решения.
Рассматривая задачу определения авторства, следует понимать текст как систему,
поскольку текст, с одной стороны, является целостным объектом, имеющим свои параметры и
характеристики и с другой - можно выделить наименьшие элементы текста, взаимодействие
которых по некоторым правилам и создает текст как систему. Кроме того, текст обладает четкой
иерархической структурой, где каждый элемент низшего уровня находится под влиянием высшего
уровня иерархии. Важно отметить, что не всякий текст можно рассматривать как систему. Говоря
о системе, будем понимать авторские тексты на естественных языках, являющиеся целостным
объектом и имеющие в наличии составные элементы и структуру, что значительно отличает их от
сгенерированного случайным образом текстовой информации.
Также необходимо акцентировать внимание на то, что автор при написании своего
произведения придерживается определенного стиля письма, что как раз и позволяет задействовать
статистические методы для идентификации созданных им текстов. Выявить авторский инвариант и есть задача установления авторства неизвестного текста. Необходимо выделить особенность
авторского стиля и сравнить эти особенности с другими произведениями, авторство которых
известно. При этом необходимо учитывать, что на любой текст накладывается отпечаток и жанр, в
котором этот текст написан, и тематика текста и многие другие факторы. То есть необходимо
определять атрибуты, присущие всем текстам данного автора, данного жанра, данной тематики.
Необходимо учитывать, что существуют особенности в определении авторства текстов:
богатство языка (каждый язык уникален, поэтому судить о точности тех или иных методов по
результатам исследования для английского и др. языков не корректно в силу особенностей строя
каждого языка. В частности русский язык флективен, а, следовательно, и имеет более сложное
словообразование, что является его главной особенностью);
большое количество разных жанров, стилей литературных произведений;
использование особенных литературных приемов (таких как ложная идентификация авторства,
использование псевдонимов);
употребление аббревиатур;
использование специального/компьютерного жаргона, разговорной лексики и др.
Все это в совокупности составляет огромное пространство, в котором, использование лишь
одного критерия для идентификации авторства текста не даст объективного результата. Лишь
грамотное сопоставление методик даст возможность выявить авторский стиль определенного
автора среди массы текстовой информации.
Можно выделить несколько ситуаций в задачах атрибуции текста и установлении его
авторства. Во-первых, определение, является ли определенное лицо автором исследуемого текста,
если имеется пример текстов этого лица. Вторая ситуация связана с выбором автора исследуемого
текста на основе образцов текстов нескольких известных авторов. Также при решении задач
атрибуции текстов может возникнуть ситуации анализа нескольких текстов с целью установления,
скольким авторам принадлежат тексты, и атрибутировать каждый текст конкретному автору.
Другой подход основывается на математической модели последовательности букв текста.
Вычисляется матрица переходных частот употреблений диад (пар букв). Данный метод
412
Международная научно-техническая конференция «Информационные системы и технологии»
ИСТ-2014
СЕКЦИЯ 5.2 ТЕХНИЧЕСКАЯ КИБЕРНЕТИКА (ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ)
оказывается точным для естественно-языковых текстов. В большинстве работ зарекомендовали
себя такие характеристики текста, как функциональные слова, распределение слов по частям речи,
наиболее частые слова языка, знаки пунктуации, распределение длины слова и длины
предложения.
Однако среди существующих методик определения структуры авторского стиля есть
существенные недостатки. Во-первых, некоторые методы рассчитывались вручную без
использования современных вычислительных мощностей, что ограничивало точность и
достоверность исследования. Во-вторых, эти методы не проверялись на большом числе писателей.
Это происходит из-за того, что многие из методик трудно представить из естественнолитературного произведения в предлагаемую математическую модель. В результате чего
вычислительный эксперимент с целью проверки методики на большом числе авторов трудно
реализуем.
На данный момент наиболее эффективным инструментарием является машина опорных
векторов и сопоставимые результаты дают искусственные нейронные сети, однако они требуют
существенных временных затрат на обучение. Исследование нейро-сетевого подхода было
проведено не в полной мере. Высокой точности идентификации не удается достичь на текстах
объемом менее 30000-40000 символов и небольшого количества обучающих примеров.
Необходимо вести дальнейшие исследования, направленные на поиск новых,
совершенствование или комбинирование уже имеющихся методов идентификации автора, путем
создания многомерных классификаций, учитывая, что следует избегать взаимной корреляции
совместно используемых методик. Необходимо проведение экспериментов, позволяющих
разделять стили авторов русскоязычных текстов, с помощью которых станет возможной работа с
малыми объемами выборки. Это нужно, так как более частым явлением признается
идентификация авторства коротких текстов относительно определения авторства текстовых
структур значительных объемов. В первую очередь это связано с массовым использованием сети
Интернет, а именно большая роль социального взаимодействия по электронной почте, в
социальных сетях, различных форумах. Благодаря нестрогим правилам при регистрации на сайтах
пользователи могут указывать о себе совершенно ложную информацию, ведь регистрация как
таковая имеет чисто символический характер. Используя чужие контактные данные (имя,
фамилию, адрес и др.) можно совершать множество действий в сети, прозрачно от других
пользователей.
Имеет тенденцию к увеличению использование электронной связи в преступных целях.
Мошенничество, клевета, оскорбления распространены в интернет пространстве в связи с
массовостью и возможностью легко затеряться в серой массе миллионов ложных данных. Все
чаще перед подразделениями МВД, занимающихся раскрытием и расследованием преступлений
ставится задача поиска и идентификации авторов-создателей текстов электронной коммуникации.
Усложняют поиск автора особо новая форма общения, приближенная к устной речи, где процесс
связи проходит в режиме реального времени, причем в одной ситуации могут одновременно
оказаться несколько участников общения.
E-mail: ShallDen@yandex.ru, skorynins@gmail.com
413
Download