Загрузил Марина Пастревич

Исправление

реклама
Введение
Актуальность исследования. В современном мире общение с помощью
интернет-ресурсов занимает довольно значительную часть жизни человека,
как то различные социальные сети, новостные сайты, мессенджеры и т.д. К
сожалению, при взаимодействии через интернет-пространство не всегда
удается избежать агрессивной лексики от оппонента, которая может быть
использована как намеренно, так и не преднамеренно, однако в обоих случаях
способна вызывать негативные последствия. В связи с этим возникает
потребность в разработке автоматической классификации агрессивной
лексики в неструктурированных текстах, которыми является значительная
часть информации, представленной в интернет-пространстве.
Одной из ключевых проблем классификации вербальной агрессии
является её широкий спектр выражения. Так, речевая агрессия может
принимать различные формы: от простейших угроз до более сложных и
неоднозначных формулировок, что, соответственно, усложняет процесс
классификации вербальной агрессии.
Следует отметить, что одним из возможных подходов к классификации
агрессивной лексики может явиться использование машинного обучения. Для
создания и обучения модели автоматической классификации агрессивной
лексики необходим довольно большой и предварительно размеченный набор
данных.
Помимо этого, при
разработке модели классификации агрессивной
лексики важным аспектом является защита приватности и свободы слова, то
есть необходимо учитывать, что такая классификация способна привести к
ошибочному или несправедливому исключению определенных выражений,
которые могут быть важны для дискуссии или свободного обмена мнениями.
Соответственно важно разрабатывать сбалансированные подходы, которые
учитывают контекст и индивидуальные особенности каждого случая.
Следует отметить, что вопросам классификации вербальной агрессии
посвящено достаточно работ (в том числе как лингвистов, например, Седов
К.Ф. [86], Енина Л.В. [87], Михалская А.К. [88], Паламарчук Н.А.
[89],Щербинина Ю.В. [90;118], Шейгал Е.И. [91], Смирнов П.Ю., Новикова
Т.Ф. [85], а также Басс А [68]
), но не существует автоматической
классификации.
Помимо
этого,
классификацией
неструктурированных
текстов
занимаются многие исследователи – инженеры, в том числе Рубцова Ю.В.
[4],Капитанов А.И. [100], Бровкин [101], Рыцарев И.А. [102], Козлов П.Ю.
[103], Кижаева Н.А. [107], Котельников Е.В. [110] и др., но не исследована
классификация вербальной агрессии в неструктурированных текстах.
Следует отметить, что набирающие популярность нейросети, которые
могут работать с текстом, не могут классифицировать агрессивную лексику.
В связи с вышеизложенным тематика данного диссертационного
исследования является современной и актуальной, поскольку у лингвистов нет
программного обеспечения для автоматической классификации вербальной
агрессии, а у инженеров нет именно классификации агрессивной лексики в
неструктурированных текстах.
Объект исследования: агрессивная лексика в неструктурированной
текстовой информации.
Предмет
исследования:
методика
и
алгоритм
автоматической
классификации агрессии в неструктурированной текстовой информации в
интернет-пространстве.
Цель
исследования:
разработка
автоматической
классификации
агрессивной лексики в неструктурированных текстах.
Для
достижения
поставленной
цели
в
диссертации
решаются
следующие задачи:

аналитический обзор различных векторных моделей, таких как TF-
IDF, Bag of Words, Word2Wec, HashVectorizer; алгоритмы классификации:
метод k-ближайших соседей, метод опорных векторов, деревья решений,
логистическая
регрессия,
наивный
баейсовский
классификатор,
мультиномиальный наивный баейсовский классификатор; также различные
виды машинного обучения, такие как с учителем, без учителя и с
подкреплением; помимо этого разбираются понятия структурированных,
неструктурированных и слабоструктурированных данных ;

аналитический обзор существующих классификаций вербальной
агрессии, как с лингвистической стороны, так и с психологической, а также
даны её определения, выбрано и обосновано одно из них; введено понятие
речевой
манипуляции;
проанализированы
классификации
причин
возникновения вербальной агрессии, выбрана и обоснована одна из них;
проанализированы мотивы и способы выражения агрессии, а также способы
речевого воздействия; помимо этого приведены языковые средства выражения
агрессии, её формы и последствия, к которым она может привести, а также
правила поведения для предотвращения последствий ;

создание
программного
комплекса
автоматической
классификации агрессивной лексики в неструктурированных текстах (КРА).
Методы
исследования:
в
ходе
проведения
диссертационных
исследований применялись основные положения системного анализа, методов
оптимизации, модели и методы искусственного интеллекта, компьютерной
лингвистики, а также филологические положения.
Научная новизна заключается в следующих основных результатах:
 предлагается классификация вербальной агрессии, основанная на
одной из предложенных лингвистических классификаций, отличающаяся тем,
что подходит для машинного обучения;
 предлагается программный комплекс, позволяющий автоматически
классифицировать вербальной агрессии в неструктурированных текстах в
информационном пространстве.
Достоверность полученных результатов диссертационной работы
определяется
корректностью
практической
реализации
применения
полученных результатов.
Практическая значимость работы заключается в
алгоритме
автоматической
классификации
вербальной
предложенном
агрессии
в
неструктурированных текстах информационного пространства. Данный
алгоритм может быть полезен не только для фильтрации контента в
социальных сетях, мессенджерах, но и использоваться для анализа
общественного мнения и возможного предсказания конфликтных ситуаций.
Разработка
и
совершенствование
автоматических
систем
классификации агрессивной лексики имеет большое значение в современном
информационном обществе, поскольку позволяет повысить качество онлайнкоммуникаций, предотвращать возможные негативные сценарии.
Данный алгоритм используется при ведении учебных занятий в ФГБОУ
ВО ВГУ по дисциплине «Искусственный интеллект».
Личный
вклад
автора
заключается в следующих
положениях,
выносимых на защиту, которые получены автором лично, в частности:

аналитический обзор существующих
векторных моделей,
алгоритмы классификации, а также различные виды машинного обучения;

аналитический обзор существующих классификаций вербальной
агрессии, как с лингвистической стороны, так и с психологической;

программная реализация автоматической классификации.
Апробация
работы.
Основные
положения
и
результаты
диссертационной работы были представлены на:

IX международной научной конференции «Книга в современном
мире: когнитивные аспекты», 2021 г.;

Международной научной конференции «Актуальные проблемы
прикладной математики, информатики и механики»,2022 г.;

Международной научной конференции «Актуальные проблемы
прикладной математики, информатики и механики», 2023 г.;

XXIII Международной научно-практической конференции им.
Э.К. Алгазинова, 2023 г.;

XXIV Международной научно-практической конференции им.
Э.К. Алгазинова, 2024 г.
Публикации. По теме диссертационной работы опубликовано 7 научных
работ, в том числе 2 в издании из перечня ВАК.
Структура и объем работы. Диссертационная работа состоит из
введения, четырех глав, заключения, списка литературы. Общий объем работы
составляет 103 страниц, в том числе 19 формул и 61 рисунок.
Во введении обосновывается актуальность темы, формулируются цели
и задачи работы, указана научная новизна, приводится список публикаций и
апробация исследования. Помимо этого, обосновывается практическая
значимость работы, а также достоверность полученных результатов, указан
личный вклад автора и приводится краткое содержание глав.
В первой главе приведен
анализ существующих классификаций
вербальной агрессии, как с психологической точки зрения, так и с
филологической. Помимо классификаций рассмотрены и проанализированы
причины появления агрессии, виды и мотивы, языковые средства, а также
способы её выражения, последствия и возможные способы предотвращения.
Выбрана, обоснована и дополнена одна из существующих классификаций,
которая подходит для решения задачи классификации вербальной агрессии в
неструктурированных текстах.
Во второй главе рассмотрены и проанализированы основные виды
данных в информационном пространстве, обоснован выбор машинного
обучения. Рассмотрены и проанализированы векторные модели, обоснован
выбор конкретной модели. Рассмотрены и проанализированы алгоритмы
классификации,
обоснован
выбор
алгоритма,
легшего
в
основу
автоматического классификатора. Проанализированы виды машинного
обучения, обоснован выбор одного из них.
В третьей главе произведен анализ существующих разработок в
области классификации неструктурированных текстов, а также различных
языковых моделей. Помимо этого, автором были проведены эксперименты с
предварительно обученными моделями.
В
четвертой
главе
рассматривается
разработка
алгоритма
автоматической классификации агрессивной лексики в неструктурированных
текстах в интернет-пространстве. Помимо этого, был проведен анализ
скоростей и точности различных векторизаторов, для выбора наиболее
оптимального для поставленных задач.
В заключении диссертационной работы подведены итоги решения
поставленных в исследовании задач.
Переход от первой главы (лингвистической) ко второй (где выбор
машинного обучения и т.д.)
Данная
классификация
подходит
для
задачи
классификации
неструктурированных текстов, но необходимо добавить еще одно условие –
«нейтральная лексика». Именно в таком виде она будет использоваться в
диссертационной работе.
На сегодняшний день, вопросами вербальной агрессии занимаются
множество специалистов: лингвисты, психологи, культурологи, юристы и
политологи, но пока не выведено точного определения вербальной агрессии,
а также единой классификации речевой агрессии в интернет-пространстве.
Следует отметить, что в информационном пространстве выявлять
вербальную агрессию все же несколько же сложнее, чем при личном общении.
Еще сложнее привлечь к ответственности обидчика. В связи с этим
разрабатывается программный комплекс для определения вербальной
агрессии.
Помимо
классификаций
самой
речевой
агрессии
в
главе
рассматриваются причины, виды и мотивы, языковые средства, способы
вербальной агрессии, последствия и способы её предотвращения.
Заключение
В ходе выполнения диссертационной работы для решения поставленной
научно-технической задачи исследования были проведены исследования и
получены следующие результаты.
1.
Произведен анализ существующих классификаций вербальной
агрессии, а так же даны её определения, выбрано и обосновано
одно
из
них;
введено
проанализированы
понятие
речевой
манипуляции;
классификации
причин
возникновения
вербальной агрессии, выбрана и обоснована одна из них;
проанализированы мотивы и способы выражения агрессии, а
также способы речевого воздействия; помимо этого приведены
языковые средства выражения агрессии, её формы и последствия,
к которым она может привести, а также правила поведения для
предотвращения последствий. Обоснован выбор классификации
[91] с добавлением еще одного классификатора, необходимого при
машинном обучении.
2. Проанализированы различные векторные модели, такие как TFIDF, Bag of Words, Word2Wec, HashVectorizer; алгоритмы
классификации: метод k-ближайших соседей, метод опорных
векторов, деревья решений, логистическая регрессия, наивный
баейсовский
классификатор,
мультиномиальный
наивный
баейсовский классификатор; также различные виды машинного
обучения, такие как с учителем, без учителя и с подкреплением;
помимо
этого
разбираются
понятия
структурированных,
неструктурированных и слабоструктурированных данных.
3. Проанализированы
классификации
выявлено
работ,
существующие
разработки
неструктурированных
связанных
с
текстов,
проблемой
в
области
однако
не
автоматической
классификацией агрессивной лексики в неструктурированных
текстах в информационном пространстве.
4. Предложен
программный
комплекс
автоматической
классификации вербальной агрессии в неструктурированных
текстах.
Основные итоги диссертационной работы были представлены на:

IX международной научной конференции «Книга в современном
мире: когнитивные аспекты», 2021 г.;

Международной научной конференции «Актуальные проблемы
прикладной математики, информатики и механики»,2022 г.;

Международной научной конференции «Актуальные проблемы
прикладной математики, информатики и механики», 2023 г.;

XXIII Международной научно-практической конференции им.
Э.К. Алгазинова, 2023 г.;

XXIV Международной научно-практической конференции им.
Э.К. Алгазинова, 2024 г.
В настоящее время по теме диссертационной работы опубликовано 7
научных работ, в том числе 2 в издании из перечня ВАК.
Представленный программный комплекс используется при ведении
учебных занятий в ФГБОУ ВО ВГУ
по дисциплине «Искусственный
интеллект».
Стоит отметить, что предложенный алгоритм не всегда предоставляет
точную классификацию манипулятивной лексики, в связи с тем, что в
обучающем наборе данных лексики отсутствовало необходимое количество
этого вида лексики, поэтому она чаще всего классифицируется как
нейтральная. В перспективах развития планируется усовершенствование
работы классификатора с повышением точности.
Скачать