Цель, принципы и методы формирования и разметки корпуса

advertisement
Корпус спонтанной
компьютерноопосредованной
коммуникации:
цель, принципы и методы
формирования и разметки
Евгений Чухарев, РГПУ им. А. И. Герцена
chukharev@gmail.com
План доклада
Определения
Актуальность лингвистического
исследования
Обеспечение понимания
Корпус как инструмент верификации
гипотез
Контроль надёжности
Спонтанность
порождение речи:


латентный процесс (семиозис) –
конструирование знаков
объективация
спонтанная письменная коммуникация
продуктивна в квазисинхронных
условиях
Компьютерно-опосредованная
коммуникация
Алфавитно-цифровой канал связи
Объективация высказываний путём
набора на клавиатуре
Считывание сообщений с экрана
монитора
Технологический субстрат –
взаимосвязь открытых систем
Синхронность
котемпоральность (cotemporality):
задержка в канале связи субъективно
мала
одновременность (simultaneity):
дуплекс канала связи, одновременный
приём и передача сигнала
квазисинхронность =
котемпоральность – одновременность
Чат
Многокомнатные
многопользовательские чаты
Системы мгновенного обмена
сообщениями (Instant Messengers)
Многопользовательские ролевые игры
(MUD)
Актуальность лингвистического
исследования
Изучение характера речемыслительной
деятельности по косвенным
объективирующим показателям
спонтанности
Фиксация в корпусе всей информации,
которая передаётся в ходе
коммуникации
Представление в форме, удобной для
автоматической обработки
Обеспечение понимания
Зашумлённость на графематическом,
морфологическом и синтаксическом
уровнях
Широкий диапазон синтаксического
варьирования при сохранении
семантики (О.А.Лаптева)
Базовая синтаксическая единица –
клауза (А.А.Кибрик)
Предикатное выражение
Языковая реализация пропозиции
Примеры:


Инженеры выполняют работы по
проведению эксплуатации системы
А я стою на тебя смотрю
Значение vs. смысл
Смысл – информация (мыслительное
содержание), передаваемая от
отправителя получателю в ходе
коммуникации
Пример:

Только Иван успешно сдал экзамен
«Здесь продаётся славянский
шкаф»
Значение vs. смысл
Ну, ты что?
Да я вот, тут…
А, ну ладно…
www.justchat.ru
Что? Где? Когда?
команды соревнуются в умении находить
правильный ответ на поставленный перед
ними вопрос в ограниченное время
игры проводятся в чате, без личного контакта
игроков
время на обсуждение вопроса составляет
четыре минуты, предупредительный сигнал
подаётся за 30 секунд до окончания
отведённого времени
количество игроков в команде не
регламентируется
Корпус протоколов чата
11518 реплик (сообщений)
50027 словоупотреблений (с/у)
~14176 русских словоформ (с/ф)
42 продуцента всего
36 продуцентов (испытуемых)


с количеством реплик 10
кроме исследователей
Распределение реплик по
испытуемым
2500
2000
1500
Кол-во реплик
1000
500
31
34
25
28
19
22
13
16
7
10
4
1
0
Виды разметки корпуса
токенизация (автоматически)
орфографическая нормализация
(вручную)
морфологический анализ
(автоматически)
выделение предикатных выражений
(вручную)
Типы токенов
словоупотребление (W или L)

привет, кто-нибудь, д’Артаньян
пунктуатор (P)
цифровой комплекс (D)

25, 10.02.21, 555-12-34
электронный адрес (E)
ник одного из участников чата (A)
эмотикон (S)
Комбинированные типы
WL (Windows’ный)
WD (17й, 40-летний)
*LD (17-th)
*WLD
PS – непарная круглая скобка: Привет)
Орфографическая нормализация
нормативность определяется на основании
собственной языковой интуиции и словарей
при отсутствии слова в словарях коррекция
осуществляется по принципу аналогии
(чегэкашник ~ кагэбэшник)
разделение нескольких нормативных слов,
ошибочно объединённых в одно
словоупотребление (незнаю; миру-мир)
объединение последовательности из
нескольких токенов в одно
словоупотребление (не навижу; кто нибудь)
Орфографическая нормализация
все аббревиатуры и сокращения, кроме
собственных имён (МГУ, ЧГК, ЖЖ, А.С.Пушкин),
разворачиваются в соответствии с контекстом
иноязычные слова, в том числе сокращения, не
корректируются и не переводятся на русский язык
междометия не подвергаются орфографической
коррекции, однако особым образом помечаются
для дальнейшего анализа
нормализуются иноязычные собственные имена (в
том числе аббревиатуры), официально
употребляемые в латинской графике
Орфографическая нормализация
в откорректированном варианте регистр
букв выбирается согласно правилам для
середины предложения
если единственным отклонением от нормы
в исходном слове является употребление
регистра, то оно не подлежит коррекции в
случаях, когда заглавными является либо
только первая буква (Молоток), либо все
буквы слова (СТОЛ)
при наличии нескольких вариантов
коррекции выбирается наиболее близкий
корректируемому слову
Орфографическая нормализация
Выделение ПВ
Лингвистические решения
алгоритмические (принимаются
лингвистическим автоматом по
формализованным правилам)
экспертные (вручную, на основании
собственной языковой интуиции
эксперта) – необходимо обеспечить
достоверность
Коэффициент надёжности –
Reliability Index
инвариантен к количеству экспертов
основан на действительном распределении
объектов по категориям
задаётся на численной шкале с двумя
опорными точками
учитывает математическую природу
параметра
характеризуется известным или по крайней
мере вычислимым распределением
Коэффициенты надёжности
процент согласия
Bennet et al.’s S
Scott’s 
Cohen’s 
Fleiss’s K
Cronbach’s C
Krippendorff’s 
Альфа Криппендорфа
Do
  1
De
1
2
Do   ock  ck
n c k
1
2
De 
nc nk  ck

n(n  1) c k
Интерпретация надёжности

Степень согласия экспертов
< 0,00
плохое (poor)
0,00 – 0,20
незначительное (slight)
0,21 – 0,40
посредственное (fair)
0,41 – 0,60
умеренное (moderate)
0,61 – 0,80
существенное (substantial)
0,81 – 1,00
почти идеальное (almost perfect)
Надёжность разметки
предикатных выражений
Токен
a
b
c
d
e
Эксп.
A
0
1
0
1
1
Эксп.
B
0
1
2
2
3
Эксп.
C
1
2
1
1
3
Выводы
Выделение предикатных выражений в
корпусе чата оказывается очень надёжным.
Реальность порождения спонтанной речи
семантическими «порциями» – предикатными
выражениями – может быть верифицирована
психолингвистически.
В чате широко используются механизмы
смыслопорождения, повышающие
эффективность коммуникации.
Спасибо!
Download