Большакова Е.И., Васильева Н.Э. Терминологическая

реклама
Терминологическая вариантность
и ее учет при автоматической обработке текстов *
Е.И. Большакова, Н.Э. Васильева
МГУ им. М.В.Ломоносова, Факультет ВМиК
[email protected]; [email protected]
Введение
Интеллектуальная обработка специальных текстов предполагает распознавание
употребленных в них терминов и понятий. Проблема автоматического выделения
терминологических слов и словосочетаний исследуется достаточно давно с точки зрения
многочисленных приложений – автоматического индексирования текстов для систем
информационного поиска, рубрикации текстов и их тематической структуризации, перевода
текстов с одного языка на другой, извлечения знаний из текстовых источников [10].
Большинство разработанных методов позволяют выделять устойчивые терминоподобные
именные словосочетания с приемлемой для этих приложений полнотой и точностью. Они
работают, как правило, на большом массиве текстов и без опоры на словарь проблемной
области, используя поверхностный синтаксический анализ вместе с учетом частоты
встречаемости выделяемых единиц – см., например, [5].
В некоторых других приложениях, например, при автоматизированном литературнонаучном
редактировании
текстов
[8],
необходим
более
полный
и
глубокий
терминологический анализ текста, предполагающий учет возможного варьирования
многословных терминов в тексте. Проблема варьирования изучается относительно недавно
[11] и заключается в том, что термины при употреблении в тексте могут изменяться по
форме (например: архитектура сети – сетевая архитектура), обозначая тем не менее одно
и то же специальное понятие.
В
данной
работе
рассматриваются
возможные
варианты
терминологических
словосочетаний, выявленные в результате исследования нескольких словарей научнотехнических терминов и коллекции научно-технических текстов на русском языке,
преимущественно из области информатики и вычислительной техники. С учетом
выявленных
вариантов
уточняется
предложенная
ранее
стратегия
автоматического
распознавания терминов в заданном научно-техническом тексте [2].
Особенности терминологической вариантности
В терминоведении до некоторого времени преобладал подход, согласно которому в
специальных текстах одно понятие должно иметь только один способ выражения [8].
*
Работа выполнена при финансовой поддержке РФФИ (проект № 06-01-00571)
Соответственно,
синонимия
явлениями,
научно-технические
и
и
полисемия
терминов
терминологии
признавались
нежелательными
подвергались
логической
и
лингвистической регламентации, направленной на устранение этих явлений.
Однако стремительный рост числа новых специальных терминов, сопровождавший
развитие науки и техники, и неизбежное функционирование в речи большого количества
синонимичных вариантов потребовали учета вариативности языковых знаков, признаваемой
лингвистикой как универсальное свойство любой языковой системы [4], а значит, и
терминологической системы. Согласно современным представлениям, одно понятие может
иметь несколько различных языковых форм выражения в специальном тексте, в
соответствии с теми коммуникативными задачами, которые возникают при использовании
этого понятия [13] – см. Рис.1. Терминологическая вариантность исследуется ныне не только
в терминоведении, но и в области компьютерной лингвистики и искусственного интеллекта
[11, 12]. Изучаются виды синонимичных вариантов терминов, пределы варьируемости, а
также ее зависимость от степени новизны терминов.
В сложившихся терминологиях научно-технических областей большинство терминов
зафиксировано в соответствующих терминологических словарях (часто вместе со своими
определениями) – мы называем такие термины словарными [9]. Границы значений таких
терминов, как правило, достаточно четки, и варьирование языковой формы при обозначении
специального понятия незначительно. Для обозначения одного и того же понятия обычно
используется небольшое число синонимичных вариантов, и все они представлены в словаре
(алгебра логики – булева алгебра, радиоизотопный метод – метод меченых атомов,
насосная функция сердца – сократительная функция сердца). Как правило, в словаре
представлены
также
общепринятые
сокращения
и
усечения
терминологических
словосочетаний (база данных – БД, пакет магнитных дисков – пакет дисков).
В научно-технических текстах разных областей встречаются термины, не являющиеся
общепринятыми и возможно отсутствующие в терминологических словарях, хотя и часто
употребляемые разными авторами. В большинстве случаев это либо слова и словосочетания,
не устоявшиеся в своем значении, либо совсем новые термины, которые вводятся в тексте и
выражают новые понятия, выработанные в процессе исследовательской деятельности их
авторов – мы называем их авторскими [9]. Такие термины часто определяются в тексте при
помощи характерных фраз (например, Здесь селективностью мы называем то, что …).
В отличие от общепринятых словарных терминов, для неустоявшихся и авторских
многословных терминов характерна неустойчивость формы и значения. Даже в пределах
одного текста, в котором они употребляются, могут встречаться 3-4 и более варианта
обозначения одного и того же понятия, причем часто многословных (мультиплексор
программно-аппаратного комплекса Internet-канал – мультиплексор комплекса Internetканал – мультиплексор Internet-канала). Такая вариантность существенно усложняет
распознавание использованных в научно-техническом тексте понятий, а также извлечение
определяющих и поясняющих их языковых выражений.
синонимичная замена
корпус текстов
грамматический синоним
коллекция текстов
акроним
текстовая коллекция
усечение
словосочетания
КТ
ПОНЯТИЕ
коллекция
Рисунок 1. Различные формы выражения одного понятия
Для построения процедур распознавания необходим как можно более полный учет
возможных текстовых вариантов терминов, предполагающий их подробное описание.
Предложенные в работах [1, 7] классификации терминологических вариантов русских
терминов, несмотря на их достаточную полноту, не адекватны преследуемой нами
прикладной цели автоматизированного распознавания в тексте научных терминов и понятий.
В работах же [11, 12], ориентированных на автоматическое распознавание, описаны
варианты терминов английского и французского языков. Таким образом, потребовалось
дополнительное исследование функционирования терминов и их вариантов именно в
русскоязычных научно-технических текстах.
Разновидности текстовых вариантов терминов
Исследование вариантов терминов было начато с трех терминологических словарей
из области вычислительной техники и программирования, в том числе [6], охватывающих
около 7 тыс. терминов. Эта область сравнительно новая и активно развивается до сих пор,
так что в речи функционирует большое количество разных вариантов. Далее исследование
было продолжено на коллекции научно-технических текстов (около 100), взятых в основном
из тех же областей – изучалось терминологическое варьирование как в рамках каждого из
текстов, так и в целом по коллекции.
Исследование
позволило
выявить
наиболее
частотные
морфосинтаксические
(грамматические) образцы научно-технических терминов, а для них определить наиболее
типичные варианты, которые встречаются в текстах.
Наряду с однословных терминов (представленных существительными) наиболее
распространенными (около 85% в изученных словарях) оказались многословные термины
следующих образцов: A N (когерентное рассеяние), N Ngen (сила натяжения), A A N
(двойной электрический слой), A N Ngen (физические свойства поверхностей), N Agen Ngen
(пакет прикладных программ), N Ngen Ngen (нарушение целостности данных), где A –
прилагательное, N – существительное, gen – родительный падеж.
Для этих образцов были выделены 6 основных групп терминологических вариантов –
см. Таблицу 1. Выделение групп вариантов выполнялось в соответствии с особенностями,
которые существенны для их автоматического распознавания.
Наиболее
известными
являются
флективные
варианты,
отличающиеся
грамматическими окончаниями слов, входящих в термины (формальный параметр –
формального
параметра).
Они
распознаются
большинством
современных
систем
автоматической обработки текста на базе морфологического анализа.
Графические варианты отличаются регистром символов слов (корень дерева –
КОРЕНЬ ДЕРЕВА) и относительно просто распознаются.
Более сложную группу образуют орфографические варианты, получающиеся в
результате различной записи слов термина (например, транскрипции: браузер – броузер). В
эту группу включены также частотные орфографические ошибки, которые необходимо
учитывать при автоматической обработке текста (IP-адрес – IP адрес, языковозависимый
модуль – языково-зависимый модуль – языково зависимый модуль).
Морфовариантами являются пары слов одной части речи, отличающиеся одной
морфемой: служебной (классификация – классифицирование, выполнение – исполнение) или
корневой (спецсимвол – спецзнак), причем в последнем случае происходит замена одного
корневого морфа в рамках сложносоставного слова на близкий по смыслу корень. К этой
группе мы отнесли также варианты, получающиеся в результате отбрасывания части
сложносоставного слова (кэш-память – кэш).
Группа лексико-синтаксических вариантов, отличающихся лексическим составом и
синтаксическим строением, довольно неоднородна. Она охватывает так называемые
грамматические синонимы (текстовая коллекция – коллекция текстов), в которых
происходит замена слова на однокоренное другой части речи с одновременным изменением
синтаксической связи. К этой же группе относятся и синонимичные варианты, в которых
произошла замена одного слова терминологического словосочетания на другое, близкое по
смыслу в данной области (динамичность информационной модели – динамичность
информационной структуры). В эту группу включены также усечения многословных
терминов (немаркированный квантор общности – немаркированный квантор) – подобные
краткие варианты часто используются в текстах, чтобы избежать монотонности изложения.
Варианты сокращений покрывают случаи сложения и сокращения слов, входящих в
термин. Кроме акронимов (аналого-цифровой преобразователь – АЦП) эта группа включает
варианты словосложения (файл спулинга – спул-файл), сложносокращенные слова
(аварийный
останов
–
авост)
и
сокращения
смешанного
типа
(синтаксическое
представление – СинП). К этой группе отнесены также случаи сложения с одновременной
заменой корня одного из слов на синонимичную морфему (повторный запуск – перезапуск).
Таблица 1. Терминологические варианты и их употребление в рамках одного текста
Варианты
Примеры
Варьирование термина в
одном тексте
словарный авторский
Графические варианты
регистр символов
Отрезок – отрезок
Флективные варианты
склонение/спряжение
покрытие – покрытия
Орфографические варианты
различная запись
нуль – ноль
вставка/удаление букв
баннер – банер
Морфоварианты
замена служебных морфем
рубрицирование – рубрикация
замена корневых морфем
мнемознак – мнемосимвол
усечение слов
блок-схема – схема
Лексико-синтаксические варианты
грамматические синонимы
базовый регистр – регистр базы
синонимичная замена слов
время отклика – время реакции
усечение словосочетаний
центральный процессор – процессор
Сокращения
акронимы
гигабайт – Гб
сложные слова
восковая масса – воскомасса
сложносокращенные слова
модулятор-демодулятор – модем
смешанные сокращения
мегагерц – МГц
синонимичная замена
адаптер дисплея – видеоадаптер
+
+
+
+
–
+
–
+
–
–
+
–
–
+
–
+
+
+
+
+
–
–
–
–
–
+
+
+
+
–
Описанные варианты являются базовыми в том смысле, что на их основе могут
возникать более сложные терминологические варианты, которые можно рассматривать как
суперпозицию базовых. К примеру, пара время центрального процессора – процессорное
время является суперпозицией базовых вариантов усечения и грамматического синонима.
Базовые варианты и суперпозиции покрывают подавляющее большинство встреченных при
исследовании текстовых вариантов; относительно редкие варианты (например: вложенный
файла – вложение) оставлены нами для дальнейшего изучения.
В последних столбцах таблицы 1 представлена информация о варьировании словарных
и авторских терминов в рамках одного текста, полученная по результатам исследования и
подтвердившая большую варьируемость формы авторских терминов. Отсутствие в тексте
вариантов сокращений и грамматических синонимов словарных терминов объясняется тем,
что соответствующие формы представлены в словаре.
Заметим,
что
для
распознавания
всех
вариантов,
при
которых
происходят
синонимичные замены, требуются соответствующие словари слов-синонимов и морфем.
Стратегия распознавания терминов в тексте
Проведенное исследование научно-технических текстов показало также, что в текстах
могут встречаться сложные вхождения (объединения) словарных и авторских многословных
терминов, которые хотя и не являются терминологическими вариантами в строгом смысле
этого слова, но также требуют специальных процедур распознавания. Сложные вхождения
появляются в результате соединения в тексте (на основе подчинительной или сочинительной
синтаксической связи) нескольких многословных терминов, имеющих в своем составе
одинаковые слова.
В зависимости от видов синтаксических связей возможны два следующих случая:
 Многословные термины объединяются с помощью связей согласования и управления, к
примеру, словосочетание интеграл непрерывной функции построено из двух терминов –
интеграл функции и непрерывная функция.
 Многословные термины объединяются на основе сочинительной связи, с помощью
сочинительных союзов и знаков препинания, например, словосочетание горячее и
холодное водоснабжение состоит из двух терминов горячее водоснабжение и холодное
водоснабжение.
В приведенных примерах все или некоторые объединяемые термины-словосочетания
разрываются и/или сокращаются; именно это и усложняет их автоматическое распознавание,
как и то, что в объединение могут входить одновременно словарные и авторские термины.
Очевидно, привлечение специальной словарной информации может существенно
повысить полноту и точность распознавания терминов и вариантов в тексте. Наша стратегия
распознавания терминов в тексте учитывает базовые терминологические варианты и
объединения терминов, опираясь на следующие словарные компоненты:

Терминологический
словарь
проблемной
области,
включающий
допустимые
варианты терминов.

Словари
стилистически
нейтральных
синонимов
и
однокоренных
слов
(прилагательных и существительных).

Словарь общенаучной лексики, описывающий общенаучные слова и выражения.

Лексико-синтаксические шаблоны характерных конструкций определения авторских
терминов.
Две последние компоненты [2] отражают специфику научно-технической речи,
формализация представленной в них информации ведется с помощью разработанного языка
лексико-синтаксических шаблонов [3].
Общая стратегия распознавания терминов, их вариантов и объединений включает
следующие шаги, каждый из которых в общем случае опирается на соответствующий
словарный компонент и/или процедуру анализа:
1) Графематический и морфологический анализ текста, в ходе которых производится
нормализация слов и выявляются графические варианты терминов.
2) Наложение лексико-синтаксических шаблонов определений новых терминов, в процессе
которого происходит выделение слов и словосочетаний, которые далее рассматриваются
как авторские термины. Например, из фразы Классификацию, полученную таким
способом, будем называть базовой классификацией с помощью нужного шаблона будет
выделен авторский термин базовая классификация.
3) Выделение словарных терминов и их вариантов, описанных в терминологическом
словаре, без учета их объединений.
4) Распознавание возможных объединений нескольких словарных и авторских терминов,
выявленных на шаге 2.
5) Выделение слов и словосочетаний общенаучной лексики как единиц, из которых не могут
состоять авторские термины (исключаться будут словосочетания типа актуальная задача,
похожий пример, одна сторона и др).
6) Поиск именных словосочетаний, соответствующих типичным морфосинтаксическим
образцам терминов, которые далее рассматриваются как кандидаты в авторские термины
(употребляемые в тексте без явного определения).
7) Разбиение всего набора терминов и кандидатов в термины, полученных на предыдущих
шагах, на группы синонимичных вариантов (одна группа соответствует одному понятию).
При этом выявляются лексико-синтаксические варианты, варианты сокращений и
морфоварианты, возможные в одном тексте (см. таблицу 1). Для каждого варианта в
группе определяется частота его встречаемости в тексте (с учетом графических и
флективных вариантов), а также подсчитывается общая частота встречаемости терминов
всей группы.
Все шаги процедуры, кроме первого и последнего, реализуются с помощью
поверхностно-синтаксического анализа текста, предполагающего проверку грамматического
согласования слов. Выделенные на шагах 3, 4, 5 словосочетания исключаются из
анализируемого текста, так что область поиска на шаге 6 сужается. Результаты шага 7
предъявляются человеку для вынесения решения о том, считать ли каждую группу
терминов-вариантов отдельным авторским термином, либо же это решение принимается
автоматически с использованием ряда эвристик.
Заметим, что при отсутствии нужных словарных средств соответствующий шаг
стратегии может быть пропущен – тем самым возможно и бессловарное распознавание
терминоподобных словосочетаний, полезное в ряде случаев.
Заключение
Предложена
классификация
терминологических
вариантов,
выработанная
по
результатам анализа терминологических словарей и коллекции научно-технических текстов
и ориентированная на автоматическое распознавание различных вариантов словарных и
авторских
терминов
в
текстах.
Кратко
охарактеризована
уточненная
стратегия
распознавания терминов, их вариантов и объединений в тексте, и требуемые для этого
словарные компоненты, призванные повысить точность и полноту выявления терминов.
Указанная стратегия и словарные средства могут быть полезны для проведения
терминологического анализа текста в системах литературно-научного редактирования, а
также для автоматического реферирования и аннотирования документов в информационнопоисковых системах.
Литература
1. Авербух К.Я. Общая теория термина. – Иваново, Ивановский гос. университет, 2004.
2. Большакова Е.И., Баева Н.В., Васильева Н.Э. Структурирование и извлечение знаний,
представленных в научных текстах // Девятая Национальная конференция по
искусственному интеллекту с международным участием КИИ-2004. Труды конференции
в 3-х томах. Т. 2. – М.: Физматлит, 2004.
3. Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. Лексикосинтаксические шаблоны в задачах автоматической обработки текстов // Компьютерная
лингвистика и интеллектуальные технологии: Труды Международной конференции
Диалог ‘2007 – М.: Издательский центр РГГУ, 2007, с. 70-75.
4. Валгина Н.С. Активные процессы в современном русском языке. – М.: Логос, 2003.
5. Добров Б.В.,
Лукашевич Н.В.,
Сыромятников С.В.
Формирование
базы
терминологических словосочетаний по текстам предметной области // Труды пятой
всероссийской научной конференции "Электронные библиотеки: Перспективные методы
и технологии, электронные коллекции". - 2003, с. 201-210.
6. Дорот В.Л., Новиков Ф.А. Толковый словарь современной компьютерной лексики. –
СПб., BHV-Санкт-Петербург, 2001 г.
7. Лейчик В. М. Терминоведение: предмет, методы, структура. – М., КомКнига, 2006.
8. Сенкевич М.П. Стилистика научной речи и литературное редактирование научных
произведений. – М., Высшая школа, 1976.
9. Bolshakova E. Recognition of Author’s Scientific and Technical Terms. In: Computational
Linguistics and Intelligent Text Processing. A. Gelbukh (Ed.). Lecture Notes in Computer
Science, N 2004, Springer-Verlag, 2001, p. 281-290.
10. Castellvi M., Bagot R., Palatresi J. Automatic term detection: A review of current systems. – D.
Bourigault, C. Jacquemin, M.-C. L'Homme (eds.): Recent Advances in Computational
Terminology, Amsterdam: John Benjamins, 2001, p.53-87.
11. Jacquemin C. Syntagmatic and paradigmatic representations of term variation. // Proceedings of
the 37th Annual Meeting of the Association for Computational Linguistics ACL 1999. – 1999,
p. 341-348.
12. Nenadic G., Ananiadou S., McNaught J. Enhancing Automatic Term Recognition through
Variation. // Proceedings of 20th Int. Conference on Computational Linguistics COLING’04. –
2004, p. 604-610.
13. Sager J. A Practical Course in Terminology Processing. – Amsterdam: John Benjamins, 1990.
Скачать