О.А. Митрофанова (Санкт-Петербургский государственный университет) СЕМАНТИЧЕСКИЕ РАССТОЯНИЯ: ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ 1. Постановка проблемы 1.1. Измерение семантических расстояний, или количественная оценка семантических связей в системе языка и в тексте, – это исследовательская задача, для решения которой существует необходимый и достаточный теоретический аппарат, однако ее практические решения далеки от совершенства. 1.2. Измерение семантических расстояний на уровне лексикона и речевых произведений возможно лишь в том случае, если выполняются следующие условия: – существует семантическое описание тех единиц, теснота связи между которыми подлежит измерению; – существует подробное описание разнообразных семантических отношений, связывающих языковые единицы и их комплексы; – используемый математический аппарат (теория множеств, топология, математическая статистика и пр.) адаптирован с учетом качественной природы измеряемых отношений. 1.3. Основные вопросы, связанные с измерением семантических расстояний, сводятся к следующим: – можно ли говорить об измеримости семантических связей в системе языка или в тексте; – каков объект измерения: связи в лексиконе или в тексте, синтагматические или парадигматические связи, связи внутри текста или между текстами и пр.; – какова конечная цель измерения и для каких областей знаний данные измерения представляют интерес: количественное описание качественных отношений, разработка и применение лексических баз данных, информационный поиск, реферирование и пр. 2. Направления исследования 2.1. В существующих исследованиях по измерению семантических расстояний задействованы два подхода: парадигматический и синтагматический. 2.1.1. Парадигматический подход предполагает измерение семантических расстояний в лексиконе. Исходный тезис таков: семантическую близость следует определять, опираясь на данные о значении, хранящиеся «внутри» языкового знака, а не за его пределами. Определив лексикон языка как сложным образом упорядоченное множество классов слов, связанных парадигматическими отношениями 2 (семантических полей или группировок иного толка, например, лексикосемантических групп, синонимических рядов), и описав значения единиц данных классов с помощью набора неких семантических признаков, можно применить к описанию языкового материала несложный математический аппарат. Класс лексических единиц при этом интерпретируется как nмерное метрическое пространство, в котором каждое из значений лексем можно задать как точку или вектор. Для пары лексем расстояние определяется через число совпадающих или различающихся семантических признаков в их значениях. С данной целью могут быть использованы мера Хэмминга, мера Евклида, разнообразные коэффициенты ассоциации и пр. Каждому из семантических признаков, описывающих значения лексических единиц класса, может быть приписан вес, отражающий важность той или иной семы в иерархии. Не менее эффективно представление класса лексем в виде матрицы (в строках такой матрицы содержатся признаковые описания значений слов, в столбцах – возможные реализации семантических признаков), в виде таблицы расстояний или сети (в узлах сети располагаются лексемы, связывающие их дуги могут иметь метку типа семантического расстояния, т.е. содержать указание на какое-либо из парадигматических отношений: синонимия, антонимия, конверсия, гипонимия, меронимия и т.д., а также количественного значения семантического расстояния). При всем изяществе и простоте данного решения все же остается неясным: – какие меры лучше приспособлены для той или иной цели: мера, учитывающая расхождения между сравниваемыми объектами по всевозможным признакам (мера Хэмминга, мера Евклида и пр.) или мера, пренебрегающая периферийными признакам сравниваемых объектов и учитывающая расхождение по основному признаку, особенно если у него много значений (мера Чебышева); мера, учитывающая расхождения между сравниваемыми объектами по всевозможным признакам, но значение которой во многом определяется значением доминирующего признака (мера Евклида) или мера, значение которой в одинаковой степени определяется всеми признаками, рассматриваемыми как равноправные (мера Хэмминга) и пр. – по каким признакам необходимо сравнивать те языковые единицы, связи между которыми подлежат измерению: выделяя денотативные признаки означаемого для знака, можно определять близость слов на основе сравнения соответствующих им понятий; выделяя сигнификативные признаки означаемого для знака, можно определять близость слов на основе сравнения их внутриязыкового содержания; – как формировать признаковое пространство: какими должны быть признаки – бинарными, тернарными, n-арными, каким должно быть их количество, должно ли признаковое пространство быть структурировано по иерархическому принципу, как определять веса признаков, насколько точными должны быть измерения и пр. 3 2.1.2. Синтагматический подход предполагает измерение семантических расстояний в тексте и между текстами. Исходный тезис таков: обращение к корпусу позволяет использовать данные о значении слова, хранящиеся «вне» языкового знака, и определять содержательную близость лексических единиц, сопоставляя их синтагматические свойства. Данный подход вполне согласуется с теорией значения как употребления, с идеей неаддитивного сложения смыслов (речь идет о реализации в тексте отношения семантического согласования, т.е. о дублировании в контексте той семантической информации, которая содержится в слове). Синтагматический подход лежит в основе процедуры латентного семантического анализа (ЛСА). ЛСА – это статистический метод извлечения и анализа текстовой информации, не требующий предварительного создания лексикографических описаний, семантических сетей, обращения к базам знаний, концептуальным иерархиям и пр. В основе метода ЛСА лежит гипотеза о том, что между отдельными словами и обобщенным контекстом (предложениями, абзацами и целыми текстами), в которых они встречаются, существуют неявные (латентные) взаимосвязи, обуславливающие совокупность взаимных ограничений. ЛСА активно используется для формирования групп близких по значению слов на основе статистического анализа их сочетаемости с элементами контекста1, однако отношение содержательной соотнесенности понимается при этом очень широко, и сейчас еще рано говорить об ЛСА как о точном инструменте семантического исследования. 2.2. Разработанность проблемы в отечественной науке и за рубежом (см. избранную литературу) сильно разнится, ее нельзя признать достаточной, но по разным причинам. Отечественные работы об измерении семантических расстояний предоставляют методологическую базу для подобных исследований и обосновывают предлагаемые решения с точки зрения лингвистической теории. Зарубежные работы об измерении семантических расстояний сфокусированы на подготовке формального аппарата для осуществления исследований и обосновывают предлагаемые подходы с точки зрения практических решений и возможных областей применения полученных результатов. 3. Перспективы 3.1. Нельзя не признать, что вопросов о семантических расстояниях значительно больше, чем ответов, – и это одна из причин, по которым данная проблема не оставляет исследователей равнодушными. 3.2. Как все-таки лучше измерять семантические расстояния? При парадигматическом подходе необходимо аргументированно задать метриС результатами исследований в области ЛСА можно ознакомиться в ряде электронных источников (см. http://lsi.research.telcordia.com/lsi/LSIpapers.html); практической иллюстрацией использования данного метода является ресурс Google-Sets (см. http://labs.google.com/sets). 1 4 ческое пространство и сформировать множество признаков, на основе которых будут производиться семантические измерения, также необходимо выбрать оптимальную меру. При синтагматическом подходе необходимо обращаться к представительному корпусу текстов, снабженному в том числе и семантической исследовательской информацией, и учитывать не только вероятность/частоту встречаемости сравниваемых единиц в том или ином контексте/конструкции, но и частоту самой конструкции. 3.3. Что должно быть еще сделано? Необходимо признать продуктивность совмещения парадигматического и синтагматического подходов и привлечь внимание исследователей к корпусам текстов как к богатейшему источнику информации для измерения семантических расстояний. ИЗБРАННАЯ ЛИТЕРАТУРА 1. Апресян Ю.Д. Экспериментальное исследование семантики русского глагола. М., 1969. 2. Апресян Ю.Д. В какой мере можно формализовать понятие синонимии? // Облик слова. М., 1997. 3. Фитиалов С.Я. Синонимия и осмысленность текстов // Синонимия в языке и речи. Новосибирск, 1970. 4. Макагонов П., Александров М., Гельбух А. Формулы проверки подобия слов с обучением на примерах: построение и применение // Труды международной конференции «Корпусная лингвистика – 2004». СПб., 2004. 5. Новиков А.И., Ярославцева Е.И. Семантические расстояния в языке и в тексте. М., 1990. 6. Пиотровский Р.Г. Текст, машина, человек. Л., 1975. Гл. 7. Измерение смысловой информации. 7. Скороходько Э.Ф. Оценка и сопоставление токовых словарей // Научнотехническая информация. Сер. 2. 2000. № 5. 8. Budanitsky A., Hirst G. Semantic Distance in WordNet: An Experimental, Application-Oriented Evaluation of Five Measures // Workshop on WordNet and Other Lexical Resources. Pittsburgh, 2001. 9. Gamallo P., Gasperin C., Augustini A., Lopes G.P. Syntactic-Based Methods for Measuring Word Similarity // V. Matoušek, P. Mautner, R. Mouček, K. Taušer (eds.). Text, Speech and Dialogue. LNAI 2166; Springer-Verlag, 2001. 10.Pantel P., Lin D. Document Clustering with Committees // SIGIR–02. Tampere, 2002. 11.Rychly P., Smrž P. Manatee, Bonito and Word Sketches for Czech // Труды международной конференции «Корпусная лингвистика – 2004». СПб., 2004. 12.Smrž P., Rychlý P. Finding Semantically Related Words in Large Corpora // V. Matoušek, P. Mautner, R. Mouček, K.Taušer (eds.). Text, Speech and Dialogue. LNAI 2166; Springer-Verlag, 2001. 13.Young A.M. The Geometry of Meaning. San Francisco, 1976.