ФОРМАЛИЗОВАННЫЙ ПОДХОД К ОПРЕДЕЛЕНИЮ СЕМАНТИЧЕСКИХ СОСТОЯНИЙ СЛОВ Владимир ШИРОКОВ, Киев, Украина Украинский языково-информационный фонд НАН Украины Аннотация. На основе теории семантических состояний языковых единиц предложена схема формализованного представления значений слов. Учитываются эффекты грамматической, лексической семантики и взаимодействия между ними. Ключевые слова: семантические состояния, грамматическая и лексическая семантика. Abstract. On the basis of the theory of semantic states of linguistic units, a scheme of formalized representation of the word meanings has been suggested. The effects of grammatical and lexical semantics and the interaction between them are taken into account. Keywords: semantic states, grammatical and lexical semantics. Наряду с теоретическими положениями относительно природы значений слов и их рефлексивными определениями не менее важным для прикладной лингвистики является операциональный аспект этих понятий, предписывающий формализацию действий, связанных с процессом абстрагирования грамматических, лексических и иных значений языковых единиц. А именно, возникают вопросы: каким образом можно установить различные значения слова, с помощью каких средств их можно различить, как устанавливаются отношения между ними, в частности, отношение близости, или, скажем, противоположности, как определяются их семантические детерминанты, чем, собственно, эти детерминанты являются и т.п. Отмеченные вопросы, несмотря на их разностороннюю лингвистическую проработку, в процедурном отношении разрешены недостаточно, о чем свидетельствует относительная бедность компьютерного инструментария, ориентированного на экстракцию смысла, значения, содержания и иных когнитивных структур текстов. В ––– 224 ––– связи с изложенным возникает необходимость возвратиться к процессам формализации семантических структур. В данной работе такая попытка предпринята на основе использования концепции семантических состояний языковых единиц [1, 3]. Очевидно, что значения слова разворачиваются (проявляются) только в контексте. Следовательно, теоретически для экспликации значений конкретного слова необходимо собрать все – в определенном смысле – контексты, в которых оно функционирует, распределить их по однородным в некоем («семантическом») отношении группам, каждая из которых и служит репрезентантом некоторого лексического значения. Далее, изучая эти группы контекстов, лексикограф выводит из каждой такой группы отдельное лексическое значение анализируемой лексемы и квалифицирует соответствующие грамматические значения. Понятно, что такая схема является идеализацией, ведь, в принципе, сумма контекстов является неограниченной, а на практике лексикограф всегда имеет дело с конечным (часто очень ограниченным) кругом контекстов, из которого он, опираясь на свое знание системы языка, лингвистический опыт и интуицию, выстраивает систему лексических значений. Понятно также, что при этом зачастую бывает очень трудно избавиться от субъективизма, присущего любому, даже очень объективно настроенному исследователю. Возникает еще несколько вопросов. Отвечает ли любому контексту k(x) слова х определенное лексическое значение? Не может ли возникнуть ситуация, когда одному и тому же контексту следует приписать два или больше лексических значения, или, вообще, приписать значения, которые в результате десемантизации или какихлибо иных семантических процессов нельзя трактовать как лексические? Ответы на эти вопросы, типичные для когнитивных ситуаций, характерных для формализма семантических состояний [1], можно получить лишь путем тщательного анализа достаточно больших, репрезентативных коллекций контекстов. Такими собраниями, служащими фактографической базой определения лексической семантики, в лексикографии традиционно были лексические картотеки. В наше время задача собирания и экспликации контекстов возлагается на лингвистические корпуса – значительные по объему электронные библиотеки текстов, размеченные (маркированные, аннотированные) грамматическими параметрами всех имеющихся в данных текстах слов, составляющих специальный поисковый ин- ––– 225 ––– декс, использование которого и предоставляет возможность практически мгновенного получения полного набора контекстов любого избранного слова по всем источникам, представленным в корпусе. Большие лингвистические корпуса имеют объемы сотни миллионов словоупотреблений – компьютерных аналогов традиционных лексических карточек. Подробное описание конструкции, принципов по строения лингвистических корпусов и применений лингвистических корпусов изложено в монографии [2]. На основе изучения тем или иным способом полученной совокупности контекстов осуще ствляется формирование комплексов лексических значений слов, которые являются объектами лексикографирования. Подытожим сказанное в виде некой схемы или последовательности этапов. На первом этапе формируется множество К(х) контекстов языковой единицы (лексемы) х, где х пробегает класс слов определенного языка. Таким образом получается «множество множеств» контекстов. На втором этапе в множестве К(х) для каждой лексемы х выделяется совокупность непересекающихся подмножеств: K ( x) ⊇ N (x) U K ( x); i K i ( x) ∩ K j ( x) = ∅ при i≠j, (1) i =1 где N(х) – целое число, отождествляемое с кратностью полисемии лексемы х. Осуществление разбиения К(х) на отдельные подмножества Кi(х), і=1, 2 .., N(х) является неформальной интеллектуальной процедурой, поскольку именно здесь осуществляется сопоставление множеству Кі(х) определенного лексического значения. Иными словами, мы допускаем, что между лексическим значением lі(х) и множеством контекстов Кі(х) существуют некое взаимнооднозначное соответствие: lі(х) ↔ Кі(х), (2) устанавливаемое и фиксируемое лексикографом. При этом для простоты изложения считаем, что множества Кі(х) сформированы таким образом, что в каждом контексте kіr(х) ∈ Кі(х) лексема х, хотя и может встречаться более одного раза, но лишь в одном и только одном лексическом значении. Сделаем некоторые замечания, поскольку в действительности здесь мы имеем более сложный процесс. На практике не все контексты лексической единицы х принимаются в рассмотрение при определении лексических значений. Рассматриваются и анализиру- ––– 226 ––– ются лишь те контексты, в которых значение соответствующей единицы является «социализированным». Это означает, что таких контекстов достаточно много и употребление рассматриваемой единицы в них является общественно устоявшимся, закрепленным в языковом сознании и конвенциональном модусе. Слишком индивидуализированные, «окказиональные» контексты, как правило, квалифицируются как выразители не «лексических значений», а «смыслов». Итак, экстралингвистическое содержание лексической единицы приобретает двухипостасный характер, а именно: как «значение» и как «смысл».1 Таким образом, следует констатировать, что в формуле (1) подмножества Кі(х), і = 1, 2 .., N(х), вообще говоря, не полностью покрывают все множество контекстов К(х). Вместе и наряду с Кі(х) в языке и речи могут существовать и функционировать некие «исключительные» контексты, которые манифестируют смыслы, не сводимые к «стандартным» лексическим значениям, приписываемым контекстам Кі(х). Строго говоря, формулу (1) стоило бы переписать в таком виде: K ( x) = N (x) U K ( x) + Q( x); i (3) i =1 где Q(x) – множество «нестандартных» контекстов, в которых представлены смыслы, не сводящиеся к конвенциональным лексическим значениям, приписываемым контекстам Кі(х). Разбиение Кі(х) на две группы, представленные в формуле (3), а скорее существование (хотя бы и потенциальное) множества «смыслов» Q(x) является свидетельством семантической незамкнутости языковой системы и практически неограниченных выразительных возможностей языка. Как следствие изложенного констатируем, что контексты Q(x) являются «несловарными» и стандартно не лексикографируются. 1 Сравним, например, сказанное с определением значения и смысла, которые дает И.М.Кобозева [Лингвистическая семантика, – М.: КомКнига, 2007. – С. 13]: «Значение Х-а» – это информация, связываемая с Х-ом конвенционально, т.е. согласно общепринятым правилам использования Х-а в качестве средства передачи информации. Смысл Х-а для Y-а в Т – это информация, связываемая с Х-ом в сознании Y-а в период времени Т, когда Y производит или воспринимает Х в качестве средства передачи информации». ––– 227 ––– Отметим, что формулировка лексического значения lі(х) (или построение его словарной дефиниции) происходит уже на следующем – третьем этапе. А именно, здесь на основании анализа членов множества Кі(х) осуществляется категоризация элементов словарной дефиниции, их формализация и оформление дефиниции в виде, отвечающем концепции конкретного словаря и лексикографической традиции. Совокупность отмеченных этапов в основном и составляет процесс лексикографирования. Рассмотрим подробнее содержание этапов этого процесса. Как было сказано, первый этап заключается в формировании множества контекстов К(х) лексемы х, когда х пробегает класс слов определенного языка. Обозначим этот класс символом W, то есть х∈W. Считаем, что класс W содержит все слова данного языка. Их число будем считать конечным, но неограниченным. Конечность W совершенно понятна, ведь в противном случае мы должны были бы констатировать наличие среди членов W элементов бесконечной длины, что невозможно. В то же время W следует считать неограниченной совокупностью, поскольку в любой момент ее можно расширить путем добавления какого-то нового элемента. Для формирования множества К(х) необходимо иметь некое множество текстов (устных и/или письменных), которые были бы проиндексированы элементами х∈W. Такая индексация обеспечивает прямой доступ ко всем контекстам избранной лексемы х. Каждый конкретный контекст k(х), принадлежащий К(х): k(х)∈К(х), является текстом определенной длины, содержащим слово х. Длина k(х) должна быть достаточной для определения значения слова х. Как правило, эта длина ограничивается одним предложением, однако бывают случаи, когда одного предложения недостаточно. В лексических картотеках определение длины контекста составляло непростую проблему. В современных лингвистических корпусах длина контекстов не является постоянной величиной и может изменяться по желанию пользователя. Из формулы (2), в частности, следует, что все контексты из множества Кі(х) являются эквивалентными: kіr(х) ~ kіp(х), kіr(х) ∈ Кі(х); kіp(х) ∈ Кі(х), по отношению принадлежности к lі(х). Однако, в различных контекстах kіr(х), r = 1, 2, …, лексема х может приобретать разные грамматические значения. Поэтому, используя формализм ––– 228 ––– теории семантических состояний, можно представить дифференциальное семантическое состояние sіr(х) лексемы х в контексте kіr(х) в следующем виде: sіr(х) = gіr(х) lі(х), (4) где символом gіr(х) обозначено грамматическое состояние (формальная репрезентация грамматического значения) лексемы х в контексте kіr(х), а через lі(х) – лексическое состояние (формальная репрезентация лексического значения) лексемы х в этом же контексте. Очевидно, что изменение индекса r, то есть вариация грамматического значения лексемы х не влияет на ее лексическое значение. Это значит, что можно определить семантическое состояние лексемы х в виде взвешенной суммы: (5) si ( x) = ∑ α ri ( x) g ir ( x) li ( x), r где индекс r маркирует различные грамматические значения лексемы х, а веса αіr(х) выбраны так, что Σ αіr(х) = 1; αіr(х) ≥ 0. Сомножитель Σ αіr(х)gіr(х) в формуле (5) отвечает за вклад отдельных грамматических значений в семантическое состояние лексемы х. Заметим, что на данный момент нам неизвестны работы по дифференциальному исследованию вклада отдельных грамматических значений в общую семантику лексем. Формулу (4) можно обобщить с учетом взаимодействия грамматической и лексической семантики: sіr(х) = gіr(х) І (g; l; х) lі(х), (6) где член І (g; l; х) отвечает за взаимодействие между грамматической и лексической семантикой лексемы х в состоянии sіr(х). Рассмотрим отдельно случай, когда разные лексемы характеризуются единым комплексом лексических значений. Причем здесь речь идет о лексемах, не являющихся абсолютными синонимами, а варьирующих по определенному грамматическому признаку, который не может квалифицироваться как словоизменительный. Примеры такого типа достаточно распространены, в частности, в системе украинского глагола. Рассмотрим для иллюстрации словарную статью из 11-томного толкового Словаря украинского языка с заголовочным словом «Налаштовувати»: НАЛАШТÓВУВАТИ, ую, уєш, недок., НАЛАШТУВÁТИ, ýю, ýєш, док., що. 1. Готувати що-небудь або приводити до стану готовності. ––– 229 ––– Сакен почав налаштовувати парус з таким розрахунком, щоб поманити ще турків (С. Добровольський); – Не знаєте, чи хазяїн уже устали? – спитався він. – Казали, сьогодні кудись їхати, так щоб віз налаштувати (Панас Мирний); Уляна висипала з пелени квасолю і вже хотіла йти до хати, щоб налаштувати їжу кабанцеві (Григорій Тютюнник); // кого. Настроювати кого-небудь на певний лад, настрій і т. ін. Галина ж, ідучи сюди, налаштувала себе на звичайність, навіть мимохідність свого завітання (М. Олійник). 2. що, чого. Робити що-небудь придатним для роботи, користування і т. ін. – Під час вечері Мишуня налаштовував радіоприймача (Ю. Яновський); – Братчики, до гармат! – закричав Гулик. З ним було до десятка старих гармашів, які одразу ж кинулись до ворожих єдинорогів і почали налаштовувати їх до стрільби (С. Добровольський). Левая часть этой словарной статьи: НАЛАШТÓВУВАТИ, ую, уєш, недок., НАЛАШТУВÁТИ, ýю, ýєш, док. представлена видовой парой «налаштовувати» (глагол несовершенного вида) и «налаштувати» (глагол совершенного вида). Отмеченные глаголы, очевидно, принадлежат к разным глагольным словоизменительным клас-сам и имеют различные словоизменительные парадигмы. Следовательно, грамматическая семантика мотивирует принадлежность этих глаголов к разным «лексемам». Несмотря на это, они характеризуются общей системой лексических значений, что видно из лексикографической разработки приведенной словарной статьи. Таким образом, эти глаголы характеризуются одним полным семантическим состоянием: s( налаштовувати ) = ∑ β i si ( налаштовувати ), ∑ β i = 1, β i ≥ 0, (7) i i где si(налаштовувати) является семантическим состоянием, определенным формулой (5), в которой, однако, следует сделать некое уточнение, касающееся понятия «лексема». А именно, это понятие нужно обобщить на совокупность всех вариантов форм слова х, обладающих общим комплексом лексических значений. Итак, видим, что понятие семантического состояния является более общим, чем понятие грамматического и лексического значения. В украинском языке отмеченная вариативность может осуществляться посредством различных морфологических механизмов. Перечислим некоторые из них. Префиксальная вариация: а) вбік~убік, вбілений~убілений, вбогість~убогість, вболівати~уболівати, (фонетическая префиксальная вариация); ––– 230 ––– б) зглянутися~ізглянутися~зоглянутися; згарячу~ізгарячу; ззаду~іззаду, зобганий~зібганий; відбивати~одбивати (структурно-фонетическая префиксальная вариация); Корневая вариация: кмітити~кметити; кмітувати~кметувати; Суффиксальная вариация: а) устрінути~устріти (не приводит к изменению словоизменительного класса и вида глагола); б) БУЛЬКОТÁТИ (очý, óчеш) ~ БУЛЬКОТÍТИ (очý, отbш) – (приводит к изменению словоизменительного класса, но не изменяет вид глагола); в) ВИГОВÓРЮВАТИ (недок.) ~ ВUГОВОРИТИ (док.) – (изменяет вид глагола). Возможно также и комбинирование различных типов вариативности. Следовательно, вариативность, имеющая грамматическое происхождение, может быть типизирована и формально учтена в члене αіr(х)gіr(х) формулы (5) введением специального параметра t, с помощью которого осуществляется маркировка различных типов вариативности лексемы х, сохраняющих комплекс ее лексических значений: (8) ∑ ∑ α rti ( x t ) g irt ( x t ). r t В монографиях [1] для украинского глагола и, частично, для имени существительного построена формализованная теория типов вариативности, сохраняющая лексические значения. Причем для глагола удалось точно определить, перечислить и специфицировать все типы вариативности лексических единиц, для которых возможное сохранение полного комплекса лексических значений. В итоге формула семантического состояния лексемы с учетом описанной вариативности, не приводящей к изменению полного лексического значения, приобретает вид: (9) s( x) = ∑ β i ∑ ∑ α rti ( x t ) g irt ( x t )I ( g; l; x t )li ( x), r t i где коэффициенты bi интерпретируются как относительные веса (средние частоты), с которыми различные лексические значения lі(х), і = 1, 2 ., встречаются в множестве К(х). Параграфу, при формализованном описании лексических значений будем в основном следовать Ю.Д. Апресяну [6], который, ис- ––– 231 ––– пользуя семиотический подход Ч. Морриса [4] и его лингвистическую интерпретацию И.А. Мельчуком [5], предложил при определении лексических значений учитывать семантические, синтактические и прагматические аспекты. В нашем формализме через аппарат состояний это предложение может быть реализовано следующим образом: lі(х) = σі(х)Zі(х) + τі (х)Uі(х) + πі (х)Vі(х). (10) В последней формуле считаем, что Zі(х) представляет собственно семантические параметры единицы х в значении lі(х), Ui(х) – параметры синтактики, Vі(х) – параметры прагматики; σі(х), τі(х) и πі(х) являются числовыми коэффициентами, которые задают вклад (вес, амплитуду) семантических, синтактических и прагматических аспектов, соответственно, в лексическое значение lі(х), причем: σі(х) + τі (х) + πі (х) = 1; σі(х) ≥ 0; τі (х) ≥ 0; πі (х) ≥ 0. (11) Таким образом, полное семантическое состояние лексемы х приобретает вид: s( x) = ∑ β i ∑ ∑ α rti g irt ( x t )I ( g, l, x t )× r t i (12) ×[σ i ( x)Z i ( x) + τ i ( x)U i ( x) + π i ( x)Vi ( x)] где отдельные параметры определены формулами (3) – (11). Фиксируя значения этих параметров, получаем различные дифференциальные семантические состояния лексемы х. Заметим, что операции умножения и добавления элементов структуры семантических состояний в формулах (2) – (12) пока что имеют символический характер. Ведь мы на данном этапе не обладаем средствами для сопоставления этим элементам конкретных алгебраических структур, так что отмеченные формулы дают скорее интуитивное представление о конструкции семантических состояний, чем полностью «строгое» их определение. Но несмотря на это, анализ формулы (12) позволяет не только сопоставить семантическое состояние лексемы, соответствующей словарной статье толкового словаря, но и предоставляет достаточно хорошо формально определенные интерпретации соответствующих семантических характеристик. Из строения формулы (12) легко выводятся конструкции компьютерных моделей для семантических систем различного назначения. Многопараметричность данной формулы и содержатель- ––– 232 ––– ность ее компонентов демонстрирует гибкость и большие возможности относительно экспликации и детализации широкого круга лексико-грамматических и лексико-семантических эффектов. –––––––––––––––––––––––– ЛИТЕРАТУРА 1. В.А.Широков. Феноменологія лексикографічних систем. –К.: Наукова думка, 2004. – 328 с.; В.А.Широков. Елементи лексикографії. –К.: Довіра, 2005. – 304 с. 2. В.А.Широков та ін. Корпусна лінгвістика. –К.: Довіра, 2005. – 471 с. 3. В.А.Успенский. К определению падежа по А.Н.Колмогорову. Бюллетень Объединения по проблемам машинного перевода. – М.: [I МГПИИЯ], 1957. – № 5. – С. 11–18). 4. Ch. Morris. Signs, language and behaviour. N. Y., 1947. 5. И. А. Мельчук. Строение языковых знаков и возможные формальносмысловые отношения между ними. – Изв. АН СССР. Серия литературы и языка. – 1968. – Т. XXVII. – Вып. 5. 6. Апресян Ю. Д. Интегральное описание языка и системная лексикография. Избранные труды. –М.:, 1995. – Т. 2. ––– 233 –––