КроссЛексика: универсум связей между русскими словами Большаков Игорь Алексеевич доктор наук, профессор, лауреат Государственной премии СССР почетный профессор Национального политехнического института Мексики [email protected] За четверть века русский язык изменился Пополнилась лексика. Накапливавшиеся ранее разговорные слова и жаргонизмы выплеснулись на страницы изданий, в рекламу, на ТВ, в Интернет. Появилась масса новых заимствований, многие слова приобрели новый смысл. Изменился и пополнился состав словосочетаний, которыми, по формулировке И. Мельчука, только и говорит человек. Поляризовалась ситуация в отношении владения языком. Академические словари устарели а появившиеся крупные словари, например, Толковый словарь русского языка начала XXI века под ред. Г. Н. Скляревской Толковый словарь иноязычных слов Л. П. Крысина Компьютерные словари LINGVO успевают истолковывать словесные новации, но слабо отражают словосочетания Словари должны отражать любые межсловные связи: Высоко грамотные люди могут не сразу вспомнить, что иск вчиняют, католицизм практикуют, а релиз состоится. Людей с грамотностью пониже нужно уберечь от «некультурных» выражений: Примитивных: более лучше, очень прекрасный, играть значение... Более тонких: поединок команд, более оптимальный, нелицеприятный разговор, возвести баню, раскаяться о случившемся, болтнуть глупость, принести урон... Нужно учесть огромное число нормативных языково-специфичных словосочетаний типа фразеологических оборотов или лексических функций Мельчука. Границы со свободными словосочетаниями здесь зыбки и едва ли будут когда-либо уточнены. Нужно учесть также связи лексико-парадигматического и паронимического типа. Компьютеры позволяют отразить миллионы связей Межсловных связей в любом языке миллионы, и исчерпывающий подбор их недостижим, но в наиболее употребительно части задача разрешима благодаря современным компьютерам. В их памяти теперь умещаются тексты любого нужного объема. На их экране не обязательно повторять бумажный формат. Можно не придерживаться линейного построения словарей в виде последовательности статей, характеризующих смысл и грамматические категории заглавного слова, но указывающих связи с другими словами несистемным образом. Интерес к межсловным связям диктует иной, сетевой принцип построения словаря: вокабула включается в него только со всеми ее связями. Созданный нами сверхбольшой компьютерный словарь КроссЛексика удовлетворяет потребности практически всего спектра пользователей, будучи построенным по излагаемым далее принципам. Принципы построения КроссЛексики (1+2/8) Сетевой принцип: вокабула включается в словарь вместе со всеми обнаруженными на текущий момент ее связями. Без связей вокабул в языке не бывает. Декомпозиционный принцип: любое полнозначное слово или словосочетание, входящее в многословную вокабулу, является отдельной вокабулой. Примеры двухступенчатой декомпозиции: авиа- и железнодорожный транспорт = авиационный транспорт + железнодорожный транспорт; авиационный транспорт = авиационный + транспорт; железнодорожный транспорт = железнодорожный + транспорт; теория вероятностей и математическая статистика = теория вероятностей + математическая статистика теория вероятностей = теория + вероятности математическая статистика = математический + статистика Принципы построения КроссЛексики (3+4/8) Включение трех известных типов связей между вокабулами: Лексико-синтагматических (далее синтаксических в словосочетаниях) Лексико-парадигматических (далее семантических) Паронимических (т.е. внешнего сходства, буквенного или морфного). Учет языковой многоуровневости: кроме связей для каждой вокабулы дается ее морфологическая парадигма Принципы построения КроссЛексики (5/8) Всеохватность целевой аудитории, «от генерала до доярки»: Политематичность, т.е. покрытие большинства сфер использования языка, с включением как лингвистических, так и энциклопедических сведений. Суженная, но градуированная номенклатура помет, отражающих степень разговорности (стиля) и степень фигуральности. Служа рекомендациями и побудительными стимулами, наши пометы делают словарь как дескриптивным, так и прескриптивным. Сосуществование орфографических вариантов новых слов типа бренд и брэнд, плеер и плейер. Ненужность знания лингвистических терминов. Например, секция выдачи может именоваться Одноклассники вместо Когипонимы. Рациональные отступления от канона. Например, два вида глагола и два числа существительного считаются разными вокабулами. Принципы построения КроссЛексики (6+7+8/8) Встроенность в современный информационный мир: Двунаправленность, т.е. взаимодействие Отражение мировой языковой ситуации: англо-русский подсловарь позволяет обратиться к КЛ по-английски, узнать перевод русской вокабулы, идиоматично перевести английское словосочетание. Выбор внутри КЛ нужного запроса из миллионов, имеющихся в виде словосочетаний, и посылка его в Интернет. Наличие КЛ в Интернете в общем доступе (в перспективе). с пользователем-человеком – в диалоге и с внешней программой – по ее запросу. Сугубая компьютерность: Преимущества: неограниченный объем данных, мгновенный поиск ответов, исключение информационных противоречий, возможность использования цвета и даже звука. Недостатки: протяженный процесс устранения ошибок, в перспективе – потребность в службе ведения для постоянной правки и пополнения. Источники КроссЛексики Академические словари русского языка, десятки словарей по экономике, бизнесу, электронике, вычислительной технике, строительству и другим областям Поток новостей, политической, экономической и научной аналитики Интернет-портала газета.ру Десятки тысяч справок относительно слов и словосочетаний в Интернете (Google и Яндекс) Рекламные буклеты, различные объявления, спам, издания о знаменитостях, модах, туризме, автомобилях, быте Все найденное извлекалось, классифицировалось, размечалось и вводилось в компьютер. Работа началась в 1990 г. и шла в основном вручную. Параллельно писались программы морфоклассификации слов и структуризации словосочетаний, а также программы компьютерного интерфейса. Тематика КроссЛексики Экономика, финансы и бизнес Общественно-политическая сфера Техника и технологии Точные и естественные науки Гуманитарные и смежные сферы Медицина Спорт Кулинария Бытовой язык, включая обсценную лексику без мата Вокабулы относятся к четырем частям речи: Субстантивные: Глагольные в инфинитиве или личных формах: Одиночный глагол: говорить, идти, обсуждать, спать, ругать... Глагольный оборот: навести страх, оказывать внимание, испытать ужас Адъективные: Отдельное существительное: абажур, битва, бифштекс, благо, блины... Именное словосочетание: алкогольные напитки, ближнее зарубежье, сельское хозяйство, точка зрения, уровень жизни, экономический рост... Отдельное прилагательное: абстрактный, авансовый, автономный, авантюрный, беж, воздушно-реактивный... Отдельное причастие: задвинутый, мытый, перевезенный, желающий... Адъективный оборот: бросающийся в глаза, хорошо одетый, бойцовской породы, бывший в употреблении, в елочку, как бархат... Адвербиальные: Отдельное наречие: абсолютно, абстрактно, адски, аляповато, быстро... Отдельное деепричастие: базируясь, надев, торопясь, шепча... Адвербиальный оборот: аккуратным образом, более или менее, как выжатый лимон, в особой степени, куда попало, мелкой дрожью... Глобальная структура КроссЛексики: Гигантская матрица {Cловник x Cловник} Словник о т в е т ы t1 t2 t3 з t4 а п р о ti с ы tn t1 t2 t3 t4 tj tn Дескриптор связи ti→tj Полная выдача для ti Элементы матрицы – дескрипторы связи между запрошенной ti и ответной вокабулой tj i, j = 1, ..., 300000+ Связи ограничены языком и реалиями внешнего мира. Из 90 миллиардов ячеек матрицы непуста лишь каждая 10900-я. Словосочетания Словосочетание – это совокупность двух полнозначных вокабул, синтаксически связанных и устойчиво совместимых по смыслу Словосочетания бывают частотными и редкими, свободными и фразеологическими, включают любые предикативы В синтаксической связи между двумя полнозначными вокабулами может стоять служебное слово, предлог или сочинительный союз и / или / да: полнозн. слово1 →(служебное слово)→ полнозн. слово2 сотрудничество → ради → мира Каждое словосочетание доступно с двух сторон, так что число односторонних связей превышает вдвое число словосочетаний Типы многочисленных словосочетаний (сотни тысяч) (1/2) Определительная пара существительное – прилагательное: краснокочанная капуста, явный наглец, полная ясность… Глагол – его прямое / косвенное / предложное дополнение-существительное (включая ходовые обстоятельства): рассмотреть вопрос, ковырять в носу, остаться из-за погоды, купить на рынке, отличаться сдержанностью... Причастие / прилагательное – его прямое / косвенное / предложное дополнение-существительное (включая ходовые обстоятельства): рассмотревший вопрос, ковырявший в носу, оставшийся из-за погоды, красный от гнева, купленный на рынке, отличающийся нравом,... Определительная пара глагол / прилагательное / наречие – наречие: резко высказаться, полностью ясный, ужасно страшно... Типы многочисленных словосочетаний (сотни тысяч) (2/2) Подлежащее-существительное – сказуемое в виде личной формы глагола или краткого адъектива: самолет вылетел, внимание (было / будет) привлечено, доклад (был / будет) краток, враг напал, глазки бегают, категоричность смущает, детсад закрылся ... Существительное – подчиненное ему существительное: сердце матери, наложение взыскания, отличия в произношении, борьба против терроризма… Деепричастие / наречие – его прямое / косвенное / предложное дополнение-существительное: рассмотрев вопрос, ковыряя в носу, оставшись из-за погоды, купив на рынке, отличаясь сдержанностью, близко от города,... Некоторые типы малочисленных словосочетаний (десятки или единицы тысяч) Устойчивые сочиненные пары: автобусы и троллейбусы, ясный и четкий, экономический и культурный, быть или не быть, взвесить и решить, власть и бизнес, в срок и в полном объеме, базы и склады, наука и техника, авиа- и железнодорожный транспорт... Глагол – его инфинитивное дополнение: собраться поехать, мечтать выкупаться, хотеть перекусить... Существительное – его инфинитивное дополнение: соблазн сказать, желание уйти, проблема выжить... Прилагательное / причастие – его инфинитивное дополнение: готовый действовать, желающий начать, агитирующий голосовать... Семантические связи Самые многочисленные: Синонимы: 22.1 тыс. синонимических групп по 5.4 элементов Семантические дериваты: 4.2 тыс. групп по 14.6 элементов. Простой пример группы СД: { извлечение; извлекать, извлечь; извлеченный, извлекающий, извлекший; извлекая, по извлечении, путем извлечения } ↑ Здесь встречаются элементы канонических морфопарадигм ↑ ↑ и дается основное множество энциклопедических сведений ↑ Менее многочисленные: Когипонимы. Пример: мясо – вырезка, грудинка, гуляш, котлеты, фарш… Ассоциации. Пример: аденоиды – аллергия, бассейн, гланды, гомеопатия, кашель, лазеротерапия, миндалины, слух… Меронимы / холонимы Гипонимы / гиперонимы Антонимы Все указанные связи хорошо известны, кроме ассоциаций. Они извлекаются из сочиненных пар в запросах к Рунету и в его базе данных. Вокабулы с наибольшим числом ассоциаций в Рунете 558 264 257 172 143 136 131 127 беременность здоровье алкоголь спорт диабет диета цены мужчины 125 122 121 121 120 117 112 104 человек любовь бизнес курение дети культура1 похудение религия Использование семантических связей СемСы помогают понять смысл вокабул. Примеры: Synonym (граффити) = настенная живопись Synonym (графт) = трансплантат Synonym (халяльный) = отвечающий мусульманским нормам Hyperonym (эндометриоз) = акушерско-гинекологическая болезнь СемСы помогают построить словосочетания, в КЛ отсутствующие. Пример: (Hyperonym(каллы) = цветы) & (букет цветов) → (букет калл) СемСы отражают также многочисленные энциклопедические сведения Энциклопедические сведения Названия геообъектов: континентов, океанов, морей, горных цепей… Названия крупнейших городов мира в привязке к странам Сведения о 60 иностранных государствах (по 20 ведущим – более подробные) Названия и другие сведения о десятках городов и регионов России Около 300 наиболее частых русских имен вместе с их диминутивами Имена ряда известных политических, деловых, научных и культурных деятелей мира Названия ряда крупных организаций и корпораций мира Названия ряда известных художественных произведений мира Терминология точных, естественных и гуманитарных наук, медицинская терминология Пометы степени разговорности (стиля) нет пометы; Хорошо бы знать и уметь употреблять это слово или выражение: стена, окно, книга, налоги, роуминг... ● Cпециальное, книжное или забытое слово или выражение; пользуйтесь им, когда не боитесь быть непонятым: абсцесс, парадигма, экзистенциальный, афедрон... ● Чисто разговорное слово или выражение; не пользуйтесь им в официальных документах: башка, мотать нервы, жевать сопли, мочить в сортире... ● Обсценное слово или выражение; не пользуйтесь им при дамах, детях и в официальной обстановке: говно, жопа, засранец, мудак, взять за яйца... ● Выражение встречается, но смысл его правильнее передавать иначе: оплатить за проезд, болтнуть глупость, пошить пальто знак на экране выдачи Пометы фигуральности (идиоматичности) нет пометы – понимается как есть (идти в школу, вызвать слесаря) (fig) – понимается только фигурально (идиоматически) (сесть в галошу, висеть на волоске) (mb fig) – понимается либо фигурально, либо в прямом смысле (сесть в лужу, первая ракетка) знак на экране выдачи Приложения КроссЛексики (1/3) Диалоговое (интерактивное) приложение: пользователь вводит запрос и использует выдачу для углубленного изучения русского языка или для параллельного редактирования текста. При этом ему доступны: лингвистические справки, энциклопедические справки. Предпосылка: Пассивное знание языка у многих заметно шире активно используемых языковых средств. Если показать, как можно выразить ту же мысль иначе, пользователь легко найдет более подходящий вариант. Приложения КроссЛексики (2+3/3) Интерфейсное приложение: с помощью КЛ пользователь формирует запрос к Интернету, обращается к нему прямо из КЛ и получает результаты поиска. Недиалоговые приложения: внешняя программа обращается к словарю через специальную утилиту КЛ и использует выдачу самостоятельно. Примеры: Автоматическое обнаружение и исправление смысловых ошибок типа истерический центр или неутомимый голод Разрешение неоднозначности омонимов по контекту Лексическая фильтрация результатов синтаксического разбора Стеганография и стеганализ... Сами внешние программы в КЛ не входят и разрабатываются отдельно. Примеры лингвистических справок Как можно выразиться глаголом о плате за проезд? – оплатить / оплачивать проезд либо платить / заплатить за проезд (проплатить проезд и оплатить за проезд тоже включены, но снабжены пометами разговорности ● и запрета ● соответственно) Как «запустить» иск? – Можно внести / возбудить / вчинить / подать / предъявить иск, а также обратиться с иском. Как еще можно назвать бразильских женщин? – бразильянки. А как иракских женщин? – Да никак иначе! (Но иракец, иракцы среди семантических дериватов есть) Что это за сокращение РФФИ? – Российский фонд федерального имущества – Российский фонд фундаментальных исследований Различение паронимов вероятный ЯВЛЯЕТСЯ ОПРЕДЕЛЕНИЕМ ДЛЯ: вероятностный ЯВЛЯЕТСЯ ОПРЕДЕЛЕНИЕМ ДЛЯ: адрес альтернатива вариант версия визит встреча выбор гипотеза запасы изменение ......... автомат алгоритм анализ анализатор аспекты вывод задача идеи контроль логика ......... Различение омонимов (омографов) доменный1 доменный2 ЯВЛЯЕТСЯ ОПРЕДЕЛЕНИЕМ ДЛЯ: ЯВЛЯЕТСЯ ОПРЕДЕЛЕНИЕМ ДЛЯ: адрес аукцион бизнес границы зона имена карта контроллер новости протокол регистрация ......... воздухонагреватель газы кокс конструкция мастера печи подъемник производство процесс стенки ......... Предварительный выбор версии КЛ Русская научная: Все меню, толкования омонимов и вспомогательная информация даются по-русски, разделы выдачи именуются научными терминами, напр., Синонимы, Гиперонимы, Когипонимы Русская народная: Все вышеуказанное дается по-русски, но разделы выдачи именуются проще, напр., Сходные по смыслу, Надклассы, Одноклассники Английская научная: Все вышеуказанное дается поанглийски, разделы выдачи именуются по-научному, напр., Synonyms, Hyperonyms, Co-hyponyms Английская народная: Все вышеуказанное дается поанглийски, разделы выдачи именуются проще, напр., Related in Meaning, Superclasses, Classmates Опции пользователя в процессе работы Выбор алфавитного порядка выдачи определительных словосочетаний либо частотного порядка (коллокаты, наиболее многочисленные в КЛ, проследуют в начале) Установка порога отсечения словосочетаний с малочисленными коллокатами Факультативная отмена выдачи на экран обсценной, разговорной и/или специальной лексики вместе с соответствующими словосочетаниями Ввод очередного запроса одним из пяти способов: с клавиатуры выбором строки в словнике выбором строки на экране текущей выдачи (этим совершается очередной шаг навигации по КЛ) шагом вперед или назад по списку История вводом английского слова с дальнейшим выбором варианта среди выданных на экран русских переводов Одноименными зонами выдачи КЛ формируются: Уникальные подсловари Словарь словосочетаний Словарь моделей управления Словарь синонимов Словарь антонимов Словарь морфемных паронимов Словарь буквенных паронимов Словарь смысловых ассоциаций у пользователей Рунета Словарь морфопарадигм Словарь семантических дериватов Двусторонний переводной словарь Развернутые списки Фразем Персоналий, организаций, групп, худож. произведений Геообъектов Аббревиатур Омонимов Гипонимов, гиперонимов, когипонимов Холонимов / меронимов Побочный продукт КроссЛексики: Перевод английских коллокаций на русский Совокупность переводов русских вокабул оказалась достаточной для правильного перевода множества английских коллокаций на русский. Примеры: green meadow – 1 перевод social strata – 2 перевода strong woman – 3 перевода important circumstance – 5 переводов significant changes – 9 переводов Глобальные параметры на 06.2014 Суммарный объем выдачи 12 тыс. авт. листов (примерно в 65 раза больше словаря Даля) Вокабул Существительных Глаголов Прилагательных Наречий Связей между 305 тыс. 46% 13% 24% 16% Иные подробности: 8.54 млн. Синтаксических 4.79 млн. Семантических 2.89 млн. Паронимических 0.85 млн. Морфопарадигм 305 тыс. (по числу вокабул) Cочиненных пар 52 тыс. (все входят в словник) Омонимических групп 2.5 тыс. (5.7 тыс. разных смыслов) Предлогов 700 Склеек типа филфак 4.2 тыс. Пример выдачи: вокабула хирургия Пример выдачи: вокабула зад‘часть тела’ Платформы реализации (история до июня 2014) Десктоп, OS Windows NT (1995) Десктоп, OS Windows XP (2003) Ноутбук, OS Windows 7 (2012) Планшет, OS Windows 8.1 (2014) Смартфон, OS Windows Phone – планируется на 2015 Несколько сравнений Словарь сочетаемости слов русского языка (ред. П. Н. Денисов и В. В. Морковкин, 1983): Oxford Collocation Dictionary for students of English (Oxford, 2009): 270 тыс. русских словосочетаний 2.5 тыс. слов 250 тыс. английских словосочетаний 9 тыс. слов КроссЛексика (2014): 2.4 млн. русских словосочетаний 115 тыс. вокабул в словосочетаниях Спасибо за внимание! Вопросы, если возникли, отложим до после демонстрации словаря в действии?