Лингвистически ориентированный поиск в интернете Владимир Иванович Беликов (МГУ и РГГУ) Летняя лингвистическая школа 2013 Лингвистически ориентированный поиск в интернете, но речь пойдет практически только о лексике, хотя и о грамматике в интернете можно найти нечто занятное. Общий план: • некоторые важные общие понятия; • инструментарий, применяемый для поиска, связанного с языком: • что можно узнать про русский язык, если аккуратно пользоваться полезным инструментарием. Важные понятия: узус, норма, кодификация • Узус — фактическое словоупотребление: звóнит~звонúт, воры́~вóры. • Норма — социально одобренное, напр., в уголовном мире: воры́. • Кодификация — норма, фиксируемая словарем (или иным изданием справочного характера). Кодификация характерна для литературного языка (в частности, кодифицировано звонúт, вóры), а также для различных терминосистем. Исходные положения: норма существует объективно, кодификация субъективна В. А. Ицкович (Очерки синтаксической нормы, 1982): Норма это «комплекс закрепленных речевой практикой языковых средств и закономерностей их реализации», объективно существующих «в данное время в данном языковом коллективе». «Имплицитно норма выступает в виде образца или, точнее, текстов, считаемых образцовыми» «Кодификация — это фиксация объективно существующей языковой нормы, сформулированная в виде правил (предписаний)». Исходные положения: (литературная) норма социально разнородна Норма — то, как говорят те, чей язык считается образцовым «в данное время в данном языковом коллективе». В «языковой коллектив» объединяются лица со сходными социальными (любыми небиологическими) характеристиками. Мотивированность отдельных социальных характеристик индивида может быть: биологической • возраст, • гендер и пространственной, поскольку территориальные сообщества представляют собой иерархически упорядоченные социальные организмы. Что охвачено кодификацией: • Правописание (орфография и пунктуация); • Орфоэпия; • Морфология; • Синтаксис; • Словарь. Шрифтовое выделение отражает степень кодифицированности (и кодифицируемости). Я буду говорить о блогосфере как источнике знаний о лексической норме (не только литературной). Но начну с того, что и как кодификацировано толковыми словарями На периферии словаря кодификация часто ненормативна Создатели толковых словарей «ориентируются в первую очередь на собственный узус, во вторую — на узус своего круга, но лишь настолько, насколько этот узус пассивно знаком самим лексикографам» [В. И. Беликов. Стереотипы в понимании литературной нормы] В результате кодификация может существенно отставать от состояния нормы, заведомо ей не соответствовать, быть неполной или ошибочной. 1 сорт: (1) лопаточная часть; (2) спинная часть (корейка); (5) грудинка; (3) поясничная часть с пашиной; (4) окорок; 2 сорт: (7) р у л ь к а; (8) г о л я ш к а; (6) баки с шейным зарезом. (ГОСТ 7597-55 Взамен ОСТ НКПП и НКВТ 8474/24) 1955 год! Этот ГОСТ действует, но в новой редакции, без баков. В словарях: голяшка второй сорт? рулька — еще ниже? • Ушаков: голяшка: нет слова, рулька: нет слова. • 17-БАС (т. 3 1954, т. 12, 1961): голяшка: нет слова, рулька: нет слова. • МАС: рулька: нет слова. голяшка Прост. и обл. То же, что голень. Мне холодно, ноги мерзнут в валенках, и голяшки мои щиплет и обжигает огнем. Гладков, Повесть о детстве. • БТС: рулька: нет слова. голяшка Разг. 1. =Голень. ‹…› 2. Нижняя часть ноги животного. • Шведова (2007): голяшка: нет слова, рулька: нет слова. • Новый БАС: рулька — ? [том не вышел]. голяшка [т. 4, 2006] 1. Прост. То же, что голень ‹…› 2. Разг. Нижняя часть ноги животного ‹…› 3. Прост. Голенище ‹…›. Где здесь камыш ? Phragmites australis Шведова 2007 Typha latifolia Scirpus lacustris Большой толковый словарь (gramota.ru) Водяное или болотное злако- Водяное или болотное злаковое растение с вое растение с коленчатым пустотелым или губчатым коленчатым твёрдым стволом. стволом. Многолетняя высокая болотная трава, копьевидный тростник [сем. рогозовых]. Водное или болотное травянистое растение (используется как корм, строительный материал, для производства бумаги и плетёных изделий) [сем. рогозовых]. Высокое водное или болотное растение сем. осоковых. Высокое травянистое растение сем. осоковых, растущее по берегам рек, озёр, на болотах «Толковый словарь русского языка» Н. Ю. Шведовой (2007): ● белорыбица: ‘северная промысловая рыба сем. сиговых с серебристой блестящей чешуей’. ● нельма: ‘крупная северная рыба сем. лососевых’. Stenodus leucichthys, белорыбица = нельма БТС: НЕЛЬМА, -ы; ж. Ценная промысловая рыба северных рек и морей сем. лососевых. БЕЛОРЫБИЦА, -ы; ж. только ед. (???) Ценная промысловая рыба сем. лососевых с серебристым телом и белым брюхом. Пометы при единицах словаря — тоже элемент кодификации. В МАСе есть три слова для обозначения пихтового леса: пихтовник (без помет) пихтарник (разг.) пихтач (прост.) В базе СМИ «Интегрум» есть 37 номеров этого журнала «Лесное хозяйство» за 2002—2008 пихтовник — не встречается пихтарник — 14 текстов пихтач — 4 текста пихтарник и пихтач — 1 текст Это профессиональная норма. С региональной нормой в местах произрастания пихты чуть сложнее. В 2011 г. выходит 16 том нового «Большого академического словаря», противоречащие норме пометы сохраняются. Какого рода слова • мацони? • медресе? Может быть, то что описано в грамматиках, смотреть надо там, а не в словарях? В академической грамматике читаем: «Некоторые несклоняемые существительные, оканчивающиеся на гласную и называющие неодушевленные предметы, относятся к жен. р., например: ‹…› мацони ‘простокваша’, медресе ‘мусульманская духовная школа’ ‹…› очевидно, под влиянием грамматического рода (соответственно) слов: ‹…› простокваша, школа» [Грамматика-80, т. 1, стр. 469]. Оба слова достаточно редкие, но в тех словарях последних десятилетий, куда они попали (толковых, иностранных слов, орфографических, орфоэпических) медресе маркируется только средним родом, мацони — либо средним и женским, либо только средним. Мацони — не более простокваша, чем кефир: и то, и другое, и третье — сквашенное молоко (средний род!) или же кисломолочный продукт (мужской род!), а медресе с неменьшим успехом оказывается духовным училищем. Перехожу к основной части: лингвистически ориентированному поиску. Статистикой, полученной в интернете, я пользуюсь давно и достаточно давно пишу об этом (впервые — в Yandex как лексикографический инструмент, Диалог-2004) Занятие это не хитрое и достаточно распространенное. Но даже Богу молиться следует аккуратно, дабы не нанести себе серьезных увечий. Распространенный метод интернет-статистики — получить некие числа, погуглив в интернете. (Узус таков, что Яндексом тоже гуглят.) Выраженный в числах результат измерений имеет размерность: вольты, ватты, узлы, кубические сажени, четверти ведра, дюймы и т. п. В чем измеряется выдача Гугла и Яндекса? Типичное утверждение любителя интернет-статистики: Например, написание Таллинн встречается в Интернете 6 млн раз, а Таллин 4 млн раз, употребление предложно-падежной словоформы в Украине использовано на 62 млн страниц Интернета, а словоформа на Украине употреблена на 60 млн страниц. Написание Кыргызстан использовано 6 млн, а Киргизия — 10 млн раз. С. А. Кузнецов, Языковая норма и правила речевой деятельности // Комментарий к Федеральному закону «О государственном языке Российской Федерации». Часть 1. Доктринальный и нормативно-правовой комментарий, стр. 32. При запросе "Украину" должны находиться тексты типа Люблю Украину, инвестировать в Украину, волнуюсь за Украину, еду на Украину, подкоп под Украину через Тузлу и прочее. Всего "Украину" «нашлось на 136 млн страниц»: Любители высказывания «… встречается в Интернете … млн раз» легко решат уравнение: 321+310+x = 136. (я не решал — жалко времени на интерпретацию) «Ну, подумаешь, Яндекс… Вот Google…» Таллинн погугленный (начало 2010 г.) в деталях таков: Таллинн без кавычек: 2 млн 40 тыс. страниц. Поиск по отдельным словоформам: Таллинн 192000 Таллинны Таллинна 264000 Таллиннов Таллинну 146000 Таллиннам Таллинном 98700 Таллиннах Таллинне 396000 Таллиннами всего ед. ч.: 1096700 всего мн. ч. 785 71 36 39 34 965 (скриншоты имеются) Итого: совокупно на другие словоформы ед. и мн. числа, а также на словоформы двойственного и других чисел, не омонимичные просмотренным: 2040000–1097665=942335. (Поскольку в текстах про Таллинн он упоминается в разных падежах, многие документы встречаются в двух и более выдачах, так что документов с неэкзотическими словоформами должно быть сильно меньше миллиона, соответственно, в большинстве текстов Таллинн должен встречаться в формах типа Таллиннаай, Таллинныюхх и других похожих. В следующей таблице приведены данные одиннадцати поисков про Украину: А "на украину" Б "в украину" В "украину" Поиск от 12.08.2011 в Угловке Новгородской обл. 1 без ограничения региона 310 млн 321 млн 136 млн Поиск от 14.03.2013 в Петербурге 2 3 без ограничения региона ✓в Санкт-Петербурге 138 тыс. 951 тыс. 196 тыс. 2 млн 3 млн 2 млн Поиск от 15.03.2013 в Москве 4 5 без ограничения региона ✓в Москве 4 млн 3 млн 14 млн 6 млн 5 млн 69 млн Поиск от 23.06.2013 в Угловке Новгородской обл. 6 7 8 9 10 11 без ограничения региона ✓в Москве ✓в Санкт-Петербурге ✓в Великом Новгороде ✓в Окуловке по релев. ✓в Окуловке по дате [забыл сделать] 3 млн 948 тыс. 278 тыс 3 тыс. 13 тыс. 16 млн 5 млн 2 млн. 492 тыс. 3 тыс. 10 тыс. 5 млн 86 млн. 28 млн. 736 тыс. 967 отв. 3 тыс. Четыре вопроса: 1. Каких текстов должно быть больше: Украина && блок или Украина & блок? 2. В каком случае число таких текстов будет одинаково? 3. Как вы оцените долю текстов Украина & блок? 4. Что выдается на запрос Украина блок? ввв Эти результаты надо согласовать со следующими: • ммм Можно строить не только Новую арифметику, но и Новую теорию множеств на новой аксиоматике. Осталось только придумать эти науки. Тупое гугление никогда не приводит ни к каким осмысленным результатам. Прежде, чем переходить к действительно полезному инструментарию, о том, с которым работать следует осторожно. Но сначала один важный экскурс. Экскурс в частотные словари одежда рубашка ботинок костюм галстук водка война Штейнфельдт 1963 (на 1 млн словоупотр.) 60 67,5 52,5 105 95 45 355 Засорина 1977 49 53 24 49 21 88 825 М. А. Кронгауз в статье «Мем в русскоязычном Интернете: опыт деконструкции» («Русский язык как глобальный ресурс и новые технологии», изд. НЛО, в печати), основываясь на данных Пульса блогосферы, о выражении йа криветко делает такой вывод: «Всплеск популярности мема приходится на 2007—2008 гг., а со второй половины 2009 г. начинается спад». Вот в разумном масштабе интересный фрагмент. Видно, что "йа креведко" (синим) в феврале 2009 чуть меньше, чем йа криветко в феврале 2007. А за два следующих года, к февралю 2011, йа креведко уменьшилось почти втрое. Посмотрим, каково общее число записей, в которых авторы ассоциирует себя с теми гадами морскими, которые современная систематика относит к инфраотряду Caridea. Но кроме абсолютных цифр нужен эталон для сравнения. Мем представляется целесообразным сравнивать с другим мемом, причем функционирующим в той же социальной среде. Так что Ленин — гриб, не очень подходит, а Превед Медвед — вполне годится. Эволюция числа записей, содержащих эти два мема, выглядит следующим образом: февраль 2007: йа криветко — 170, Превед Медвед — 289. февраль 2009: йа креведко — 225, Превед Медвед — 273. февраль 2011: йа креведко — 535, Превед Медвед — 423. За 4 года число креведок обогнало тех, кто передает превед, хотя выросло по меркам блогосферы незначительно, в три с небольшим раза. Среди тех, чьи интересы сконцентрированы на политике, паранауке или настоящей науке, любителей зваться креведками не много. С февраля 2007 по февраль 2011 рост популярности в этих сферах был таков: "сказал Путин": рост в 4,3 раза; Новая хронология: рост в 6,0 раза; Кронгауз: рост в 35 раз. Вот теперь понятно, кто виноват в том, что в интерпретации Пульса блогосферы «со второй половины 2009 гг. начинается спад» популярности мема йа криветко. Собираясь пользоваться НКРЯ, стоит и его потестировать. Каждый знает, какого рода сингулятив от слова кроссовки. Но каждый знает по-своему. Какой род должен встречаться в НКРЯ чаще? Логика Ясна? Попробуем воспользоваться корпусом со снятой омонимией. Там во всех текстах все вхождения только во множественном числе. Результаты поиска невелики, но ошеломительны. При поиске на оба варианта ед. числа текст Аксенова не находится! Что можно извлечь из оцифрованных текстов при аккуратной с ними работе? Как говорилось, норма имеет три измерения: • возрастное, • гендерное, • пространственное. Начту с возрастного. Полных лет на 7.07.2013 12—19 20—24 25—29 30—34 35—39 40—44 45—49 50—69 "кроссовком" "кроссовкой" 44 122 123 83 50 19 11 6 3 37 51 44 32 16 10 13 Доля муж. рода, % 94 77 71 65 61 54 52 32 Верифицируем следующее высказывание: «Молодые преподаватели слово хворать квалифицируют как просторечное, а приболеть — как разговорное. Преподаватели старшего поколения иногда с категоричностью выступают против приболеть, отстаивая литературный эквивалент захворать, также хворать» [А. Н. Еремин Основания определения сущности и границ просторечия // Наше слово. К 80-летию профессора В. Д. Бондалетова. М.: Элпис, 2009] Результаты поисков по запросам "я приболел" | "я приболела" и "захворал" | "захворала": Все блоги на 25.10.2012 10—19 лет приболеть захворать приб. / захв. 452 128 3,5 20—23 лет 869 235 3,7 24—28 лет 892 535 1,7 28—34 лет 524 488 1,1 35—39 лет 232 256 0,9 40—44 лет 101 177 0,6 45—49 лет 65 70 0,9 50—59 лет 58 98 0,6 60—69 лет 14 34 0,4 Смена формы жаргонизма: Все блоги на 23.10.2012 10—19 лет "без балды" "без булды" балд/булд 24 0 … 20—29 лет 205 4 51,3 30—39 лет 613 17 30,1 40—49 лет 308 20 15,4 50—59 лет 101 13 7,8 60—69 лет 18 5 3,6 Изменение в литературной фразеологии: Статистика за 2001 — май 2012 на 2.08.2012 … маленькая тележка" 13―21 года 23—29 года 31―39 лет 40―49 лет 50—69 лет "воз и… "вагон и… вагон/воз 17 127 173 68 42 201 895 959 347 80 11,8 7,0 5,5 5,1 1,9 Региональная специфика. Загадочное распределение загадочных слов: Блоги по сент. 2012 г. Москва Ижевск Одесса Петербург мульда пухто альтфатер 110 23 9 35 45 0 0 171 115 0 78 9 В 3 изд. «Большой советской энциклопедии» сообщается, что: • контр-адмирал В. М.Альтфатер «Родился в дворянской семье ‹…› перешел на сторону Советской власти, участвовал в мирных переговорах в Бресте ‹…› Сыграл видную роль в создании советского ВМФ и обороне Петрограда». • Мульда — «в сталеплавильном производстве — стальная, обычно литая коробка для загрузки шихты». • Про пухто ничего не сообщается. В Решении Городской Думы г. Ижевска «Об утверждении Правил обеспечения чистоты и порядка на территории застройки индивидуальными домовладениями г. Ижевска» от 31.10.2002 говорится: Совместно с председателями уличных комитетов определить и согласовать с Центром Госсанэпиднадзора места расположения мульд и график вывоза бытовых отходов; маршрут движения и место сбора бытовых отходов. Существует «Приказ» (стоило бы использовать скорее слово распоряжение) территориального управления Василеостровского административного района СанктПетербурга от 25.07.2002, который озаглавлен так: О проведении конкурсов путем запроса ценовых котировок по выбору поставщиков компьютеров и разработчиков электронных слоев (уборочных территорий, размещения пухто, свалок и урн) для нужд территориального управления. Из Одессы я никакого официального документа не нашел, ограничусь газетной цитатой: • По полутемным улицам мимо ярко освещенных окон особняков чиновников нового президента идут от альтфатера к альтфатеру стройные колонны осчастливленных новой пенсией украинцев. Их обгоняют веселые ватаги бездомных ребятишек — как же не радоваться, ведь молодость и скорость берут свое: они могут урвать лучший кусок из общественного альтфатера! («Юг», Одесса; 18.11.2004) Региональное распространение диалектной по происхождению лексики По данным «Словаря русских народных говоров» красноголовик ‘подосиновик’ фиксируется в Архангельской, Псковской, Тверской, Новгородской, Владимирской, Костромской, Московской областях и на Среднем Урале. В современном городском узусе для запада этого ареала слово совершенно не характерно. Блоги по сентябрь 2012 Запад ареала СРНГ (Псковск., Тверск., Новг., Влад., Костр. обл.) Архангельская область Коми Вологодская область Нижегородская область Удмуртия Кировская область Свердловская область Пермский край «Южный Урал» (Башкирия, Челяб., Оренб., Кург. обл.) Тюменская обл. с округами Сибирь подосиновик 138 красноголовик 8 красн. от подос., % 5,8 25 25 43 125 19 20 121 77 202 12 20 7 13 3 12 37 72 12 48,0 80,0 16,3 10,4 15,8 60,0 30,6 93,5 5,9 87 360 26 10 29,9 2,8 (Красным выделены ареалы сельских диалектов по СРНГ) Мы не можем ждать милостей от природы, взять их у нее — наша задача (Мичурин) У природы не только берем, но возвращаем с процентами. Гриб сумзик — эндемик Свердловской области. Фотография Михаила Гимадиева из серии "Промзона". [foto1uralsk.livejournal.com/74638.html?thread=16526] Свердловская область: подосиновик: 121 красноголовик: 37 сумзик: 6 Сумзики зародились в окрестностях г. Ревды, где находится Среднеуральский медеплавильный завод. Возможно, правильно писать СУМЗик; по содержанию меди на переплавку этот гриб не годится, но и потреблению не подлежит, поскольку представляет серьезную угрозу здоровью. Уколы делают или ставят? Результаты запросов (сделать | делать) /2 укол и (ставить | поставить) /2 укол: Блоги по авг. 2012 Кир., Нижег., Ульян., Самар., Пенз., Сарат. обл., Марий Эл, Мордовия, Чувашия Башкортостан, Татарстан, Оренб. обл. Удмуртия, Пермский кр. Уральский окр. Сибирь ( с 04.2009) Дальний Восток (с 04.2010) Казахстан (с 11.2011) Санкт-Петербург(с 04.2011) Сев.-Зап. без СПб (с 04.2011) Юг (с 02.2011) Украина (с 07.2011) Белоруссия делать 1608 1148 1132 799 999 910 668 310 933 973 1000 ставить ставить к делать 170 146 1202 997 685 544 124 39 100 137 72 0,11 0,13 1,06 1,25 0,69 0,60 0,19 0,13 0,11 0,14 0,07 В печатной продукции региональная специфика иногда проявляется ярче, чем в блогосфере. Вот материалы газет (база СМИ «Интегрум», начало августа 2007 г.): Укол… Запад — юго-запад Республика Коми Кировская обл. Татарстан Башкирия Оренбургская обл. Восток Ижевск Пермская обл. Свердловская обл. Челябинская обл. Курган делать 311 35 39 99 55 83 285 13 91 53 110 18 ставить 6 0 0 2 1 3 295 27 91 83 75 19 Данные СМИ по ареалу ставить уколы: Зап. и юго-зап. соседи Основной регион: Прикамье, Урал, Сибирь, Якутия Южная периферия: Казахстан Восточная периферия: Дальний Восток делать ставить ставить к делать 311 6 0,02 772 828 1,07 83 17 0,20 253 54 0,21 Oper от (кассовый) чек в официальных судебных документах проби (ва)ть 216 выби (ва)ть 14 отби (ва)ть 0 270 30 0 41 13 64 16 5 42 17-й Арбитр. апелл. суд (Пермь) 25 5 8 3 22 39 18-й Арбитр. апелл. суд (Челябинск) 53 21 7 Документы арбитражных судов в базе «Интегрум» по январь 2010 г. ФАС Московского округа ФАС Северо-Западного округа ФАС Уральского округа в том числе дела из: Удмуртии, Пермского края, Свердловской обл. Башкортостана, Курганской, Оренбургской, Челябинской обл. Неожиданная гендерная статистика "как волка не корми" | "как волка ни корми" "доброму вору все впору" | "доброму вору все в пору" "муж в Тверь жена в дверь" "дорого яичко к Христову дню" "стыд не дым" "была бы шея" "быстро только кошки" "у семи нянек дитя" (с 2008) "при ловле блох" (с 2008) "дело мастера боится" с 2009 "овчинка выделки не стоит" (с 2010) "голод не тетка" (с 09.2011) ("на халяву" | "на холяву" | "нахаляву" | "нахоляву") "уксус" (04.2011—08.2012) ("кто первым встал" | "кто первый встал" | "кто раньше встал") "тапки"с 2011 "не все коту масленица" (2011—08.2012) "люби и саночки возить" с 2011 "любовь зла полюбишь и козла" (04-08.2012) "работа не волк" (06-08.2012) Ж М 309 459 38 46 53 115 173 330 334 462 696 771 664 715 703 137 171 377 338 697 943 982 936 962 940 957 749 971 780 763 974 597 860 861 254 886 Еще более неожиданная гендерная статистика: В мае 2012 г. пользовались выражениями: так быстро так мало так много такой большой гораздо длиннее намного меньше во много раз гораздо выше сильно больше сильно меньше заметно меньше заметно больше женщины 942 937 977 874 763 657 614 454 417 416 380 289 мужчины 542 623 746 766 906 993 989 923 959 958 940 951 жен. / муж. 1,73 1,50 1,31 1,14 0,84 0,66 0,62 0,49 0,43 0,43 0,40 0,30 Спасибо за внимание!, но еще одна табличка не из PowerPoint’а