1) Конспект. Борис Орехов. Поэзия и нейронные сети. Есть такая разновидность нейронных сетей , которые работают с текстом. Это так называемые рекуррентные нейронные сети , которые умеют запоминать последовательности. Тексты — это последовательность слов , символов и так далее. Если мы возьмём тексты поэтические , написанные четырёхстопным ямбом или гекзаметром , то мы увидим , что нейронная сеть воспроизводит метрические особенности исходника. Мы увидим , что текст , чаще всего бессмысленный , написан четырёхстопным ямбом или даже гекзаметром , несмотря на то , что мы не будем специально указывать нейронной сети , где стоят в словах ударения или что-то ещё. Оказывается , нейронная сеть , если её натренировать на каких-то текстах , умеет уловить стиль — такую трудноуловимую и важную для словесности категорию. Получается : сеть , натренированная , например , на текстах песен Высоцкого , воспроизводит что-то довольно странное , с одной стороны. Но с другой стороны , если в аудитории , в которой мне приходилось читать лекции , показать такой текст , то второй или третьей версией у аудитории среди попыток угадать , что это такое , будет именно Высоцкий. Без подсказок , конечно. Что- то , что мы пытаемся описать аналитически , нейронная сеть может воспринять напрямую. Одним из примеров , которые эта сеть породила было выражение «Гиоклей благородный». Такого имени нет в греческих текстах. Но оно очень похоже. Ведь есть имя Диоклей. К тому же , «Гиоклей благородный»— это не просто сочетание слов , а это сочетание , в котором прилагательное идёт после существительного. Так происходит в текстах , которые стилизуют античных авторов — Гомера , Вергилия и других. Нейронная сеть не только порождает текст в новом качестве , но и умеет придать этому тексту определённый стилистический оттенок , зачастую , узнаваемый. У Высоцкого это будут какие-то резкие отрывочные фразы с какими-то экспрессивным словами , что характерно для его поэзии. Если мы возьмём античных авторов , там будут какие-то соответствующие слова : быки , корабли и всё , характерное для Гомера. Нейронная сеть даёт нам возможность увидеть в концетрированном виде тот стиль , который как бы размазан по творчеству всего периода. Т.е. , мы можем сделать такой небольшой отрывок , семпл , например , из текстов Пушкина , попросив породить нам четыре строчки , в которых для нас в свёрнутом виде будет представлена вся его стилистика. Конечно , мы , скорее всего , не увидим никакакой логической связи между строчками. Это создаёт некоторые трудности , потому что тексты такие читать сложнее , не все любители поэзии к этому готовы. Но , в то же время , это перекликается с современной тенденцией неофутуризма , когда поэты пишут стихи без видимой внутренней связи. Нейронная сеть так же позволяет нам отвлечься от каких-то содержательных , морально-этических , политических , социальных аспектов при изучении художественных текстов , посмотреть на них новым взглядом. 2) Конспект. Борис Орехов. Цифровые исследования литературы. Когда мы говорим о цифровых исследованиях литературы , то должны понять , что такое формализация , потому что наука прежде всего старается упростить свой объект , расчленить его на некоторое количество параметров и сделать их численными , а потом посчитать их же с помощью компьютера , так как компьютер ничего больше делать не умеет , кроме как считать. Трудность цифрового изучения литературы в том , что не очень понятно , как литературное произведение можно формализовать. Вопросом о том , как можно было бы формально описать литературное произведение , занимались давно. Здесь большая заслуга у русских учёных , ещё в 1920-е годы занимавшихся проблемой литературного формализма. Выяснилось , что фольклорные произведения формализуются гораздо лучше , нежели литературные. В 1960-е годы появилась новая тенденция. К тому времени как раз появились компьютеры. Но достичь больших успехов не удалось изза малой вычислительной мощности ЭВМ тех лет и малодоступности электронных текстов для анализа. Сейчас мы видим новый «ренессанс». Хотя проблемы , в принципе , остаются. Филологи ищут в произведениях смыслы , и их очень трудно переписать в число — то , с чем может иметь дело компьютер. Это , чаще всего , слова. В последнее время появляются исследования , определяющие , например , чем сентименталистский роман отличается от современных ему несентименталистских — методы компьютерной лингвистики позволяют подсчитать , какие же слова выделяют то особенное содержание , присущее данным стилям. Но более подходит для формализации стихотворная речь. Она организуется ритмически , в ней есть ударные и безударные слоги. Если мы сможем «объяснить» компьютеру , чем отличается ямб от хорея , то тогда легко сможем формализовать такие важные для организации текста вещи , как метр , размер , подсчитать , что чаще , а что реже употребляется в стихотворениях , сделать выводы. Но интересно было бы поискать какие-то большие тенденции , незаметные для пристального чтения филологов. Недавно в русском переводе вышла книга Франко Моретти «Дальнее чтение» («Distant Reading»). Правильнее было бы «Отвлечённое чтение». То есть , мы отвлекаемся от текста , чтобы извлечь из него какую-то информацию , не всегда тривиальную , и посмотреть её на большом объёме данных. Большой объём информации пытаемся проанализировать статистически. Например , если мы проанализируем диалоги и речь героев больших романов , то выясним , что персонажи определённого рода , которые типологически объединяются в какие-то группы , могут употреблять глаголы одного типа в своей речи , а персонажи другого рода изъясняются как-то иначе , хотя созданы одним автором. Компьютерная лингвистика позволяет классифицировать персонажей по их речи. Это крайне трудно сделать в процессе т.н. «медленного чтения». Благодаря компьютерным технологиям , мы лучше можем объяснить компьютеру , как оптимальнее моделировать тематику текстов : где пролегает разница между одной и другой темами , например , между темами природы и любви. Динамика их развёртывания , незаметная на большом материале , теперь нам доступна , и мы можем посмотреть на больших текстах , как это проявляется типологически. Например , есть ли такие тенденции , когда в начале романа речь идёт о хорошем , а к концу всё скатывается к трагическому. К сожалению , сегодня компьютер не способен обработать такие важные для литературоведов вопросы , как вопрос смысла , связанного с высшими матерями , вопрос функциональности нервной системы , и другие. Ключом к этому является развитие машинного обучения (depp learning) , нейронных сетей. Цифровая гуманитарная наука в ближайшее время будет иметь дело с извлечением мотивов в произведениях , распознаванием в тексте напряжения , которое захватывает читателя , и моментов расслабления. Привлечение цифровых методов даст толчок развитию гуманитарной науки. 3) Конспект. Борис Орехов. Корпусный анализ русского стиха. Корпус — это большое собрание текстов. Больше , чем знает или может запомнить один человек. По этим текстам существует электронный поиск , выдающий мгновенно ответ по запросу. Благодаря корпусу мы лучше понимаем , как устроен язык , что в нём есть , чего в нём нет , как он функционирует и какие есть в нём особенности. Электронный инструмент заменил интроспекцию учёного , его погружение в предмет , благодаря своей памяти и другим личным компетенциям. В России создан инструмент под названием «поэтический корпус». В нём собраны стихотворные тексты с 18 века по наши дни. Благодаря корпусу , мы можем задать ему вопрос и узнать ответ , не утруждая себя чтением всех русских поэтических текстов 1820 веков. Мы можем использовать специальные возможности поиска , например , искать только рифму , метр и другое. Мы можем сделать особенный запрос , например , о текстах , написанных четырёхстопным амфибрахием в период между 1840 и 1890 годами. И , вдобавок , спросить , были в этих текстах специальные слова , которые нас могут заинтересовать. Благодаря корпусу , мы можем смоделировать для себя читателя определённой эпохи : что ему показалось органичным в том или ином тексте , что для него было выдающимся , новым. Благодаря ему , мы можем узнать , есть ли своеобразие в творчестве Есенина , Пушкина , Баратынского , или у них всё так же , как и у остальных. Обратимся к творчеству Тютчева. В специальной литературе обозначено , что поэт начинал как подражатель Державина. Граница между подражательностью и своеобразием приходится на стихотворение «Проблеск» 1825 года. Корпус позволяет нам определить , где в стихотворении кроется то самое своебразие. Мы можем задать корпусу запрос , где в русской поэзии до Тютчева фигурировало слово «проблеск». Он даст нам довольно хорошую репрезентативную подборку. И мы определим , что слово «проблеск» встречается только в одном произведении — это стихотворение Державина «Проблеск». То есть , само название здесь несвоебразное. Отсюда мы делаем вывод , что между Тютчевым и Державиным есть связь. И , вместе с тем , понимаем , что слово «проблеск» не самое частотное явление в русской поэзии данного периода. «Слыхал ли в сумраке глубоком / Воздушной арфы лёгкий звон»— так начинается стихотворение Тютчева. Согласно корпусу , мы устанавливаем , что опять-таки слово «сумрак» не такое частотное , как мы рассчитывали , потому что сумрак , с одной стороны , слово вполне поэтическое , с другой , выясняется , что в стихах о нём пишут , только начиная с 19 века. Для 18 века это было нехарактерно , поскольку «сумрак» рисует перед нами неясную картину , что-то нечёткое , тогда как для века было свойственно выражать всё ясно и прозрачно. Классицизм , как-никак. «Сумрак глубокий» — выражение не столь частое и для 19 века. Но мы видим предшественника Тютчева : данное выражение встречается в поэзии Жуковского. Таким образом , у Тютчева творчески перерабатывается поэтика не только Державина , но и других авторов. До 1825 года нигде в корпусе русской поэзии мы не обнаружим словосочетания «воздушная арфа» , кроме как у тех же Тютчева и Жуковского. И это даёт нам представление о том , что именно читал и держал в голове современник Тютчева. Корпус по первым двум строкам даёт нам представление о том , насколько поэтика Тютчева в большей степени зависит не от классицистов и архаистов , как их называли в русской науке первой половины 19 века , а от новых поэтов-«арзамасцев» , к которым принадлежал Жуковский , в том числе. Понимание , где , собственно , уникальность , своеобразие поэтики , а где что-то общее , как у всех , мы можем почерпнуть , исходя из внимательного анализа корпуса и той модели , которую нам этот корпус предоставляет. Это нужно для понимания того , как выглядела поэзия в прошедшие эпохи , и что в эти эпохи было предметом интереса читателей.