Uploaded by СЕРГЕЙ ВИКТОРОВИЧ

Соловьев С.В. Конспекты по Б. Орехову

advertisement
1) Конспект. Борис Орехов. Поэзия и нейронные сети.
Есть такая разновидность нейронных сетей , которые работают с текстом. Это
так называемые рекуррентные нейронные сети , которые умеют запоминать
последовательности. Тексты — это последовательность слов , символов и так
далее. Если мы возьмём тексты поэтические , написанные четырёхстопным
ямбом или гекзаметром , то мы увидим , что нейронная сеть воспроизводит
метрические особенности исходника. Мы увидим , что текст , чаще всего
бессмысленный , написан четырёхстопным ямбом или даже гекзаметром ,
несмотря на то , что мы не будем специально указывать нейронной сети , где
стоят в словах ударения или что-то ещё. Оказывается , нейронная сеть , если
её натренировать на каких-то текстах , умеет уловить стиль — такую
трудноуловимую и важную для словесности категорию. Получается : сеть ,
натренированная , например , на текстах песен Высоцкого , воспроизводит
что-то довольно странное , с одной стороны. Но с другой стороны , если в
аудитории , в которой мне приходилось читать лекции , показать такой текст ,
то второй или третьей версией у аудитории среди попыток угадать , что это
такое , будет именно Высоцкий. Без подсказок , конечно. Что- то , что мы
пытаемся описать аналитически , нейронная сеть может воспринять
напрямую. Одним из примеров , которые эта сеть породила было выражение
«Гиоклей благородный». Такого имени нет в греческих текстах. Но оно очень
похоже. Ведь есть имя Диоклей. К тому же , «Гиоклей благородный»— это не
просто сочетание слов , а это сочетание , в котором прилагательное идёт
после существительного. Так происходит в текстах , которые стилизуют
античных авторов — Гомера , Вергилия и других. Нейронная сеть не только
порождает текст в новом качестве , но и умеет придать этому тексту
определённый стилистический оттенок , зачастую , узнаваемый. У Высоцкого
это будут какие-то резкие отрывочные фразы с какими-то экспрессивным
словами , что характерно для его поэзии. Если мы возьмём античных авторов
, там будут какие-то соответствующие слова : быки , корабли и всё ,
характерное для Гомера. Нейронная сеть даёт нам возможность увидеть в
концетрированном виде тот стиль , который как бы размазан по творчеству
всего периода. Т.е. , мы можем сделать такой небольшой отрывок , семпл ,
например , из текстов Пушкина , попросив породить нам четыре строчки , в
которых для нас в свёрнутом виде будет представлена вся его стилистика.
Конечно , мы , скорее всего , не увидим никакакой логической связи между
строчками. Это создаёт некоторые трудности , потому что тексты такие читать
сложнее , не все любители поэзии к этому готовы. Но , в то же время , это
перекликается с современной тенденцией неофутуризма , когда поэты пишут
стихи без видимой внутренней связи. Нейронная сеть так же позволяет нам
отвлечься от каких-то содержательных , морально-этических , политических ,
социальных аспектов при изучении художественных текстов , посмотреть на
них новым взглядом.
2) Конспект. Борис Орехов. Цифровые исследования литературы.
Когда мы говорим о цифровых исследованиях литературы , то должны
понять , что такое формализация , потому что наука прежде всего старается
упростить свой объект , расчленить его на некоторое количество параметров
и сделать их численными , а потом посчитать их же с помощью компьютера ,
так как компьютер ничего больше делать не умеет , кроме как считать.
Трудность цифрового изучения литературы в том , что не очень понятно , как
литературное произведение можно формализовать. Вопросом о том , как
можно было бы формально описать литературное произведение ,
занимались давно. Здесь большая заслуга у русских учёных , ещё в 1920-е
годы занимавшихся проблемой литературного формализма. Выяснилось ,
что фольклорные произведения формализуются гораздо лучше , нежели
литературные. В 1960-е годы появилась новая тенденция. К тому времени
как раз появились компьютеры. Но достичь больших успехов не удалось изза малой вычислительной мощности ЭВМ тех лет и малодоступности
электронных текстов для анализа. Сейчас мы видим новый «ренессанс». Хотя
проблемы , в принципе , остаются. Филологи ищут в произведениях смыслы ,
и их очень трудно переписать в число — то , с чем может иметь дело
компьютер. Это , чаще всего , слова. В последнее время появляются
исследования , определяющие , например , чем сентименталистский роман
отличается от современных ему несентименталистских — методы
компьютерной лингвистики позволяют подсчитать , какие же слова
выделяют то особенное содержание , присущее данным стилям. Но более
подходит для формализации стихотворная речь. Она организуется
ритмически , в ней есть ударные и безударные слоги. Если мы сможем
«объяснить» компьютеру , чем отличается ямб от хорея , то тогда легко
сможем формализовать такие важные для организации текста вещи , как
метр , размер , подсчитать , что чаще , а что реже употребляется в
стихотворениях , сделать выводы. Но интересно было бы поискать какие-то
большие тенденции , незаметные для пристального чтения филологов.
Недавно в русском переводе вышла книга Франко Моретти «Дальнее
чтение» («Distant Reading»). Правильнее было бы «Отвлечённое чтение». То
есть , мы отвлекаемся от текста , чтобы извлечь из него какую-то
информацию , не всегда тривиальную , и посмотреть её на большом объёме
данных. Большой объём информации пытаемся проанализировать
статистически. Например , если мы проанализируем диалоги и речь героев
больших романов , то выясним , что персонажи определённого рода ,
которые типологически объединяются в какие-то группы , могут употреблять
глаголы одного типа в своей речи , а персонажи другого рода изъясняются
как-то иначе , хотя созданы одним автором. Компьютерная лингвистика
позволяет классифицировать персонажей по их речи. Это крайне трудно
сделать в процессе т.н. «медленного чтения». Благодаря компьютерным
технологиям , мы лучше можем объяснить компьютеру , как оптимальнее
моделировать тематику текстов : где пролегает разница между одной и
другой темами , например , между темами природы и любви. Динамика их
развёртывания , незаметная на большом материале , теперь нам доступна , и
мы можем посмотреть на больших текстах , как это проявляется
типологически. Например , есть ли такие тенденции , когда в начале романа
речь идёт о хорошем , а к концу всё скатывается к трагическому. К
сожалению , сегодня компьютер не способен обработать такие важные для
литературоведов вопросы , как вопрос смысла , связанного с высшими
матерями , вопрос функциональности нервной системы , и другие. Ключом к
этому является развитие машинного обучения (depp learning) , нейронных
сетей. Цифровая гуманитарная наука в ближайшее время будет иметь дело с
извлечением мотивов в произведениях , распознаванием в тексте
напряжения , которое захватывает читателя , и моментов расслабления.
Привлечение цифровых методов даст толчок развитию гуманитарной науки.
3) Конспект. Борис Орехов. Корпусный анализ русского стиха.
Корпус — это большое собрание текстов. Больше , чем знает или может
запомнить один человек. По этим текстам существует электронный поиск ,
выдающий мгновенно ответ по запросу. Благодаря корпусу мы лучше
понимаем , как устроен язык , что в нём есть , чего в нём нет , как он
функционирует и какие есть в нём особенности. Электронный инструмент
заменил интроспекцию учёного , его погружение в предмет , благодаря
своей памяти и другим личным компетенциям. В России создан инструмент
под названием «поэтический корпус». В нём собраны стихотворные тексты с
18 века по наши дни. Благодаря корпусу , мы можем задать ему вопрос и
узнать ответ , не утруждая себя чтением всех русских поэтических текстов 1820 веков. Мы можем использовать специальные возможности поиска ,
например , искать только рифму , метр и другое. Мы можем сделать
особенный запрос , например , о текстах , написанных четырёхстопным
амфибрахием в период между 1840 и 1890 годами. И , вдобавок , спросить ,
были в этих текстах специальные слова , которые нас могут заинтересовать.
Благодаря корпусу , мы можем смоделировать для себя читателя
определённой эпохи : что ему показалось органичным в том или
ином тексте , что для него было выдающимся , новым. Благодаря ему , мы
можем узнать , есть ли своеобразие в творчестве Есенина , Пушкина ,
Баратынского , или у них всё так же , как и у остальных. Обратимся к
творчеству Тютчева. В специальной литературе обозначено , что поэт
начинал как подражатель Державина. Граница между подражательностью и
своеобразием приходится на стихотворение «Проблеск» 1825 года. Корпус
позволяет нам определить , где в стихотворении кроется то самое
своебразие. Мы можем задать корпусу запрос , где в русской поэзии до
Тютчева фигурировало слово «проблеск». Он даст нам довольно хорошую
репрезентативную подборку. И мы определим , что слово «проблеск»
встречается только в одном произведении — это стихотворение Державина
«Проблеск». То есть , само название здесь несвоебразное. Отсюда мы
делаем вывод , что между Тютчевым и Державиным есть связь. И , вместе с
тем , понимаем , что слово «проблеск» не самое частотное явление в русской
поэзии данного периода. «Слыхал ли в сумраке глубоком / Воздушной арфы
лёгкий звон»— так начинается стихотворение Тютчева. Согласно корпусу , мы
устанавливаем , что опять-таки слово «сумрак» не такое частотное , как мы
рассчитывали , потому что сумрак , с одной стороны , слово вполне
поэтическое , с другой , выясняется , что в стихах о нём пишут , только
начиная с 19 века. Для 18 века это было нехарактерно , поскольку «сумрак»
рисует перед нами неясную картину , что-то нечёткое , тогда как для века
было свойственно выражать всё ясно и прозрачно. Классицизм , как-никак.
«Сумрак глубокий» — выражение не столь частое и для 19 века. Но мы
видим предшественника Тютчева : данное выражение встречается в поэзии
Жуковского. Таким образом , у Тютчева творчески перерабатывается поэтика
не только Державина , но и других авторов. До 1825 года нигде в корпусе
русской поэзии мы не обнаружим словосочетания «воздушная арфа» , кроме
как у тех же Тютчева и Жуковского. И это даёт нам представление о том , что
именно читал и держал в голове современник Тютчева. Корпус по первым
двум строкам даёт нам представление о том , насколько поэтика Тютчева в
большей степени зависит не от классицистов и архаистов , как их называли в
русской науке первой половины 19 века , а от новых поэтов-«арзамасцев» , к
которым принадлежал Жуковский , в том числе. Понимание , где ,
собственно , уникальность , своеобразие поэтики , а где что-то общее , как у
всех , мы можем почерпнуть , исходя из внимательного анализа корпуса и
той модели , которую нам этот корпус предоставляет. Это нужно для
понимания того , как выглядела поэзия в прошедшие эпохи , и что в эти
эпохи было предметом интереса читателей.
Download