Автоматически порожденные «альтернативные версии» русской классики позволяют по-новому взглянуть на лингвистику художественного текста и переосмыслить сам процесс литературного творчества
Так считает доцент Высшей школы лингвистики Национального исследовательского университета Высшая школа экономики Борис Орехов.
Компьютерная лингвистика позволяет вычислять семантическую близость, то есть автоматически находить слова, которые ближе всего друг к другу по своему значению. Это можно делать благодаря так называемым векторным моделям, которые извлекают знание о значениях слов из статистики их употребления в различных контекстах на больших массивах данных (миллионы текстов). Например, если слова лампа и светильник регулярно употребляются в похожих случаях (зажечь лампу/светильник, погасить лампу/светильник, лампа /светильник на 100 ватт и т.п.), такая модель будет считать их близкими. Для работы с векторными моделями в школе лингвистики НИУ ВШЭ создан сервис RusVectōrēs, пользоваться которым может любой желающий.
Борис Орехов с помощью RusVectōrēs решил выяснить, что произойдет, если в хорошо знакомых нам со школы текстах заменить все слова на самые близкие по смыслу. Для своего эксперимента он взял пять классических русских романов: «Евгений Онегин», «Преступление и наказание», «Война и мир», «Отцы и дети», «Мастер и Маргарита» (писатель и литературовед Дмитрий Быков считает, что романы, содержащие в своём названии «и», играют особенную роль в истории русской литературы). К каждому слову в тексте романа, исключая служебные части речи, были автоматически подобраны близкие по значению слова — так называемые квазисинонимы. Использованная для этого модель RusVectōrēs построена на текстах Национального корпуса русского языка и Википедии.
Испытания на читателях показывают, что получившиеся в результате «векторного преобразования» тексты могут увлекать не меньше оригиналов. Угадывая в строке «Тренькают конногвардейца ботфорты» исходное пушкинское «Бренчат кавалергарда шпоры», можно испытать настоящую «радость узнавания», а булгаковский Воланд, перенесенный с московских Патриарших прудов на казанские Митрополичьи ручьи (sic!), воспринимается как фрагмент параллельной реальности, в которой роман «Мастер и Маргарита» действительно был написан именно так. В той же альтернативной действительности Раскольников спрашивает себя, «плоть ли я дрожащая», а эпопея Толстого называется «Кампания и континент».
Как и везде, где замешаны статистические методы, в векторных романах неизбежно встречаются различные казусы и курьезы. Многие из них связаны с неоднозначностью слов или появлением у них новых смыслов. Так, важное для «Евгения Онегина» слово сплин было заменено на чайф — именно оно оказывается наиболее семантически близким при обучении модели на современных текстах. Дело здесь, разумеется, в названиях музыкальных групп.
Ранее схожие опыты проводились для английского — к примеру, можно найти попытку сделать такие же замены в романе «Гордость и предубеждение». Однако с английским языком проделать такое гораздо проще: там нет ни склонения, ни согласования по роду, и спряжение весьма редуцированное. В русском тексте просто заменить одну произвольную форму слова на другую нельзя — он распадётся и станет аграмматичным, нечитаемым. Поэтому замену приходится производить более сложным способом, используя морфологический разбор исходного слова и автоматически порождая нужную грамматическую форму для слова-замены. Для этого применялся Морфологический анализатор pymorphy2, который способен делать и то, и другое: и устанавливать грамматическую форму слова, и генерировать новую форму. Программный код, с помощью которого осуществлялись замены, доступен на GitHub.
Замене подвергались только самостоятельные части речи: существительные, прилагательные, глаголы и наречия. Имена собственные в большинстве своем сохранялись. Если в векторной модели для слова не находилось квазисинонимов, то оно не заменялось.
Как многие другие современные исследования, выполненные в русле Digital Humanities, векторные романы могут вызывать недоумение и вопрос «Зачем это нужно?». У Бориса Орехова есть ответ на этот вопрос:"Конечно, в большей степени получившийся результат — это развлечение. Но не только. На основе этих текстов можно составлять задания для «олимпиад» по литературе. Кроме того, как кажется, эти тексты можно использовать для медленного чтения. Они могут помочь на каждом шаге задавать себе вопросы: «Почему здесь стоит это слово, а не другое?», «Что это нам даёт и что это меняет в нашем восприятии?» То есть, по сути, речь идёт о литературоведческом эксперименте, о введении экспериментальной плоскости в науку, которая, казалось бы, лишена её от природы и навсегда".