Борис Орехов - Башкирский стих XX века. Корпусное исследование
- Название:Башкирский стих XX века. Корпусное исследование
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:неизвестен
- ISBN:978-5-907189-29-4
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Борис Орехов - Башкирский стих XX века. Корпусное исследование краткое содержание
Башкирский стих XX века. Корпусное исследование - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Одной из разновидностей корпуса является поэтический корпус. Такого рода система позволяет не только искать нужные слова и другие языковые явления, но и делать это с учётом специфики стихотворного текста. Скажем, в поэтическом корпусе можно найти слово в строке, написанной определённым метром, или слово в позиции рифмы.
Пионерским в деле создания поэтических корпусов стал Поэтический корпус в составе Национального корпуса русского языка 21 21 URL: http://ruscorpora.ru/search-poetic.html
[Гришина и др. 2009], открытый для свободного доступа в 2006 году. Поисковая система корпуса настроена так, что с её помощью можно искать слова и конструкции, учитывая при поиске метр, стопность, строфику и другие характеристики стихотворения. Коллекция постоянно пополняется, и в 2015 году её объём превысил 10 млн словоупотреблений.
В литературе есть упоминание о существовавшем в 2004 году корпусе китайских поэтических текстов эпохи династии Тан [Duanmu 2004: 47], но сейчас этот корпус недоступен. Нужно добавить также, что для приобретения статуса поэтического корпуса в полном смысле недостаточно создать поиск по электронной коллекции стихотворных текстов, важна еще и специфическая стиховедческая разметка, отражающая формальные показатели стиха и дающая возможность пользователю искать с учетом этих показателей. Была ли такая разметка в китайском корпусе, неизвестно.
Вторым в этом ряду стал Башкирский поэтический корпус 22 22 URL: http://web-corpora.net/bashcorpus/
, запущенный в октябре 2013 года [Орехов 2014а]. Тексты были морфологически и метрически размечены, а поиск позволяет находить слова и конструкции в строках определённого размера.
Вскоре после Башкирского поэтического корпуса в конце того же 2013 года завершилась первая фаза работы над Корпусом чешского стиха 23 23 URL: http://www.versologie.cz/en/kcv.html
[Plecháč 2015]. Все тексты получили морфологическую, метрическую и строфическую разметку, а также некоторые дополнительные, облегчающие поиск уровни аннотации (восстановление словарной формы слова, фонетическую транскрипцию). Объём корпуса складывается в основном из поэтических произведений конца XIX и начала XX века, и на 2019 год составляет 76 699 стихотворений, 2 664 989 строк и 14 592 037 словоупотреблений.
3.2. Репрезентативность и сбалансированность корпуса
3.2.1. Оценка сбалансированности
Так как дальнейшие выводы будут основаны на подсчётах и статистических методах, апробированных в корпусной лингвистике, нужно убедиться, что собранная коллекция (мы также по статистической традиции будем называть её «выборкой») отвечает требованиям репрезентативности и сбалансированности.
В корпус вошли поэтические произведения 103 башкирских поэтов, творческая активность которых приходится на XX век. Стихотворений в выборке: 17 895, их общий объём 468 456 стихотворных строк и 1,77 млн словоупотреблений. «Зачинателем башкирской советской литературы был Мажит Гафури, начавший писать в 1902 году» [Вместо предисловия 1950: 5], он (годы жизни: 1880‒1934) является самым старым автором в корпусе, и ему принадлежат наиболее ранние стихотворения коллекции, датируемые 1902 годом. Корпус доведён до 2000-х годов, последнее включённое в него стихотворение – «Көндән-көнгә бойоғамын һаман…» (2005) Мустая Карима (1919‒2005). Полный список авторов, включённых в корпус, можно найти в Приложении 1. Коллекция отражает только книжные издания поэтических произведений, в нее не попали публикации в периодике. Из стихотворений, написанных до введения в башкирской печати кириллического алфавита, в корпусе есть только те, которые были позднее переизданы в современной графике. Оригинальные публикации на арабице и латинице в качестве источника нами не рассматривались.
Можно измерить долю участия каждого автора в коллекции по трём параметрам: число стихотворений, число стихотворных строк, число словоупотреблений. Интуитивно кажется, что эти параметры зависят друг от друга, то есть если растёт один, то растёт и другой: чем больше стихотворений одного поэта появится в корпусе, тем больше принадлежащих ему строк и словоупотреблений мы обнаружим в корпусе. Эта зависимость может нарушаться в случае, если при составлении коллекции в неё попадёт небольшое число произведений одного автора, которые, однако, будут иметь аномальную длину. Проверим ситуацию в корпусе. Мы используем для этого коэффициент корреляции Пирсона. Он принимает значения от −1 до 1. Значение близкое к 1 означает высокую степень корреляции, то есть в случае, если какой-то параметр будет расти для некоторого измерения, то и другой параметр для того же измерения вырастет. Верно и обратное: падение одного параметра будет означать падение другого.
Коэффициент корреляции близкий к −1 будет означать, что рост значений для одного параметра почти наверняка будет сопровождаться падением значений для другого, иными словами, мы будем иметь дело с отрицательной корреляцией. Наконец, близкий к нулю коэффициент следует трактовать так, что в отношениях параметров между собой нет никакой системы. Измерениями в нашем контексте выступают башкирские поэты, а параметрами – число стихотворений, стихов и слов в их произведениях.
Действительно, параметры показывают высокую степень зависимости друг от друга. Наибольший коэффициент корреляции обнаруживается для числа строк и числа слов каждого поэта: 0,993. Это говорит о том, что число слов в стихе – предсказуемая и маловарьируемая величина. Число стихотворений и число строк коррелируют на 0,888, что тоже достаточно значительный показатель, а число стихотворений и число слов каждого конкретного автора – сравнительно далёкие друг от друга (что тоже понятно: стихотворения могут быть разной длины и само по себе появление стихотворения в корпусе не обусловливает непременного роста корпуса на заданное число слов), но всё равно существенно сходящиеся параметры, коэффициент корреляции между которыми равен 0,879.
Рис. 1. Типичные и аномальные значения участия авторов в корпусе
На рис. 1 изображён так называемый «ящик с усами» (boxplot), особый вид графика, используемый для характеристики выборки. Концы «усов» ящика – это границы, в пределах которых находятся допустимые, то есть похожие друг на друга значения. Верхняя и нижняя стороны прямоугольника – это так называемые квартили (25-й и 75-й процентили), линией в середине ящика служит медиана. Точки над «усами» – это выбросы, то есть аномально большие значения на фоне остальных показателей. Видно, что выбросов немного, не больше 3‒7 % от общего числа включённых в корпус поэтов. Вклад (в безоценочном, чисто количественном смысле) каждого из авторов в основном не превышает 4 % от всего объёма включенных в коллекцию текстов. Исключения – 4,15 % стихотворений Рами Гарипова и 4,5 % Кадыра Даяна. Любопытно, что если по такому параметру, как число стихотворений, значение для Мажита Гафури остаётся в пределах нормы (2,65 %), то число слов, приходящихся на долю этого автора, зашкаливает (4,14 %). Такая ситуация как раз связана с необычностью для последующей башкирской литературы используемой М. Гафури поэтической формы, подразумевающей объёмные произведения, состоящие из длинных стихов. Это канон поэзии на тюрки́, который лирика советского времени быстро преодолеет.
Читать дальшеИнтервал:
Закладка: