Борис Орехов - Башкирский стих XX века. Корпусное исследование

Тут можно читать онлайн Борис Орехов - Башкирский стих XX века. Корпусное исследование - бесплатно ознакомительный отрывок. Жанр: Поэзия. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Башкирский стих XX века. Корпусное исследование
  • Автор:
  • Жанр:
  • Издательство:
    неизвестно
  • Год:
    неизвестен
  • ISBN:
    978-5-907189-29-4
  • Рейтинг:
    5/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 100
    • 1
    • 2
    • 3
    • 4
    • 5

Борис Орехов - Башкирский стих XX века. Корпусное исследование краткое содержание

Башкирский стих XX века. Корпусное исследование - описание и краткое содержание, автор Борис Орехов, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Представлены результаты всестороннего количественного исследования башкирской системы версификации в XX веке. С использованием современных статистических инструментов подвергаются анализу все уровни организации стихотворного текста от фоники до лексики и грамматики, с особенным вниманием к метру и ритму. Количественные данные получены на корпусе текстов 103 башкирских поэтов общим объемом в 1,77 млн словоупотреблений. Анализ предварен подробным обзором науки о тюркском стихе начиная с 1950-х годов. Утверждается, что основную роль в башкирском стихосложении XX века играют силлабические формы фольклорного происхождения узун-кюй и кыска-кюй, первая из которых специфична для поволжско-кыпчакского слогосчитающего стиха. Приводится подробное сопоставление башкирского стиха с киргизским. Книга завершается примерами поэтических текстов на башкирском языке, сгенерированных с использованием искусственных нейронных сетей.

Башкирский стих XX века. Корпусное исследование - читать онлайн бесплатно ознакомительный отрывок

Башкирский стих XX века. Корпусное исследование - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Борис Орехов
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Одной из разновидностей корпуса является поэтический корпус. Такого рода система позволяет не только искать нужные слова и другие языковые явления, но и делать это с учётом специфики стихотворного текста. Скажем, в поэтическом корпусе можно найти слово в строке, написанной определённым метром, или слово в позиции рифмы.

Пионерским в деле создания поэтических корпусов стал Поэтический корпус в составе Национального корпуса русского языка 21 21 URL: http://ruscorpora.ru/search-poetic.html [Гришина и др. 2009], открытый для свободного доступа в 2006 году. Поисковая система корпуса настроена так, что с её помощью можно искать слова и конструкции, учитывая при поиске метр, стопность, строфику и другие характеристики стихотворения. Коллекция постоянно пополняется, и в 2015 году её объём превысил 10 млн словоупотреблений.

В литературе есть упоминание о существовавшем в 2004 году корпусе китайских поэтических текстов эпохи династии Тан [Duanmu 2004: 47], но сейчас этот корпус недоступен. Нужно добавить также, что для приобретения статуса поэтического корпуса в полном смысле недостаточно создать поиск по электронной коллекции стихотворных текстов, важна еще и специфическая стиховедческая разметка, отражающая формальные показатели стиха и дающая возможность пользователю искать с учетом этих показателей. Была ли такая разметка в китайском корпусе, неизвестно.

Вторым в этом ряду стал Башкирский поэтический корпус 22 22 URL: http://web-corpora.net/bashcorpus/ , запущенный в октябре 2013 года [Орехов 2014а]. Тексты были морфологически и метрически размечены, а поиск позволяет находить слова и конструкции в строках определённого размера.

Вскоре после Башкирского поэтического корпуса в конце того же 2013 года завершилась первая фаза работы над Корпусом чешского стиха 23 23 URL: http://www.versologie.cz/en/kcv.html [Plecháč 2015]. Все тексты получили морфологическую, метрическую и строфическую разметку, а также некоторые дополнительные, облегчающие поиск уровни аннотации (восстановление словарной формы слова, фонетическую транскрипцию). Объём корпуса складывается в основном из поэтических произведений конца XIX и начала XX века, и на 2019 год составляет 76 699 стихотворений, 2 664 989 строк и 14 592 037 словоупотреблений.

3.2. Репрезентативность и сбалансированность корпуса

3.2.1. Оценка сбалансированности

Так как дальнейшие выводы будут основаны на подсчётах и статистических методах, апробированных в корпусной лингвистике, нужно убедиться, что собранная коллекция (мы также по статистической традиции будем называть её «выборкой») отвечает требованиям репрезентативности и сбалансированности.

В корпус вошли поэтические произведения 103 башкирских поэтов, творческая активность которых приходится на XX век. Стихотворений в выборке: 17 895, их общий объём 468 456 стихотворных строк и 1,77 млн словоупотреблений. «Зачинателем башкирской советской литературы был Мажит Гафури, начавший писать в 1902 году» [Вместо предисловия 1950: 5], он (годы жизни: 1880‒1934) является самым старым автором в корпусе, и ему принадлежат наиболее ранние стихотворения коллекции, датируемые 1902 годом. Корпус доведён до 2000-х годов, последнее включённое в него стихотворение – «Көндән-көнгә бойоғамын һаман…» (2005) Мустая Карима (1919‒2005). Полный список авторов, включённых в корпус, можно найти в Приложении 1. Коллекция отражает только книжные издания поэтических произведений, в нее не попали публикации в периодике. Из стихотворений, написанных до введения в башкирской печати кириллического алфавита, в корпусе есть только те, которые были позднее переизданы в современной графике. Оригинальные публикации на арабице и латинице в качестве источника нами не рассматривались.

Можно измерить долю участия каждого автора в коллекции по трём параметрам: число стихотворений, число стихотворных строк, число словоупотреблений. Интуитивно кажется, что эти параметры зависят друг от друга, то есть если растёт один, то растёт и другой: чем больше стихотворений одного поэта появится в корпусе, тем больше принадлежащих ему строк и словоупотреблений мы обнаружим в корпусе. Эта зависимость может нарушаться в случае, если при составлении коллекции в неё попадёт небольшое число произведений одного автора, которые, однако, будут иметь аномальную длину. Проверим ситуацию в корпусе. Мы используем для этого коэффициент корреляции Пирсона. Он принимает значения от −1 до 1. Значение близкое к 1 означает высокую степень корреляции, то есть в случае, если какой-то параметр будет расти для некоторого измерения, то и другой параметр для того же измерения вырастет. Верно и обратное: падение одного параметра будет означать падение другого.

Коэффициент корреляции близкий к −1 будет означать, что рост значений для одного параметра почти наверняка будет сопровождаться падением значений для другого, иными словами, мы будем иметь дело с отрицательной корреляцией. Наконец, близкий к нулю коэффициент следует трактовать так, что в отношениях параметров между собой нет никакой системы. Измерениями в нашем контексте выступают башкирские поэты, а параметрами – число стихотворений, стихов и слов в их произведениях.

Действительно, параметры показывают высокую степень зависимости друг от друга. Наибольший коэффициент корреляции обнаруживается для числа строк и числа слов каждого поэта: 0,993. Это говорит о том, что число слов в стихе – предсказуемая и маловарьируемая величина. Число стихотворений и число строк коррелируют на 0,888, что тоже достаточно значительный показатель, а число стихотворений и число слов каждого конкретного автора – сравнительно далёкие друг от друга (что тоже понятно: стихотворения могут быть разной длины и само по себе появление стихотворения в корпусе не обусловливает непременного роста корпуса на заданное число слов), но всё равно существенно сходящиеся параметры, коэффициент корреляции между которыми равен 0,879.

Рис. 1. Типичные и аномальные значения участия авторов в корпусе

На рис. 1 изображён так называемый «ящик с усами» (boxplot), особый вид графика, используемый для характеристики выборки. Концы «усов» ящика – это границы, в пределах которых находятся допустимые, то есть похожие друг на друга значения. Верхняя и нижняя стороны прямоугольника – это так называемые квартили (25-й и 75-й процентили), линией в середине ящика служит медиана. Точки над «усами» – это выбросы, то есть аномально большие значения на фоне остальных показателей. Видно, что выбросов немного, не больше 3‒7 % от общего числа включённых в корпус поэтов. Вклад (в безоценочном, чисто количественном смысле) каждого из авторов в основном не превышает 4 % от всего объёма включенных в коллекцию текстов. Исключения – 4,15 % стихотворений Рами Гарипова и 4,5 % Кадыра Даяна. Любопытно, что если по такому параметру, как число стихотворений, значение для Мажита Гафури остаётся в пределах нормы (2,65 %), то число слов, приходящихся на долю этого автора, зашкаливает (4,14 %). Такая ситуация как раз связана с необычностью для последующей башкирской литературы используемой М. Гафури поэтической формы, подразумевающей объёмные произведения, состоящие из длинных стихов. Это канон поэзии на тюрки́, который лирика советского времени быстро преодолеет.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Борис Орехов читать все книги автора по порядку

Борис Орехов - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Башкирский стих XX века. Корпусное исследование отзывы


Отзывы читателей о книге Башкирский стих XX века. Корпусное исследование, автор: Борис Орехов. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x