Любовь Чурилина - Актуальные проблемы современной лингвистики. Учебное пособие
- Название:Актуальные проблемы современной лингвистики. Учебное пособие
- Автор:
- Жанр:
- Издательство:Литагент «Флинта»ec6fb446-1cea-102e-b479-a360f6b39df7
- Год:2012
- Город:Москва
- ISBN:978-5-89349-892-9, 978-5-02-033353-6
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Любовь Чурилина - Актуальные проблемы современной лингвистики. Учебное пособие краткое содержание
Предлагаемое пособие включает развернутую программу учебной дисциплины «Актуальные проблемы современной лингвистики», хрестоматию и систему заданий творческого и проблемного характера. Издание призвано обеспечить изучение цикла общелингвистических дисциплин: «Теория языка», «Общее языкознание», «Актуальные проблемы современной лингвистики», включенных в блок специальных дисциплин государственного образовательного стандарта по направлению «Филология», а также в образовательный стандарт подготовки магистров по направлениям «Филология» и «Языковое образование».
Для студентов, магистрантов, аспирантов, преподавателей-филологов.
6-е издание.
Актуальные проблемы современной лингвистики. Учебное пособие - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Более того, в этом различении, восходящем к Л.В. Щербе с его активной и пассивной грамматиками, мы идем дальше, разграничивая также словари: генеративный (обслуживающий порождение речи) и перцептивный (обслуживающий восприятие речи). Именно последний, как компонент модели восприятия речи, будет интересовать нас в настоящей статье.
Прежде, однако, воспроизведем основные аргументы в пользу, как нам представляется, признания относительной самостоятельности перцептивного словаря <...>. Главной отличительной особенностью перцептивного словаря нам видится характер его единицы: в качестве таковой есть основания считать словоформу.
Можно считать экспериментально доказанным, что важным ключом для идентификации слова при его восприятии (изолированно или в тексте) выступает частотность данного слова. Но частотность слова как лексемы – в известном смысле фикция. Реальной частотностью характеризуются именно отдельные словоформы слова, причем разные словоформы одного и того же слова могут существенно отличаться по частотности. Точно так же можно считать доказанным, что еще один важный ключ, используемый для предварительной, грубой классификации слова при восприятии речи, это его акцентный контур. Но и акцентный контур – даже более непосредственно, нежели частотность – есть признак словоформы, а не лексемы. Разные словоформы одной и той же лексемы могут обладать разными акцентными контурами, совокупность которых образует так называемую акцентную кривую, ср., например, сад, саду, (в)сад, (в)садах и т.п. Акцентная кривая создается, главным образом, перемещением ударения с основы на окончание или наоборот.
Признание словоформы основной единицей перцептивного словаря, разумеется, приводит к значительному увеличению его объема. В то же время это возрастание объема значительно меньше, чем можно было бы предположить априори; связано это с тем, что отнюдь не каждая лексема обладает полным набором словоформ, отвечающим категориям, которые присущи ее классу / подклассу. Специальное статистическое изучение такого рода ограничений представило бы отдельный интерес.
Увеличивая словарь, опора на словоформу в то же время сильно упрощает процедуру идентификации единиц текста при их восприятии, во многом сводя эту процедуру к прямому сличению отрезка текста и единицы словаря – минуя процесс лемматизации, неизбежный, если мы имеем дело с традиционным словарем лексем, а не словоформ.
Возникает еще одна проблема. Выше мы упоминали о релевантности акцентного контура словоформы в качестве ключа для ее идентификации. Но акцентный контур характеризует не словоформу как таковую, а фонетическую словоформу (ФС), т.е. фонетическое слово, которое состоит из знаменательной словоформы плюс клитики. Деление текста на ФС может довольно существенно расходиться с сегментацией на слова (словоформы) как лексико-грамматические единицы, ср. Ты / бы / ко / мне / раньше /с/ этим / пришел и Тыбы / комне /раньше / сэтим / пришел (косая черта указывает на границу между словами, условно воспроизводится орфографическая запись).
Из релевантности именно ФС как «носителя» акцентного контура по крайней мере может следовать, что и единицей равно текста и словаря (а их идентичность принципиальна) выступает не просто словоформа, а ФС.
Рассмотрим указанные и иные относящиеся к ним вопросы в определенной последовательности. Для начала зафиксируем исходные позиции, которые заключаются, по-видимому, в следующем.
Моделирование процессов восприятия речи (во всяком случае, на материале русского языка) включает в себя такие подготовительные этапы, как:
• формирование представительного корпуса текстов (на начальном этапе – в орфографической записи) с акцентуацией словоформ и разметкой согласно специально разработанной системы аннотирования;
• создание, на базе корпуса текстов, словаря для моделирования восприятия речи; единицей словаря выступает словоформа с индексом частотности.
На настоящий момент общий объем нашего корпуса – 1 031 920 словоупотреблений.
На основании подкорпуса объемом 322 тысячи словоупотреблений организован частотный словарь словоформ, включающий 63 742 единицы и словарь фонетических слов объемом 84 174 единицы. Этот подкорпус имеется также в транскрибированном виде. Автоматическое транскрибирование текстов осуществлялось с помощью версии фонологического транскриптора на базе кириллицы (автор программы А.В. Венцов).
В данной статье мы попытались отразить как методологический подход, так и основные направления исследований авторского коллектива в заявленной области.
Компьютерное моделирование сегментации и идентификации графической записи текста
Наличие корпуса и словаря словоформ позволило осуществить компьютерное моделирование сегментации графической беспробельной записи текста через идентификацию, т.е. путем сличения с единицами словаря. Мы исходим из того, что подобная процедура на материале «сплошной» графической записи может рассматриваться как некоторое приближение к работе с материалом звучащего текста, а используемые принципы компьютерного моделирования до некоторой степени соответствуют процессам восприятия речи человеком. Сделанный акцент на процедуре сегментации через идентификацию ни в коей мере не означает отказ от исследования автономного механизма сегментации (независимой от идентификации), но лишь признание относительно небольшого удельного веса автономной сегментации на слова в восприятии речи (подробнее см. об этом <...>).
Существенно отметить, что в большинстве ранних работ, выполненных в русле «модели когорты», материалом, подлежащим распознаванию, выступали изолированные слова – соответственно проблема сегментации вообще не возникала. В отличие от этого, наш алгоритм принципиально нацелен на обработку слитной речи – на данной стадии исследования в ее графическом представлении, а именно орфографической и транскрипционной (в терминах фонем) записей. В основу алгоритма положено упрощенное предположение о том, что в буфер памяти слушающего сведения о символах, составляющих экспонент слова, поступают последовательно во времени и, соответственно, происходит накопление информации, обеспечивающей выбор подходящего слова из словаря.
Сам процесс выбора начинается сразу же, как только в буфере появляются первые один-два символа. По ним из словаря выбираются все подходящие слова – т.е. начинающиеся на тот же символ или последовательность символов слова, которые и образуют «когорту». По мере поступления в буфер следующих символов, из когорты удаляются все слова, не согласующиеся по началу с имеющейся в буфере цепочкой, и процесс этот продолжается до тех пор, пока в когорте не останется одно-единственное слово, которое и будет считаться идентификатором распознаваемого отрезка текста.
Читать дальшеИнтервал:
Закладка: