Михаил Копотев - Введение в корпусную лингвистику

Тут можно читать онлайн Михаил Копотев - Введение в корпусную лингвистику - бесплатно ознакомительный отрывок. Жанр: Языкознание, год 2014. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Введение в корпусную лингвистику
  • Автор:
  • Жанр:
  • Издательство:
    неизвестно
  • Год:
    2014
  • Город:
    Praha
  • ISBN:
    978-80-7499-067-0
  • Рейтинг:
    4/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 80
    • 1
    • 2
    • 3
    • 4
    • 5

Михаил Копотев - Введение в корпусную лингвистику краткое содержание

Введение в корпусную лингвистику - описание и краткое содержание, автор Михаил Копотев, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Учебное пособие для студентов филологических и лингвистических специальностей университетов
Пособие содержит основные сведения о корпусной лингвистике – одном из самых популярных разделов современного языкознания, целью которого является создание и использование языковых корпусов в лингвистических исследованиях. В учебнике на доступном уровне рассматриваются основы данной предметной области, перечисляются основные корпуса разных языков, показываются возможности использования методов корпусной лингвистики, а также описан вклад корпусной лингвистики в лингвистическую теорию. Учебник предназначен для студентов филологических и лингвистических факультетов высших учебных заведений. Может быть использовано аспирантами и преподавателями смежных дисциплин.
Автор благодарит The Pygos Group. A HIT Entertainment company за разрешение использовать изображение Пингу и интернет-проект «ПостНаука» за разрешение использовать видеолекцию В. А. Плунгяна.

Введение в корпусную лингвистику - читать онлайн бесплатно ознакомительный отрывок

Введение в корпусную лингвистику - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Михаил Копотев
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Важно понимать, что возможность поиска в современном корпусе ограничена поиском по буквам и другим знакам и сводится к точному составлению запросов в виде набора символов той или иной степени сложности. Даже когда мы ставим галочки и выбираем параметры из меню, мы по сути указываем, какие уже включенные в корпус символы или их комбинации нас интересуют (о некоторых исключениях я расскажу ниже).

Например, поиск мужских или женских ролей в мультимедийном корпусе МУРКO ( www.ruscorpora.ru/search-murco.html) возможен только потому, что корпус уже содержит заранее введенную информацию о том или ином актере. Поиск реплик актера по его изображению или тембру голоса невозможен и вряд ли необходим.

5. Из требования электронного формата следует возможность развития корпуса как в «ширину» (увеличение объема), так и в «глубину» (дополнительная информация о единицах корпуса). Последнее определяет требование к корпусу, которое сегодня все чаще становится обязательным. Я говорю о наличии специальной разметки, или аннотации. Именно она позволяет искать не только по текстоформам, но и по другим параметрам. Говоря по-простому, разметка представляет собой лингвистический разбор всех языковых единиц на выбранном языковом уровне, или, если говорить более формально:

разметка(аннотация, англ. annotation ) – это введенная автоматически или вручную лингвистическая или метатекстовая информация обо всех выбранных единицах корпуса: тексте, предложении, текстоформе, морфеме, звуке и т. д.

Этой важнейшей составляющей современного корпуса будет посвящено несколько глав учебника.

Дополнительная литература

1. Atkins S., Clear J., Ostler N. Corpus design criteria // Literary and linguistic computing. 1992. Vol. 7. № 1. P. 1–16.

2. Biber D. Representativeness in corpus design // Literary and linguistic computing. 1993. Vol. 8. № 4. P 243–257.

3. Integrum: точные методы и гуманитарные науки. М., 2006.

4. McEnery T., Wilson A. Corpus linguistics. Edinburgh: Edinburgh University Press, 1996.

5. O'Keeffe A., McCarthy M. (ed.). The Routledge handbook of corpus linguistics. Routledge, 2010. (Раздел 2: “Building and designing a corpus: what are the key considerations?”).

6. Материалы конференции «Диалог: Компьютерная лингвистика и интеллектуальные технологии». М.; Дубна, 1995-. Доступно по адресу: http://www.dialog-21.ru/.

7. Инструментарий русистики: корпусные подходы. Хельсинки, 2008.

8. Национальный корпус русского языка. 2003–2005: результаты и перспективы. М., 2003.

9. Национальный корпус русского языка. 2006–2008: новые результаты и перспективы. СПб., 2009.

10. Плунгян В. А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики // Русский язык в научном освещении. 2008. № 16 (2). С. 7–20.

11. Труды международной конференции «Корпусная лингвистика». СПб., 2004-. Доступно по адресу: http://www.corpora.phil.spbu.ru/.

12. Шимкова М. Репрезентативность корпуса как лингвистическая проблема // Сборник: Труды Международной конференции MegaLing-2005: Прикладная лингвистика в поиске новых путей. СПб.: Осипов. 2005. С. 130–139. Доступно по адресу: korpus.juls.savba.sk

Задания

1. Посмотрите видеолекцию Владимира Александровича Плунгяна ( ВИДЕО, © ПостНаука; 13:30 мин.) и ответьте на следующие вопросы:

а) Какое определение дает В. А. Плунгян термину «корпус»?

б) Чем лингвист похож на ребенка?

в) Какую часть лингвистической работы сократили языковые корпуса?

г) Что такое Машинный фонд русского языка?

д) Подсчитайте, сколько раз В. А. Плунгян использует формы «корпуснóй / кóрпусный» и «корпусá / кóрпусы».

2. На сайте конференции «Диалог» ( http://www.dialog-21.ru/) найдите программу последней конференции. Сколько раз в названиях докладов встречается слово «корпус» и его производные?

3*. Проведите описанный в главе эксперимент, задав окружающим вопрос «Как дела?». Какого количества опрошенных оказалось достаточно, чтобы ответы стали повторяться?

Глава 2. История корпусной лингвистики

Согласно данным корпусов английского языка, термин corpus linguistics был впервые использован в 1977 году. По меркам развития любой науки это не просто недавно, а прямо-таки вчера. Однако за это время корпусная лингвистика успела стать одним из ведущих направлений современной лингвистики. В России новый термин стал известен, по-видимому, в 1996 году благодаря лекциям одного из создателей знаменитого Международного корпуса английского языка (International Corpus of English, ice-corpora.net/ice) Сидни Гринбаума. Во всяком случае первый раз сочетание «корпусная лингвистика» встретилось в русском корпусе в связи с этим именем:

«В декабре народ ломился на лекции по корпусной лингвистикепрофессора Гринбаума» (журнал «Карьера», № 2, 1999).

Трудно сказать, кто из студентов написал эту заметку в 1999 году, но именно она войдет в историю корпусной лингвистики как первый случай письменной фиксации русского термина.

Конечно, корпусная лингвистика возникла не на пустом месте. Ей предшествовал многовековой период создания корпусов и применения, в сущности, корпусных методов. Однако ключевым отличием от современной корпусной лингвистики были неэлектронная форма хранения материала и, соответственно, неавтоматические способы извлечения данных. Этот период в истории корпусной лингвистики часто называют доцифровым(англ. pre-electronic ).

Знаменитая древнеиндийская грамматика, созданная великим Пáнини, была «антицифровой» по форме и корпусной по сути. Созданная приблизительно в V или IV веке до нашей эры, она передавалась буквально из уст в уста – в виде стихов. С другой стороны, она была основана на внушительном корпусе ведических текстов, представлявших уже мертвый на тот момент язык санскрит.

Многие другие доцифровые корпуса тоже были связаны со священными книгами разных религий. Среди них корпус библейских текстов стал самым популярным и наиболее исследованным. Основанные на Библии списки слов с указанием стихов получили название симфоний, или конкордáнций. Первый конкорданс появился в начале XIII века и назывался «Concordantiae morales sacrae scripturae» («Нравственная конкорданция Священного Писания»).

Следующий этап в развитии доцифровых корпусов наступил в XVIII–XIX веках и был связан с созданием словарей и развитием лексикографии. Многие известные до сих пор словари были созданы авторами на основе многотысячных картотек, по сути – иллюстративных корпусов. Многие из этих корпусов до сих пор хранятся за крепкими дверями с надписью «Картотека» или «Словарный отдел». Однако результатами работы с такими картотекам стали, например, словарь американского английского Ноа Вебстера (Webster’s dictionary) или Словарь живого великорусского языка В. И. Даля.

В. И. Даль собирал материалы для словаря буквально до конца своей жизни: за несколько дней до смерти он добавил новые слова, услышанные от прислуги. Но несколько слов Владимир Иванович придумал сам (например, живуля ), а ряд слов самого что ни на есть живого великорусского языка (например, русский мат), наоборот, исключил.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Михаил Копотев читать все книги автора по порядку

Михаил Копотев - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Введение в корпусную лингвистику отзывы


Отзывы читателей о книге Введение в корпусную лингвистику, автор: Михаил Копотев. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x