Владимир Алпатов - Языкознание: От Аристотеля до компьютерной лингвистики
- Название:Языкознание: От Аристотеля до компьютерной лингвистики
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:2015
- ISBN:9785961450842
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Владимир Алпатов - Языкознание: От Аристотеля до компьютерной лингвистики краткое содержание
Языкознание: От Аристотеля до компьютерной лингвистики - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
В действительности всё оказалось сложнее. В 1966 г. в США пришли к выводу о том, что существовавшие к тому времени системы машинного перевода не оправдали надежд, а обычный ручной перевод оставался дешевле машинного. После этого государственное финансирование данных работ было свернуто, хотя частные кампании его могли и продолжать, поскольку многие заказчики при очень большом объеме технической документации были заинтересованы в любых способах поиска информации, даже низкого качества. В СССР же развитие исследований продолжалось, и с 1970-х гг. начали работать промышленные системы машинного перевода. Часть из них не пережила кризис 1990-х гг., но некоторые системы разрабатываются десятилетиями, как система японско-русского перевода под руководством Зои Михайловны Шаляпиной в Институте востоковедения РАН.
Всё же современные исследователи вынуждены признать, что первоначальные надежды оказались завышенными. Разумеется, никто не ставит вопрос об автоматическом переводе художественных текстов, но и соответствующий перевод научно-технических текстов пока что за редчайшими исключениями не может осуществляться без непосредственного участия человека, хотя бы на уровне предредактирования и постредактирования. О состоянии машинного перевода (МП) пишет автор учебника «Введение в прикладную лингвистику» Анатолий Николаевич Баранов: «В настоящее время системы МП успешно функционируют в тех областях, где либо не требуется абсолютная точность перевода, либо существуют серьезные ограничения на использование структур естественного языка, где входной язык нормирован и упрощен». Используются либо системы, где не требуется высокое качество перевода, либо, если такое качество необходимо (например, при переводе официальных документов), возрастает роль этапа постредактирования. Чуть ли не единственной целиком автоматизированной системой является канадская система, переводящая тексты метеосводок с английского языка на французский; здесь перевод происходит в рамках очень сильно стандартизированного подъязыка.
Предполагалось, что с 1970-х гг. появятся системы третьего поколения, где будет не только производиться морфологический и синтаксический анализ и синтез (эта проблема более или менее решалась уже во втором поколении), но и вступят в действие семантические компоненты, в конечном итоге являющиеся главными. Надеялись на создание универсального семантического языка-посредника; если бы он был создан, то получилось бы что-то вроде универсальной логической структуры в «Грамматике Пор-Рояля» XVII в. или глубинной структуры у Хомского. Но такого языка нет и сейчас, а проблема неоднозначности решена лишь частично, поскольку она в значительной степени является семантической.
Однако компьютерная лингвистика отнюдь не сводится к трудной и лишь частично решенной проблеме машинного перевода. Здесь на полюсе, связанном с максимальной сложностью объекта, находится машинный перевод, однако далеко не всегда нам для практических нужд необходимо анализировать и переводить весь текст. На другом полюсе находятся значительно более простые и вполне решаемые проблемы, например когда нужно из большого массива текстов выбрать те тексты, в которых содержатся интересующие нас ключевые слова. В промежутке между двумя полюсами имеются системы, решающие разные другие практические задачи, не охватывающие систему языка в целом. Обычно в таких случаях говорят об информационно-поисковых системах (ИПС). Такие системы в больших количествах создавались в советских ведомственных НИИ в 1960–1980-е гг.
Эти системы так или иначе связаны с обработкой массивов текстов на естественном языке. В них не ставится задача сохранения всей имеющейся в текстах информации. Тем или иным способом осуществляется ее редукция, позволяющая найти во множестве документов то, что соответствует данному запросу. В том числе такие системы на основе заданных параметров обеспечивают составление рефератов и аннотаций обрабатываемых документов. Документы могут описываться на особом формальном информационно-поисковом языке; составляется словарь дескрипторов — слов, обозначающих категории и понятия области, в которой ведется поиск. На основе этого словаря информационная система должна выделить среди обрабатываемых текстов те, которые имеют запрашиваемое содержание. Более простые системы только выделяют нужную лексику, но в других системах может в определенных пределах проводиться и грамматический анализ.
Наряду с прикладными направлениями, сложившимися в рамках формальной лингвистики, большое место в последние десятилетия занимают и направления работ, связанные с функционализмом. Среди них надо особо выделить корпусную лингвистику.
Как определяют создатели Национального корпуса русского языка (НКРЯ), лингвистический корпус — это «информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всем многообразии жанров, стилей, территориальных и социальных вариантов». Такого рода представления, конечно, создавались и раньше, прежде всего при составлении словарей. Известны огромные картотеки, вручную формировавшиеся десятилетиями на основе расписки большого количества текстов. Но теперь они создаются в электронном виде и постоянно пополняются.
Впервые лингвистический корпус был создан в США в 1960-е гг. Первые корпуса были невелики по объему, стандартом считался объем в миллион слов, что было недостаточно. Значительное развитие корпусная лингвистика получила с 1980-х гг. в связи с дальнейшим развитием вычислительной техники. В настоящее время НКРЯ (формируется с начала 2000-х гг.) содержит более 600 млн словоупотреблений, и эта цифра постоянно растет. Важна представительность и сбалансированность корпуса, в который должны включаться не только письменные, но и устные тексты. Конечно, наряду с корпусами, представляющими язык в целом, распространены и корпуса, специализированные для какой-то его части; корпуса могут отражать лишь современный язык, но могут, как НКРЯ, включать в себя и тексты на протяжении того или иного периода времени. Наряду с одноязычными корпусами существуют и многоязычные.
Корпус — не то же самое, что просто электронное собрание текстов большого объема. При его создании необходимо провести ряд операций, именуемых разметкой. Нужно разделить тексты на слова, привести каждое слово к его словарной форме, провести морфологический, синтаксический, акцентологический анализ. Серьезную проблему составляет то, что при обширном объеме корпуса в ответ на запрос может быть выдано столь большое число в основном ненужной информации, что ее невозможно охватить. Поэтому нужны также системы группировки поиска.
Читать дальшеИнтервал:
Закладка: