Коллектив Авторов - Цифровой журнал «Компьютерра» № 110

Тут можно читать онлайн Коллектив Авторов - Цифровой журнал «Компьютерра» № 110 - бесплатно полную версию книги (целиком) без сокращений. Жанр: Прочая околокомпьтерная литература. Здесь Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Коллектив Авторов - Цифровой журнал «Компьютерра» № 110 краткое содержание

Цифровой журнал «Компьютерра» № 110 - описание и краткое содержание, автор Коллектив Авторов, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
ОглавлениеСтатьи

Что показывают на Mobile World Congress 2012 Автор: Андрей Письменный

Колумнисты

Кафедра Ваннаха: Экономика священных камней Автор: Михаил Ваннах

Василий Щепетнёв: Место для рынка Автор: Василий Щепетнев

Дмитрий Шабанов: Чудеса полового размножения Автор: Дмитрий Шабанов

Кивино гнездо: Ключевые слабости Автор: Киви Берд

Дмитрий Вибе: Я б в астрономы пошёл Автор: Дмитрий Вибе

Голубятня-Онлайн

Голубятня: Чудо Compreno Автор: Сергей Голубицкий

Цифровой журнал «Компьютерра» № 110 - читать онлайн бесплатно полную версию (весь текст целиком)

Цифровой журнал «Компьютерра» № 110 - читать книгу онлайн бесплатно, автор Коллектив Авторов
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Самое печальное, что проблема с плотностью покрытия в рамках СМ никак не решается принципиально. Единственный выход: нанять сотни тысяч переводчиков и заставить их заполнять лакуны по всем направлениям с низким статистическим покрытием. Как вы понимаете, никто это делать не сможет и не будет.

Помимо сложностей с низкой плотностью переводов по направлениям, выпадающим из узкого мейнстрима, у СМ еще множество мелких изъянов. Например, статистическая модель совершенно убого справляется с переводами имен собственных. Многие помнят о переводе Ющенко, как Януковича, а России как Канады. Отрицание (частичка «не») — это очень сложное препятствие. Частичку «не» можно правильно позиционировать в результате лингвистического анализа текста, а СМ таковым не занимается. В результате предложения, содержащие отрицание, часто переводятся движками на статистической модели с точностью до наоборот.

Как бы там ни было, ABBYY изначально отказалась от Rule Based Translation Model и замахнулась на систему компьютерного перевода нового поколения. Надо сказать, что придумывать особо ничего не требовалось. Универсальный язык понятий существует в структурной лингвистике в виде давней и несбыточной мечты еще со времен Людвига Витгенштейна. Даже Наум Хомский в своих ранних трудах лишь углублял существующую утопию.

Проект Compreno исходил из трех основополагающих посылок:

- использование качественного и бескомпромиссного синтаксического анализа.

- создание универсальной когнитивной модели языка, возможность которой определяется аксиомой о том, что люди, хоть и живут в разных условиях и говорят на разных языках, однако в массе своей мыслят одинаково. Формы выражения мысли разные, а вот понятийный аппарат совпадает.

- автоматизированное корпусное дообучение — лингвистические описания верифицируются и дополняются на основании статистической обработки корпусных данных.

Исходя из этих посылок была сформулирована идея Универсальной Семантической Иерархии (УСИ), способной описывать явления от общего к частному. На составление этой иерархии у ABBYY и ушло 15 лет. Получилось то, что вы уже знаете: только на сегодняшний день 70 тысяч понятий в универсальной части когнитивной модели, более 80 тысяч — в русской, более 90 — в английской.

Алгоритм машинного перевода, основанного на УСИ, выглядит следующим образом:

- Лексический анализ текста (выделение слов, знаков препинания, цифр и прочих текстовых единиц);

- Морфологический анализ (определение грамматических характеристик лексем);

- Синтаксический анализ (установление структуры предложения);

- Семантический анализ (выявление выражаемого значения в системе языка);

- Синтез из универсальной семантической структуры предложения на выходном языке.

В результате подбор слов для перевода осуществляется не напрямую из первого языка, а из понятийного набора, который, условно говоря, «висит» на той же ветке универсального семантического дерева, но только уже со стороны второго языка.

Поскольку модель УСИ сквозная, нижестоящие элементы системы по иерархии наследуют признаки вышестоящих элементов. Это простое, казалось бы, обстоятельство позволяет добиваться беспрецедентной точности машинного перевода, поскольку каждое слово из переводимого предложения описывается максимальным набором понятийных эквивалентов, причем не только видового, но и родовых качеств на всех уровнях смысловой иерархии.

В УСИ предусмотрены взаимосвязи между элементами структуры, относящимися к разным классам, и эти связи также структурированы и формализированы, что позволяет выполнять многоуровневый понятийный анализ текста, также повышающий качество перевода.

В процессе создания УСИ разработчикам открылись неожиданные грани использования системы: помимо машинного перевода язык УСИ можно использовать в интеллектуальных смысловых поисках и, возможно, автоматическом распознавании речи на новом качественном уровне, который достигается за счет глубокой интеграции и взаимопроникновения синтаксиса и семантики в модели универсальной семантической иерархии.

На альтернативных направлениях возникают, конечно, и свои сложности. Скажем, сегодня самым узким местом для глобального применения семантико-синтаксического анализа в массовых поисковых системах выступают очень высокие требования к компьютерным мощностям, необходимым для индексации информационных массивов на понятийном уровне. Требования эти несоизмеримо выше, чем при существующих формах традиционной индексации. Впрочем, уже сегодня методика семантико-синтаксического анализа может эффективно применяться (и применяется ABBYY — видел полностью функциональный прототип поискового движка собственными глазами) для более целенаправленного и узкого поиска в закрытых корпоративных системах.

Мировых аналогов у Compreno сегодня нет, хотя в некоторых университетах и ведутся разработки в аналогичных направления. Однако фора в 15 лет, задействованные огромные человеческие ресурсы и материальные затраты позволяют надеяться, что ABBYY таки сумеет застолбить для себя эксклюзивное место первопроходца. На руку компании играет и то обстоятельство, что последние 10 лет подавляющая масса исследований в мире велась в русле статистической модели машинного перевода.

За теоретическим введением в Compreno последовало более чем часовое погружение в демонстрацию работы движка компьютерного перевода, основанного на УСИ. Я сидел в одном из конференц-залов офиса ABBYY и непрестанно протирал глаза, все еще до конца не веря в услышанное и увиденного.

Цифровой журнал Компьютерра 110 - фото 16 Теперь пользуюсь разрешением и демонстрирую читателям сравнение переводов вы - фото 17 Теперь пользуюсь разрешением и демонстрирую читателям сравнение переводов - фото 18 Теперь пользуюсь разрешением и демонстрирую читателям сравнение переводов - фото 19

Теперь пользуюсь разрешением и демонстрирую читателям сравнение переводов, выданных Compreno и статистическим переводчиком (каким — гостеприимные хозяева просили не называть, но думаю, не маленькие и сами догадаетесь ☺

Не сомневаюсь, что для любого человека, знающего толк в переводах, это сравнение откроет новую вселенную. Вот работа статистического переводчика (разумеется, предложения подобранны специально «поддых», поскольку бьют в самые слабые места статистической модели перевода).

Это господа просто другой космос другой уровень понимания текста Это - фото 20

Это, господа, просто другой космос, другой уровень понимания текста. Это — революция!

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Коллектив Авторов читать все книги автора по порядку

Коллектив Авторов - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Цифровой журнал «Компьютерра» № 110 отзывы


Отзывы читателей о книге Цифровой журнал «Компьютерра» № 110, автор: Коллектив Авторов. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x