Компьютерра - Журнал Компьютерра №729
- Название:Журнал Компьютерра №729
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:неизвестен
- ISBN:нет данных
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Компьютерра - Журнал Компьютерра №729 краткое содержание
Журнал Компьютерра №729 - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:

Увы, языковая модель, построенная на текстах новостной базы, не может быть применена в создании, например, языковой модели для распознавания спортивных трансляций (и наоборот).
"Общая модель языка, - говорит Татарникова, - в принципе, вряд ли интересна: каждый приобретающий систему распознавания будет использовать ее в своих целях, подразумевающих определенный стиль речи. И за рубежом так же".
Татарникова приводит как доказательство от противного довольно известную разработку Dragon, принадлежащую фирме Nuance. Продаваемая этой компанией система диктовки для любого текста и любого пользователя требует перед началом работы адаптации языковых моделей и расширения словаря. Адаптация языковых моделей производится путем загрузки в систему типичных для работы пользователя текстов и последующей корректировки статистических языковых моделей. Расширение словаря - задача пользователя. Насколько успешно он с ней справится, настолько успешно будет работать система. Любая система распознавания знает только те слова, что есть в ее словаре.
Существует в системе Dragon подстройка и под голос диктора. Для этого нужно минут тридцать почитать тексты, предложенные системой, чтобы программа адаптировала параметры существующих акустических моделей.
В ЦРТ также ведется работа по созданию алгоритмов адаптации акустических моделей под голос диктора, но в принципе уже ясно: журналистам, которым приходится проводить интервью с разными людьми в разном окружении, рассчитывать особо не на что. Универсального продукта для русского языка ждать не стоит. Даже более простой (в контексте распознавания) английский язык специалистам пока не поддается. О записи неформальной беседы, кажется, нет и речи.
"Надеяться на быстрое появление мобильных и даже стационарных устройств для распознавания спонтанной речи (например, нашего с вами разговора) вряд ли стоит в ближайшее время, - говорит Марина Татарникова.
Спонтанная речь отличается более сложными языковыми и акустическими моделями. Кроме того, необходимы речевые базы спонтанной речи гораздо больших объемов".
"Определенный скепсис насчет систем распознавания речи, конечно, имеет место, - продолжает Татарникова.
- На самом же деле, в мире такие системы есть, и они замечательно работают. Например, их используют медицинские учреждения в США". Известно, что медицинским работникам постоянно требуется делать какие-то записи, будь то история болезни или протоколирование действий. Медики в США просто наговаривают текст, который автоматически переводится в машинный вид. Этот текст нуждается лишь в косметической правке. Соответствующие технологии есть, к примеру, у той же Nuance. То, что это хорошие системы, косвенно подтверждает Алексей Хитров:
"У одной Nuance - капитализация 5 млрд. долларов. Это на три порядка больше, чем мы смогли вложить в наши разработки. Обращаю внимание на то, что и у них наибольших успехов достигли системы, работающие на ограниченных специализированных словарях. По разным данным, объем продаж только медицинских систем распознавания речи в США составляет 12–15 млрд. долларов".
В ЦРТ тоже планируют зарабатывать именно на специальных воплощениях своей системы распознавания, то есть компании интересен прежде всего корпоративный рынок. Правда, не факт, что первыми с новыми технологиями ознакомятся медики. В Америке создание речевых баз для систем распознавания было государственным проектом, чего не скажешь о российских разработках. Интерес, конечно, у наших медиков тоже есть, но нет государственной заинтересованности, чтобы оплачивать дорогостоящие исследования.
"И акустические, и языковые модели, а также алгоритмы для декодера - у нас собственной разработки", - говорит Хитров. По его словам, решение для диктовки текста будет готово в течение года. Сейчас ЦРТ доделывает программу Voice Digger для Auto Data Mining (поиск ключевых слов в звуковых файлах), а также готов представить распознавание команд для IVR [Interactive voice response.] -систем (управление голосом).
Из всей этой группы готовящихся или почти готовых продуктов самой массовой кажется система для диктовки.
Она призвана сделать реальностью голубую мечту многих людей, желающих диктовать компьютеру текст, а не набирать вручную. Однако в ЦРТ повторяют, что такие системы эффективны лишь при работе с тематически ограниченным словарем. Впрочем, электронного писаря Центр пока в люди не выводит, зато мне удалось немного поработать с другими программами, благо базируются они на одной и той же технологии.
Система IVR используется в самом ЦРТ для автоматического перенаправления входящих звонков. Тест прошел на ура, но как-то не впечатлил: автосекретарь вместо привычного "нажмите 1 или 2" говорил "скажите 1 или 2".
Наверное, можно реализовать и более сложные системы такого типа, но рука тянулась к клавиатуре телефона - привычка.
Система голосовой верификации "Голосовой замок" (Voice key) призвана контролировать доступ к чему угодно: к компьютеру, к папке на диске, к сайту. В ЦРТ, например, сотрудники произносят пароль, если нужно выйти в Интернет.[Удивляет не столько технология, сколько применение. - Прим. ред.] Банальным повтором ключевой фразы обойти систему не удалось. Не удалось этого сделать и с помощью записи ключевой фразы на диктофон с последующим воспроизведением через встроенный динамик, хотя, конечно, это был примитивный способ, но студийного микрофона и качественных динамиков поблизости не оказалось. Voice key требует произносить ключевую фразу в одной манере, микрофон следует держать примерно на одном и том же расстоянии ото рта. Система может быть чувствительной к замене микрофона или изменению тембра голоса при, скажем, простуде и, что интересно, не примет абсолютного полного совпадения с образцом, полагая это подвохом.
Для теста Voice digger мы запустили 23-секундный фрагмент новостной передачи, состоящий из двух частей: репортажа корреспондента с улицы и комментария диктора из студии. Ключевое слово, выбранное для поиска по записи, состояло из восьми слогов. При указании ключевого слова в программе нужно отметить ударную гласную. Поскольку ключевое слово нарочно было выбрано так, чтобы оно пришлось на часть записи, сделанную на улице, поиск результатов не дал: акустические модели действующей системы соответствуют или близки к студийной записи.
"При распознавании ключевой фразы или слова длиной пять-шесть слогов эффективность работы системы - 86%, - рассказывает Марина Татарникова. - Снижение количества слогов увеличивает количество ложных срабатываний, но при этом, как правило, нужный фрагмент тоже находится". Поиск пока чувствителен к различным словоформам. Однако, уверяют в ЦРТ, нет ничего сложного в том, чтобы заставить систему автоматически формировать все варианты слова [Но тут, думается, все зависит от реализации. Если система вместо одного слова будет искать десять его форм как независимые слова, то время поиска увеличится на порядок. С другой стороны, можно просто искать основу слова] .
Читать дальшеИнтервал:
Закладка: