Тревор Кокс - Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта

Тут можно читать онлайн Тревор Кокс - Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта - бесплатно ознакомительный отрывок. Жанр: sci_popular, издательство КоЛибри, Азбука-Аттикус, год 2020. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Читать книгу

Название:

Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта
Автор:

Тревор Кокс
Жанр:

sci_popular
Издательство:

КоЛибри, Азбука-Аттикус
Год:

2020
Город:

М.
ISBN:

978-5-389-17812-0
Рейтинг:

4/5. Голосов: 11
Избранное:

Добавить в избранное
Отзывы:

Читать комментарии
Ваша оценка:
80

1

2

3

4

5

Тревор Кокс - Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта краткое содержание

Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта - описание и краткое содержание, автор Тревор Кокс, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru

Эта книга — захватывающая история нашей способности говорить. Тревор Кокс, инженер-акустик и ведущий радиопрограмм BBC, крупным планом демонстрирует базовые механизмы речи, подробно рассматривает, как голос определяет личность и выдает ее особенности. Книга переносит нас в прошлое, к истокам человеческого рода, задавая важные вопросы о том, что может угрожать нашей уникальности в будущем. В этом познавательном путешествии мы встретимся со специалистами по вокалу, звукооператорами, нейробиологами и компьютерными программистами, чей опыт и научные исследования дадут более глубокое понимание того, что мы обычно принимаем как должное.

Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта - читать онлайн бесплатно ознакомительный отрывок

Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Тревор Кокс

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

Системы, подобные Павароботти, пока не представляют угрозы человеческому пению, потому что создание разных голосов и огромных словарей в настоящее время нецелесообразно. Если «весь мир — театр», тогда «каждый [робот] не одну играет роль [32] Фраза из монолога Жака комедии Шекспира «Как вам это понравится» дана в переводе Т. Л. Щепкиной-Куперник. ». Для того чтобы машина научилась производить разнообразные уникальные и богатые голоса, нужен другой подход.

Историю систем производства речи, подобных Siri в iPhone, можно проследить до работ Дадли и других ученых из Лабораторий Белла. Наряду с изобретением Водера, эти люди создали очень похожее изобретение, с которым мы уже встречались ранее, — вокодер. Эта технология сыграла важную роль во Второй мировой войне.

В ходе этой войны секретная связь между союзниками была жизненно необходима. Но уже в первые дни войны германские специалисты по взламыванию шифров придумали, как расшифровать и подслушивать разговоры, — например, трансатлантические телефонные переговоры между президентом Рузвельтом и премьер-министром Черчиллем {302} 302 Boone J. V., Peterson R. R. Sigsaly — The Start of the Digital Revolution // NSA. 2016. https://www.nsa.gov/about/cryptologic-heritage/historical-fig-ures-publications/publications/wwii/sigsaly-start-digital.shtml . . Была необходима новая система шифрования звонков, и решением, разработанным Лабораториями Белла в 1943 году, стал вокодер SIGSALY [33] SIGSALY — это вымышленное название, а не аббревиатура. — Примеч. автора . . Он участвовал в военных операциях, в том числе в атомной бомбардировке Японии {303} 303 Kahn D . How I Discovered World War II’s Greatest Spy and Other Stories of Intelligence and Code. CRC Press. 2014. . Вокодер — сокращение от «кодировщик голоса» (voice coder), с помощью электроники он разбирает записанную на микрофон речь, разделяя ее на источник (гудение голосовых связок) и фильтр (окрашивание звука голосовым трактом). Затем разделенная на два потока речь шифровалась и отправлялась через Атлантику. За океаном эти сигналы дешифровывались, а голос восстанавливался с использованием особой технологии, подобной технологии Водера. Военные записи не сохранились, но, судя по описаниям, речь можно было (хотя и с трудом) разобрать.

SIGSALY были сложными машинами и такими большими, что могли бы занять теннисный корт. Сердцем системы кодирования были два идентичных виниловых диска, один находился в Лондоне, другой — в Вашингтоне. На них были сделаны парные записи произвольного шума, которые использовались только один раз, а затем уничтожались. Записям давались кодовые названия, например «Красная клубника», «Дикая собака» или «Цирковой клоун», и операторы знали, какую из них нужно поставить на магнитофон для каждого звонка {304} 304 Vox Ex Machina // 99 % Invisible Podcast. 2016. . Шум от винила добавлялся к сигналам еще до их передачи, а на другом конце дубликат записи позволял его отделить. Без соответствующих записей взломать передаваемые радиосигналы было невозможно. Передача была похожа на жужжание насекомого, что привело к появлению прозвища «Зеленый шершень».

Это было потрясающее достижение, оно открыло дорогу многим нововведениям в технологии распознавания и синтеза речи, некоторые используются и сегодня. Это была первая закодированная телефонная система, позволившая оцифровать и сжать человеческий голос. Сегодня мы принимаем это как должное, когда пользуемся мобильными телефонами. Кроме того, вокодер SIGSALY продемонстрировал, как звук может быть разбит на небольшой набор компонентов, которые затем можно передать и реконструировать на другом конце провода. Это и есть ключевые ингредиенты в рецепте создания речи, и их можно варьировать для создания предложений, изменения акцента и других аспектов произношения.

Если вы хотите, чтобы актер-робот прочитал пьесу Шекспира, придется написать рецепт. Верное соотношение ингредиентов нужно будет загрузить в вокодер, чтобы робот мог использовать сценарий и понять, как произносить слова. Представьте, что в компьютер нужно загрузить текст из последнего монолога Макбета: «Бесчисленные “завтра”, “завтра”, “завтра”» [34] Отрывок монолога дается в переводе М. Лозинского. . Если каждое «завтра» произносить с одинаковой интонацией, это будет звучать ужасно. Но многие системы синтеза речи до сих пор используют один и тот же повторяющийся рисунок, и даже лучшие образцы речи, которые они создают, значительно уступают исполнению настоящего шекспировского актера.

Я загрузил «Быть или не быть» в одну из лучших систем преобразования текста в речь {305} 305 http://www.acapela-group.com/ . . Из предлагаемых этой системой голосов больше всего мне понравился WillBadGuy: это скрипучий голос героя боевиков. Но звучал он так, будто WillBadGuy получил удар по голове: голосу не хватало беглости. Потом я попробовал искусственный голос десятилетнего подростка, который проскакал весь монолог, шепелявя, как робот. Повышение тона голоса, как при вопросительной интонации в вопросе, в конце каждой строки меня добило. Чтобы приблизиться к речи настоящего актера, система преобразования текста должна уметь не просто распознавать слова, но и интерпретировать их. Однако для этого требуется искусственный интеллект высокого уровня, и человеку еще предстоит долгий путь до реализации этого технологического чуда.

Чтобы узнать больше о современных системах синтеза речи, я отправился в Эдинбург к профессору Саймону Кингу, который специализируется на обучении компьютера речи. Подобно механику, который разбирает и заново собирает мотоцикл, чтобы понять, как он работает, в своих программах Саймон анализирует и реконструирует речь, чтобы узнать больше о вербальной коммуникации. Слушая рассказы Саймона о проблемах, связанных с синтезом речи, я осознал, что, облекая язык в слова, мы совершаем невероятный человеческий подвиг — и принимаем это как должное!

Системе синтеза речи необходимо имитировать способность человека оживлять текст, но, чтобы это сделать, ей придется научиться распознавать определенные характеристики. Текст уже содержит некоторые явные подсказки относительно того, как нужно произносить слова: это, например, орфография и пунктуация. Скажем, вопросительный знак указывает на восходящий тон. Но в дополнение к этому придется учесть и использовать огромное количество внешних знаний, которых нет в самом тексте. Полезным может оказаться словарь произношения, особенно для таких языков, как английский, который не является фонетическим. Но ведь постоянно создаются новые слова, которые нельзя найти в словаре, и они обязательно вызовут проблемы. Саймон отвечает просто: «Обязательно будут ошибки».

Чтобы произведенная компьютером речь звучала убедительно, нужно также, чтобы он попытался извлечь из текста смысл. Возьмем 130-й сонет Шекспира, который начинается так: «Ее глаза на звезды не похожи» [35] Перевод С. Я. Маршака. . Если бы его читал человек, он бы подчеркнул слова «глаза» и «звезды», чтобы усилить контраст. Этот сонет — сатира на любовную поэзию, в нем целый ряд шаблонных сравнений, которые уж никак не подходят возлюбленной автора. Система синтеза речи должна будет определить функцию каждого слова, ей придется опознать контрастирующие слова, чтобы выбрать для речи соответствующее ударение. Попробуйте послушать этот сонет на своем компьютере в исполнении бесплатного онлайн-синтезатора. Конечно, результат будет комичным, но только потому, что компьютер исковеркает тщательно продуманную иронию.