Тревор Кокс - Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта

Тут можно читать онлайн Тревор Кокс - Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта - бесплатно ознакомительный отрывок. Жанр: sci_popular, издательство КоЛибри, Азбука-Аттикус, год 2020. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Читать книгу

Название:

Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта
Автор:

Тревор Кокс
Жанр:

sci_popular
Издательство:

КоЛибри, Азбука-Аттикус
Год:

2020
Город:

М.
ISBN:

978-5-389-17812-0
Рейтинг:

4/5. Голосов: 11
Избранное:

Добавить в избранное
Отзывы:

Читать комментарии
Ваша оценка:
80

1

2

3

4

5

Тревор Кокс - Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта краткое содержание

Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта - описание и краткое содержание, автор Тревор Кокс, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru

Эта книга — захватывающая история нашей способности говорить. Тревор Кокс, инженер-акустик и ведущий радиопрограмм BBC, крупным планом демонстрирует базовые механизмы речи, подробно рассматривает, как голос определяет личность и выдает ее особенности. Книга переносит нас в прошлое, к истокам человеческого рода, задавая важные вопросы о том, что может угрожать нашей уникальности в будущем. В этом познавательном путешествии мы встретимся со специалистами по вокалу, звукооператорами, нейробиологами и компьютерными программистами, чей опыт и научные исследования дадут более глубокое понимание того, что мы обычно принимаем как должное.

Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта - читать онлайн бесплатно ознакомительный отрывок

Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Тревор Кокс

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

Такие компании, как Google, Apple и Microsoft, сегодня владеют огромными массивами звукозаписей, которые они используют для создания систем распознавания речи. В одном из экспериментов Microsoft использовала данные продолжительностью 24 часа из своего голосового приложения, содержащего 30 000 высказываний. Люди искали конкретные фирмы, поэтому часто встречались слова Walmart, McDonald’s или 7-Eleven . Закончив самообучение, искусственная нейронная сеть достигла точности 70 % в распознавании предложений при голосовых запросах, которые она раньше никогда не слышала {370} 370 Dahl G. E., Yu D., Deng L., Acero A . Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition // Audio, Speech, and Language Processing. 2012. IEEE Transactions. Vol. 20 (1). P. 30–42. . Такой результат впечатляет, если учесть, что у авторов записей были разные акценты, в сообщениях содержались ошибки в произношении и фоновый шум. Однако это все равно означает, что многие слова, предложенные алгоритмом, были выбраны неправильно. Но это проблема не только компьютеров. Как мы уже видели, когда люди слушают речь, в ней часто могут отсутствовать куски или присутствовать ошибки, но мозг заполняет пропуски или вносит исправления. То же самое можно сказать и о чтении. Не так уж трудно понять следующее предложение: «По реузльтатам иселдовасния… не имеет занчения, в каокм поярдке сотят бувкы в солвах, евидстенная ванжая вещщ — тошбы певрая и оплсендяя букав была в нжуонм метсе» {371} 371 Rayner K., White S. J., Johnson R. L., Liversedge S. P . Raeding Wrods With Jubmled Lettres There Is a Cost // Psychological science. 2006. Vol. 17 (3). P. 192–193. . Испорченный текст можно исправить при условии, что достаточное количество букв — правильные. Это же относится и к речи.

Когда вы набираете поисковый запрос в браузере, появляются варианты окончания искомого текста. Когда я набираю в поисковике «Тревор Кокс», первое предложение будет «Тревор Кокс WHL» [37] WHL — Западная хоккейная лига. , потому что мое имя совпадает с именем канадского игрока в хоккей на льду, играющего за Medicine Hat Tigers. Такие предположения возможны, поскольку для создания моделей языка используются обширные данные, и в приведенном примере слова, скорее всего, встречаются рядом при поисковом запросе. Подобное моделирование языка жизненно важно для распознавания речи, так как позволяет исправлять неверно понятые слова {372} 372 В 2011 году голосовой поиск Google натренировали на 240 миллиардов слов, загруженных от миллионов пользователей. См.: Speech Recognition Lightning Talk — Google and AAAI 2011. https://www.youtube.com/watch?v=g6iAOdRsDOM . .

Голосовой поиск удивительно эффективен, но может ли он помочь в распознавании лжи? Только не сегодня, поскольку модель языка фокусируется на вероятных маркерах поиска, и у Google для этого имеются огромные массивы информации. Компания начала анализировать ложные факты на веб-страницах, таким образом, рейтинги результатов исследования могут основываться на надежности сайта {373} 373 Dong X. L. et al . Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources // IEEE Data Eng. Bulletin. 2016. Vol. 39 (2). P. 106–117. . Но это имеет свои ограничения в плане обнаружения лжи, потому что письменный и устный язык работают по-разному. Давайте рассмотрим богатство игры слов, например, в спунеризме, и проблему создания модели языка, которая могла бы с этим работать. У богослова Уильяма Спунера, который родился в 1844 году, были проблемы: язык не успевал за мозгом. Говорят, что однажды на бракосочетании он сказал: «А теперь поцелуйно обругайте невесту» ( It is kisstomary to cuss the bride ). А однажды он случайно предложил тост за «нашего чудаковатого старика-декана» ( our queer old dean ) вместо «за нашу добрую старушку королеву» ( our dear old queen ) {374} 374 Chilton M . The best spoonerisms // Telegraph. 2015. .

Ученые уже пытались использовать машинное самообучение для обнаружения шуток, включая двусмысленности {375} 375 Kiddon C., Brun Y . That’s what she said: double entendre identification // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 2011. Vol. 2. P. 89–94. . Они обучают компьютер искать слова с неприличными намеками, например «банан» ( banana ). Кроме того, для эротических предложений характерны определенные структуры, которые встречаются и в двусмысленных фразах, например: «[субъект] мог бы есть [объект] весь день напролет». После завершения обучения компьютер обнаружил двусмысленные предложения в 70 % случаев. (Это предложение вызывает двусмысленность в сложных проблемах машинного обучения.)

Возможно, если компьютер услышит характерные звуки смеха, он сможет легко обнаруживать шутки. Когда я встретился с нейробиологом Софи Скотт из Университетского колледжа Лондона, чтобы задать ей несколько вопросов об импрессионистах, мы обсуждали и ее исследование, в котором она пыталась определить, как человек выражает эмоции. Работа Софи началась с изучения вызванных испугом криков и выражений недовольства, и только позже она переключилась на более приятное занятие: начала исследовать смех. Но ей пришлось убеждать скептиков, что это серьезный предмет для изучения. Однажды кто-то из коллег Софи прикрепил к пачке отпечатанных на принтере бланков согласия на участие в исследовании следующую записку:

Эта кипа бумажек — просто макулатура, судя по содержанию [38] И это наука? — Примеч. автора. , и если ее не заберут, она будет ликвидирована.

Но смех — это серьезный предмет, потому что для человека он является обычным состоянием. «При прочих равных условиях вы чувствуете себя комфортно и хорошо с окружающими вас людьми. Вы смеетесь в их присутствии», — объясняет Скотт. Если смех отсутствует, значит, что-то не в порядке. Крайний случай такой ситуации — это люди, страдающие гелотофобией: они боятся смеха, потому что думают, что смеются над ними. Этот случай Софи описывает следующим образом: «На сто процентов данное явление связано с тем, что человек находится в безнадежном психотическом состоянии». Исследование смеха помогает добраться до сути социальных взаимодействий, потому что смех облегчает разговор. Пары, которые снимают неизбежный стресс от постоянного нахождения в обществе друг друга с помощью смеха, в большей степени удовлетворены своими отношениями и дольше остаются вместе.

Прежде чем перейти к обсуждению акустического отпечатка, оставляемого смехом, Софи демонстрирует модель мозга, чтобы показать области, задействованные в процессе слушания. В случае речи левое полушарие задействовано в обработке фонетической, семантической, лексической и синтаксической информации. Это означает, что правое полушарие концентрируется на всех остальных свойствах голоса, таких как интонация или идентификация говорящего. Следовательно, когда Софи исследует человека на фМРТ-сканере и проигрывает ему запись смеха, правое полушарие демонстрирует бо́льшую активность.