Тревор Кокс - Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта
- Название:Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта
- Автор:
- Жанр:
- Издательство:КоЛибри, Азбука-Аттикус
- Год:2020
- Город:М.
- ISBN:978-5-389-17812-0
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Тревор Кокс - Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта краткое содержание
Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Такие компании, как Google, Apple и Microsoft, сегодня владеют огромными массивами звукозаписей, которые они используют для создания систем распознавания речи. В одном из экспериментов Microsoft использовала данные продолжительностью 24 часа из своего голосового приложения, содержащего 30 000 высказываний. Люди искали конкретные фирмы, поэтому часто встречались слова Walmart, McDonald’s или 7-Eleven . Закончив самообучение, искусственная нейронная сеть достигла точности 70 % в распознавании предложений при голосовых запросах, которые она раньше никогда не слышала {370} 370 Dahl G. E., Yu D., Deng L., Acero A . Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition // Audio, Speech, and Language Processing. 2012. IEEE Transactions. Vol. 20 (1). P. 30–42.
. Такой результат впечатляет, если учесть, что у авторов записей были разные акценты, в сообщениях содержались ошибки в произношении и фоновый шум. Однако это все равно означает, что многие слова, предложенные алгоритмом, были выбраны неправильно. Но это проблема не только компьютеров. Как мы уже видели, когда люди слушают речь, в ней часто могут отсутствовать куски или присутствовать ошибки, но мозг заполняет пропуски или вносит исправления. То же самое можно сказать и о чтении. Не так уж трудно понять следующее предложение: «По реузльтатам иселдовасния… не имеет занчения, в каокм поярдке сотят бувкы в солвах, евидстенная ванжая вещщ — тошбы певрая и оплсендяя букав была в нжуонм метсе» {371} 371 Rayner K., White S. J., Johnson R. L., Liversedge S. P . Raeding Wrods With Jubmled Lettres There Is a Cost // Psychological science. 2006. Vol. 17 (3). P. 192–193.
. Испорченный текст можно исправить при условии, что достаточное количество букв — правильные. Это же относится и к речи.
Когда вы набираете поисковый запрос в браузере, появляются варианты окончания искомого текста. Когда я набираю в поисковике «Тревор Кокс», первое предложение будет «Тревор Кокс WHL» [37] WHL — Западная хоккейная лига.
, потому что мое имя совпадает с именем канадского игрока в хоккей на льду, играющего за Medicine Hat Tigers. Такие предположения возможны, поскольку для создания моделей языка используются обширные данные, и в приведенном примере слова, скорее всего, встречаются рядом при поисковом запросе. Подобное моделирование языка жизненно важно для распознавания речи, так как позволяет исправлять неверно понятые слова {372} 372 В 2011 году голосовой поиск Google натренировали на 240 миллиардов слов, загруженных от миллионов пользователей. См.: Speech Recognition Lightning Talk — Google and AAAI 2011. https://www.youtube.com/watch?v=g6iAOdRsDOM .
.
Голосовой поиск удивительно эффективен, но может ли он помочь в распознавании лжи? Только не сегодня, поскольку модель языка фокусируется на вероятных маркерах поиска, и у Google для этого имеются огромные массивы информации. Компания начала анализировать ложные факты на веб-страницах, таким образом, рейтинги результатов исследования могут основываться на надежности сайта {373} 373 Dong X. L. et al . Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources // IEEE Data Eng. Bulletin. 2016. Vol. 39 (2). P. 106–117.
. Но это имеет свои ограничения в плане обнаружения лжи, потому что письменный и устный язык работают по-разному. Давайте рассмотрим богатство игры слов, например, в спунеризме, и проблему создания модели языка, которая могла бы с этим работать. У богослова Уильяма Спунера, который родился в 1844 году, были проблемы: язык не успевал за мозгом. Говорят, что однажды на бракосочетании он сказал: «А теперь поцелуйно обругайте невесту» ( It is kisstomary to cuss the bride ). А однажды он случайно предложил тост за «нашего чудаковатого старика-декана» ( our queer old dean ) вместо «за нашу добрую старушку королеву» ( our dear old queen ) {374} 374 Chilton M . The best spoonerisms // Telegraph. 2015.
.
Ученые уже пытались использовать машинное самообучение для обнаружения шуток, включая двусмысленности {375} 375 Kiddon C., Brun Y . That’s what she said: double entendre identification // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 2011. Vol. 2. P. 89–94.
. Они обучают компьютер искать слова с неприличными намеками, например «банан» ( banana ). Кроме того, для эротических предложений характерны определенные структуры, которые встречаются и в двусмысленных фразах, например: «[субъект] мог бы есть [объект] весь день напролет». После завершения обучения компьютер обнаружил двусмысленные предложения в 70 % случаев. (Это предложение вызывает двусмысленность в сложных проблемах машинного обучения.)
Возможно, если компьютер услышит характерные звуки смеха, он сможет легко обнаруживать шутки. Когда я встретился с нейробиологом Софи Скотт из Университетского колледжа Лондона, чтобы задать ей несколько вопросов об импрессионистах, мы обсуждали и ее исследование, в котором она пыталась определить, как человек выражает эмоции. Работа Софи началась с изучения вызванных испугом криков и выражений недовольства, и только позже она переключилась на более приятное занятие: начала исследовать смех. Но ей пришлось убеждать скептиков, что это серьезный предмет для изучения. Однажды кто-то из коллег Софи прикрепил к пачке отпечатанных на принтере бланков согласия на участие в исследовании следующую записку:
Эта кипа бумажек — просто макулатура, судя по содержанию [38] И это наука? — Примеч. автора.
, и если ее не заберут, она будет ликвидирована.
Но смех — это серьезный предмет, потому что для человека он является обычным состоянием. «При прочих равных условиях вы чувствуете себя комфортно и хорошо с окружающими вас людьми. Вы смеетесь в их присутствии», — объясняет Скотт. Если смех отсутствует, значит, что-то не в порядке. Крайний случай такой ситуации — это люди, страдающие гелотофобией: они боятся смеха, потому что думают, что смеются над ними. Этот случай Софи описывает следующим образом: «На сто процентов данное явление связано с тем, что человек находится в безнадежном психотическом состоянии». Исследование смеха помогает добраться до сути социальных взаимодействий, потому что смех облегчает разговор. Пары, которые снимают неизбежный стресс от постоянного нахождения в обществе друг друга с помощью смеха, в большей степени удовлетворены своими отношениями и дольше остаются вместе.
Прежде чем перейти к обсуждению акустического отпечатка, оставляемого смехом, Софи демонстрирует модель мозга, чтобы показать области, задействованные в процессе слушания. В случае речи левое полушарие задействовано в обработке фонетической, семантической, лексической и синтаксической информации. Это означает, что правое полушарие концентрируется на всех остальных свойствах голоса, таких как интонация или идентификация говорящего. Следовательно, когда Софи исследует человека на фМРТ-сканере и проигрывает ему запись смеха, правое полушарие демонстрирует бо́льшую активность.
Читать дальшеИнтервал:
Закладка: