Сет Cтивенс-Давидовиц - Все лгут. Поисковики, Big Data и Интернет знают о вас всё

Тут можно читать онлайн Сет Cтивенс-Давидовиц - Все лгут. Поисковики, Big Data и Интернет знают о вас всё - бесплатно ознакомительный отрывок. Жанр: Прочая научная литература, издательство Литагент 5 редакция «БОМБОРА», год 2018. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Сет Cтивенс-Давидовиц - Все лгут. Поисковики, Big Data и Интернет знают о вас всё краткое содержание

Все лгут. Поисковики, Big Data и Интернет знают о вас всё - описание и краткое содержание, автор Сет Cтивенс-Давидовиц, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Люди склонны преувеличивать и не договаривать, опросы не показывают всей картины, исследования недостаточно репрезентативны ‒ в общем, лгут все… Кроме Big Data! Перед вами сенсационная книга о том, как при помощи больших данных и современных технологий можно узнать всю подноготную современного общества. Автор этой книги, специалист Google по Data Science, выяснил, что скрывают люди, какие они на самом деле, а не какими хотят казаться. Что же он узнал?

Все лгут. Поисковики, Big Data и Интернет знают о вас всё - читать онлайн бесплатно ознакомительный отрывок

Все лгут. Поисковики, Big Data и Интернет знают о вас всё - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Сет Cтивенс-Давидовиц
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Но прежде чем описывать их находки, давайте оставим на минутку историю Генцкоу и Шапиро, а также их попытки количественно описать газетный язык, и обсудим, как ученые уже использовали этот новый тип данных – слова – для более глубокого понимания человеческой природы.

Конечно, язык всегда был предметом интереса социологов. Однако для его изучения, как правило, требуется внимательное чтение текстов. И превращение огромных кусков текста в данные раньше не представлялось возможным. Сейчас же, используя компьютеры и оцифровку, легко осуществить классификацию слов, взятых из огромного массива документов. Таким образом, язык стал предметом анализа больших данных. Ссылки, с которыми работает Google, также состоят из слов – равно как и поисковые запросы в Google, с которыми работаю я. Язык настолько важен в информационной революции, что заслуживает отдельного, посвященного только ему раздела книги. На самом деле сейчас он используется настолько широко, что появилось даже понятие «текст как данные».

Основной разработкой в этой области является Google Ngrams. Несколько лет назад два молодых биолога, Эрез Эйден и Жан-Батист Мишель, предложили своим помощникам одно за другим подсчитывать слова в старых пыльных текстах – чтобы выяснить, как часто в них встречается та или иная лексика. Однажды Эйден и Мишель услышали о новом проекте компании Google по оцифровке книг со всего мира и почти сразу же сообразили: так в истории языка будет разобраться гораздо проще.

«Мы поняли, что наши методы безнадежно устарели, – рассказывал Эйден в интервью журналу „ Discover“ . – Было понятно: конкурировать с этой всепобеждающей цифровой мощью невозможно». Поэтому они решили с ней сотрудничать. При помощи инженеров Google Эйден и Мишель создали сервис, осуществляющий поиск по определенному слову или фразе по миллионам оцифрованных книг. Потом приложение сообщает исследователям, как часто это слово или фраза появлялись ежегодно в период с 1800 по 2010 годы.

Так что же мы можем узнать по частоте, с которой слова или фразы появляются в книгах в разные годы? Прежде всего, о медленном росте популярности колбасы и относительно недавнем быстром росте популярности пиццы.

Но есть и гораздо более серьезные результаты Например Ngrams Google может - фото 1

Но есть и гораздо более серьезные результаты. Например, Ngrams Google может показать, как формировалась наша национальная самобытность. Вот, скажем, увлекательный пример из книги Эйдена и Мишеля «Uncharted» («Неизведанное»).

Но сначала один вопрос. Как вы думаете, сегодня Соединенные Штаты – единая или разобщенная страна? Если вы принадлежите к большинству обычных людей, то скажете, что США сильно разобщены из-за высокого уровня политической поляризации. Можно даже сказать, что сегодня страна разобщена как никогда. Америка, в конце концов, теперь разделена по цвету: красные штаты – республиканские, синие – демократические. Но в книге «Uncharted» Эйдена и Мишеля есть один впечатляющий момент, демонстрирующий, насколько сильнее Соединенные Штаты были разобщены в прошлом. Об этом свидетельствуют слова, которые люди используют, говоря о своей стране.

Обратите внимание на слова, которые я использовал в предыдущем абзаце, говоря о разобщенности страны. Я писал: «США – разобщенная страна». Я говорил о США как о существительном в единственном числе. Это естественно, это правильная грамматика и стандартный вариант употребления слов. Уверен, вы этого даже не заметили.

Однако американцы далеко не всегда говорят подобным образом. На заре формирования Соединенных Штатов люди, упоминая свою страну, использовали множественное число. Например, Джон Адамс в докладе о положении дел в 1799 году говорил о «Соединенных Штатах и ИХ договорах с его британским Величеством». Если бы моя книга была написана в 1800 году, я бы сказал: «Соединенные Штаты разобщены». Эта небольшая разница в использовании слов давно заинтересовала историков, поскольку предполагает существование момента, когда Америка перестала думать о себе как о совокупности штатов и начала думать о себе как о единой нации.

Так когда это произошло? Историки, как сообщает нам «Uncharted», никогда не знали этого точно, поскольку у них не было надежного способа прояснить ситуацию. Но многие уже давно подозревали, что это произошло во время Гражданской войны. Джеймс Макферсон, бывший президент американской исторической ассоциации и лауреат Пулитцеровской премии, отметил: «Война ознаменовала собой переход Соединенных Штатов из множественного числа к существительному единственного числа».

Но оказывается, что Макферсон был неправ. Google Ngrams обеспечил Эйдену и Мишелю надежный способ проверки. Они могли видеть, как часто в американских книгах употреблялись фразы «Соединенные Штаты являются…» и «США является…» – год за годом. Переход был достаточно постепенным и не ускорялся ни до Гражданской войны, ни после ее окончания.

Спустя 15 лет после Гражданской войны еще довольно часто писали Соединенные - фото 2

Спустя 15 лет после Гражданской войны еще довольно часто писали «Соединенные Штаты являются…», а не «США является…», показывая, что страна лингвистически все еще была разделена. Военные победы опережали изменения в мышлении.

Это все об объединении страны. А как объединяются мужчина и женщина? Слова могут помочь и здесь.

Например, на основании того, о чем говорили конкретные мужчина и женщина во время первой встречи, мы можем предсказать, будет ли у них второе свидание.

Это продемонстрировала междисциплинарная команда Стэнфордского и Северо-Западного университетов – Дэниэл Макфарланд, Дэн Джуравски и Крейг Роулингс. Они общались с сотнями гетеросексуальных участников быстрых свиданий [71] Daniel A. McFarland, Dan Jurafsky, and Craig Rawlings, «Making the Connection: Social Bonding in Courtship Situations» («Создание связей: социальные связи в ситуациях ухаживания»), American Journal of Sociology 118, no. 6 (2013). , пытаясь определить факторы, влияющие на возникновение контакта с партнером и желание пойти на вторую встречу с ним.

Сначала исследователи использовали традиционные данные. Они опросили участников быстрых свиданий, записав их рост, вес, увлечения, и проверили, насколько сильно эти факторы коррелируют с тем, с кем зафиксирована искра романтического интереса. В среднем женщины предпочитают мужчин выше себя ростом, разделяющих их увлечения; мужчины в среднем предпочитают более худощавых женщин, разделяющих их увлечения. Ничего нового.

Но ученые обнаружили и новую информацию. Они поручили участникам эксперимента взять с собой цифровые диктофоны. Таким образом удалось собрать все использовавшиеся в разговоре слова, выявить наличие смеха и вычленить тон голоса. Исследователи могли проверить, как мужчины и женщины сигнализировали о своей заинтересованности и чем партнеры «зарабатывали» этот интерес.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Сет Cтивенс-Давидовиц читать все книги автора по порядку

Сет Cтивенс-Давидовиц - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Все лгут. Поисковики, Big Data и Интернет знают о вас всё отзывы


Отзывы читателей о книге Все лгут. Поисковики, Big Data и Интернет знают о вас всё, автор: Сет Cтивенс-Давидовиц. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x