Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Тут можно читать онлайн Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - бесплатно полную версию книги (целиком) без сокращений. Жанр: comp-db, издательство АСТ, год 2016. Здесь Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
  • Автор:
  • Жанр:
  • Издательство:
    АСТ
  • Год:
    2016
  • Город:
    Москва
  • ISBN:
    978-5-17-088935-8
  • Рейтинг:
    5/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 100
    • 1
    • 2
    • 3
    • 4
    • 5

Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры краткое содержание

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - описание и краткое содержание, автор Жан-Батист Мишель, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - читать онлайн бесплатно полную версию (весь текст целиком)

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - читать книгу онлайн бесплатно, автор Жан-Батист Мишель
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Статистики различают два типа ошибок, которые может совершить измерительный прибор. Первый тип называется случайной ошибкой и связан с колебаниями, которые возникают даже в случаях, если объект измерения не меняется. Такие ошибки видны в форме небольших пиков и долин в расчетах «флавы» (несмотря на их частое появление, они порой не имеют никакого смысла). Хорошая новость относительно случайных ошибок заключается в том, что, несмотря на все колебания, значение обычно остается близким к истинному.

Сложнее дело обстоит с так называемыми систематическими ошибками. Обычно они приводят к перекосу измерений в одном направлении (увеличивая или уменьшая результат). Например, наша процедура для измерения «флавы» основана на поиске имени человека. Однако это позволяет выявить лишь часть всех упоминаний. К примеру, отслеживая частоту фразы «Чарльз Диккенс», мы упускаем из внимания случаи, когда люди описывают его как «Диккенса», «Чарли» или «этого зануду». Не будут включены в результаты и описания Диккенса как автора «Записок Пиквикского клуба» или «мужа Кэтрин Хогарт». И, разумеется, мы не сможем добавить туда и случаи, когда кто-то хочет почтить память Диккенса, цитируя любимую строчку из его книги, описывая трюк иллюзиониста Дэвида Копперфильда или просто используя фразу «Веселого Рождества » .

Отличной иллюстрацией проблемы, связанной с выявлением каждого упоминания Диккенса, был случай, когда Майкла Стила, кандидата на пост руководителя национального комитета Республиканской партии, попросили во время телевизионных дебатов 2011 года назвать свои любимые книги. Ответ Стила был на редкость неловким: «„Война и мир“ это было самое прекрасное время, это было самое злосчастное время». Цитата принадлежит Диккенсу, и с нее начинается «Повесть о двух городах». Однако «Война и мир» написана Львом Толстым. Так имел ли Стил в виду Диккенса или нет? [123]

Подобная ситуация – когда мы пренебрегаем чем-то, что в идеале хотели бы включить в расчет, – носит название «систематической ошибки» или, выражаясь профессиональным языком статистиков, ситуации «ложного отрицания». В результате действия этого ложного отрицания показатель «флавы» обычно оказывается значительно меньше, чем истинная частота упоминаний о человеке.

Существует и еще один тип систематической ошибки, называемый «ложноположительной». Она возникает, когда мы включаем в расчеты то, чего включать не должны. К примеру, слова «Чарльз Диккенс» могут относиться и к старшему сыну Диккенса – писателю Чарльзу Диккенсу-мл.; его внуку Джеральду Чарльзу Диккенсу; двум из его правнуков – Седрику Чарльзу Диккенсу и Питеру Джеральду Чарльзу Диккенсу или же к актеру Джеральду Чарльзу Диккенсу (праправнуку писателя). С точки зрения расчета «флавы», все это будет относиться к патриарху семьи. Однако статистики знают, что тут-то и кроется опасность. Никакой статистик не понимает этого лучше, чем преподаватель Университета штата Калифорния в Беркли по имени Майкл И. Джордан. Чтобы понять, почему это так, вбейте в Google поисковый запрос «Майкл Джордан статистика» ( Michael Jordan statistics) .

Однако нам предстояло заняться еще более сложными статистическими проблемами, связанными с нашим измерительным прибором.

Обратимся к 1936 году. В этом году родились многие знаменитые люди, например Роберт Рэдфорд и Вацлав Гавел.

Рэдфорд – настоящая голливудская звезда. За последние пятьдесят лет он сыграл массу известных ролей в таких фильмах, как «Из Африки», «Афера» и «Вся президентская рать». Его внешность, почти не меняющаяся с годами, превратила его в одного из самых любимых и известных во всем мире деятелей культуры.

Вацлав Гавел представляет собой иной тип знаменитости. Он был тихим драматургом, который увел Чехословакию прочь от коммунизма, во времена «бархатной революции». Через четыре года он возглавил процесс мирного разделения Чешской и Словацкой республик. Гавел – одна из самых знаменитых политических и литературных фигур XX века.

Оба они входят в число 10 людей, родившихся в 1936 году и обладающих самым высоким уровнем «флавы». При этом ни один из них не занимает лидирующей позиции. Кто же оказался человеком с наибольшим показателем «флавы» из родившихся в 1936 году? Женщина по имени Кэрол Гиллиган [124].

Гиллиган психолог и знаменитая феминистка которая после проведения своих - фото 14

Гиллиган – психолог и знаменитая феминистка, которая после проведения своих революционных исследований стала преподавать в Гарварде, Кембридже, а теперь еще и в Университете Нью-Йорка. Как и Пинкер, она входит в список самых влиятельных американцев, составленный журналом Time . Кэрол – настоящая интеллектуальная суперзвезда. И книг с упоминанием Кэрол Гиллиган написано много, значительно больше, чем о Вацлаве Гавеле или Роберте Рэдфорде. Если бы «флава» и слава были одним и тем же, то именно эта ученая дама была бы самым прославленным представителем своего поколения.

Но давайте будем реалистами. Кэрол Гиллиган знаменита не больше, чем Роберт Рэдфорд. О ней больше говорят в книгах, поскольку она представляет тип личности, интересный для создателей книг, – научная знаменитость и социальный критик. Однако она совсем не тот человек, события из жизни которого могли бы ежедневно освещаться в прессе. Ее портрет вряд ли будет висеть на рекламных щитах, и перед ней вряд ли будут преклоняться девочки-подростки.

Проблема состоит в том, что «флава» не отражает более масштабную картину. Если бы мы приняли во внимание упоминания в выпусках телевизионных новостей, рассказы в таблоидах и на интернет-сайтах, посвященных знаменитостям, или беседы в офисах во время перекуров, то было бы очевидно, что Гавел и Рэдфорд смогут затмить Гиллиган, причем с большим перевесом. Гиллиган занимает лидирующие позиции благодаря тому, что статистики называют ошибкой выборки, – аспект культуры, который мы измеряем с помощью «флавы», дает ей несправедливое преимущество. Это не подлинная слава.

Наша аэродинамическая труба не лишена своих недостатков. Однако они не уникальны. Они вполне вписываются в классическую ошибку, присущую любым измерительным инструментам, с которой ученые и статистики имели дело в течение десятилетий. Помня об этом несовершенстве, мы наверняка сможем разработать более качественные инструменты в будущем.

Связь между «флавой» и подлинной славой отлично иллюстрирует наш общий подход. Привычное для повседневной жизни понятие славы слишком сложно и слишком неточно, чтобы подчиняться количественному анализу. Поэтому мы ищем что-то, что можем измерить (например, «флаву»), и стараемся оставаться максимально близко к изначальной концепции. Результатом становится компромисс – мы создаем своего рода имитатора знаменитости, которого используем в роли подопытного кролика и подвергаем тщательно продуманным экспериментам. Как только в нашем распоряжении появятся более обширные массивы данных, включающие информацию из таблоидов, журналов и научных статей, измеряемая нами «флава» станет уже ненужной и вместо нее будут использоваться более изощренные альтернативы. Аэродинамическая труба Райтов не выдерживает никакого сравнения с турбинами LenSx, создающими поток ветра со скоростью 30 М для тестирования новых космических аппаратов.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Жан-Батист Мишель читать все книги автора по порядку

Жан-Батист Мишель - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры отзывы


Отзывы читателей о книге Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры, автор: Жан-Батист Мишель. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x