Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Тут можно читать онлайн Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - бесплатно ознакомительный отрывок. Жанр: Экономика, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных
  • Автор:
  • Жанр:
  • Издательство:
    неизвестно
  • Год:
    2021
  • Город:
    Москва
  • ISBN:
    9785961458930
  • Рейтинг:
    4/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 80
    • 1
    • 2
    • 3
    • 4
    • 5

Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных краткое содержание

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - описание и краткое содержание, автор Дэвид Хэнд, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - читать онлайн бесплатно ознакомительный отрывок

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Хэнд
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать
В главе 2 пойдет речь о так называемых рандомизированных контролируемых - фото 1

В главе 2 пойдет речь о так называемых рандомизированных контролируемых исследованиях. В главе 9 мы вновь вернемся к ним, но рассмотрим с иного ракурса. Для примера возьмем медицинские исследования, когда сравнивают два метода лечения и при этом назначают их двум группам пациентов. Однако просто разделить людей на группы недостаточно. Если известно, кому какое лечение назначено, это может повлиять на результаты – исследователи могут относиться к одной из групп более внимательно, чем к другой. Например, когда сравнивают новый непроверенный метод лечения со стандартным, исследователи, порой даже не осознавая этого, склонны тщательнее отслеживать побочные эффекты и проводить измерения в первой группе. Чтобы преодолеть эту потенциальную необъективность, в подобных исследованиях распределение методов лечения скрывают от исследователей ( DD-тип 13: намеренно затемненные данные ). В таких случаях говорят о слепом исследовании, чтобы указать на темные данные.

Другой хорошо известный метод, использующий темные данные, – выборочные опросы. Возможно, мы захотим узнать мнение горожан или покупателей конкретной продукции, но выяснять мнение всех без исключения слишком затратно. К тому же это занимает много времени, и мнения могут измениться. Альтернативой тотальному опросу является опрос отдельных представителей группы. Мнения тех, кто не попадает в наш опрос, и будут темными данными. Вроде бы такая стратегия выглядит рискованно – она явно напоминает историю с базой данных TARN. Но оказывается, что, используя продуманные методы отбора людей для опроса, мы можем получить точные и достоверные ответы, при этом быстрее и дешевле, чем если бы обращались к каждому.

Третий способ заставить темные данные работать на нас заключается в так называемом сглаживании данных. В главе 9 мы увидим, что этот метод сродни выявлению незамеченных и не поддающихся наблюдению видов темных данных ( DD-тип 14: фальшивые и синтетические данные ) и позволяет получить более точные оценки и прогнозы.

Другие способы использования темных данных, которые носят весьма экзотические названия, мы также рассмотрим в главе 9. Некоторые из них широко применяются в таких областях, как машинное обучение и искусственный интеллект.

Всюду вокруг нас

Как мы видим, темные данные вездесущи. Они могут появляться повсеместно и где угодно, а их наиболее опасное свойство заключается в том, что мы по определению не можем быть уверенными в их отсутствии . Это означает, что необходимо постоянно быть начеку и задавать себе вопрос: « Что мы упускаем? »

Не потому ли многие мошенничества остаются незамеченными, что полиция ловит лишь неумелых преступников, а настоящие «мастера» продолжают «творить»? Берни Мэдофф основал свою фирму Bernard L. Madoff Investment Securities LLC в 1960 г., а арестован был лишь в 2008 г. Когда его приговорили к 150 годам тюремного заключения, ему исполнился уже 71 год – можно сказать, что ему практически все сошло с рук.

А множество потенциально излечимых больных, которых мы вовремя не диагностируем? Разве это не происходит лишь потому, что болезни на ранней стадии имеют гораздо меньше симптомов, чем в своей тяжелой форме?

Опасны ли социальные сети? Ведь они отражают только то, что мы уже знаем и чему верим, не посягая на нашу точку зрения, поскольку отбирают факты и события в пределах нашей зоны комфорта. Или, что еще хуже, те рассказы, которые люди выбирают для публикаций в социальных сетях, могут создавать у нас ложное представление о том, что жизнь всех остальных людей удивительно легка и прекрасна, а это прямой путь к депрессии – ведь в своей жизни мы встречаем так много препятствий.

Мы привыкли думать о данных как о числах. Но данные необязательно должны быть числами, включая и темные данные. Вот вам пример, в котором отсутствующей критической информацией является одна буква.

Арктическим экспедициям 1852, 1857 и 1875 гг. поставлялось Arctic Ale – пиво с особо низкой температурой замерзания, изготовленное Сэмюэлем Аллсоппом. Альфред Барнард, написавший историю британского пивоварения, попробовал этот эль в 1889 г., описав его как напиток «приятного коричневого оттенка, обладающий вкусом вина и орехов и таким шипением, словно был сварен только что… Из-за большого количества оставшегося неферментированного экстракта, его следует рассматривать как чрезвычайно ценный и питательный продукт» [10] R. Pattinson, Arctic Ale: History by the Glass, issue 66 (July 2102), https://www.beeradvocate.com/articles/6920/arctic-ale/ , accessed 31 July 2018. . Как раз то, что нужно в арктических экспедициях.

В 2007 г. бутылка из партии 1852 г. была выставлена на аукционе eBay со стартовой ценой $299. Продавец, у которого она хранилась в течение 50 лет, неправильно написал название пива, пропустив одну «р» в слове «Allsopp». Как следствие, предмет не обнаруживался поисковыми запросами любителей винтажного пива, так что поступило только две заявки. Из них победила заявка 25-летнего Даниэля Вудула, который предложил целых $304. Стремясь определить ценность покупки, Вудул тут же вновь выставил бутылку на продажу, но на этот раз с правильным названием. В ответ было подано 157 заявок с максимально предложенной ценой $503 300.

В этом случае одна пропущенная буква стоила полмиллиона долларов [11] В действительности оказалось, что победившая заявка была шуткой и участник торгов не собирался платить. Но даже при этом Вудул мог рассчитывать на приличную прибыль: частный коллекционер из Шотландии недавно продал с аукциона бутылку из экспедиции 1875 г. за £3300, что равняется примерно $4300. . Это наглядный пример того, что потеря информации может привести к значительным последствиям. Как мы увидим далее, полмиллиона долларов – ничто по сравнению с убытками в других ситуациях, связанных с отсутствием данных. Они способны разрушать судьбы, уничтожать компании и, как в случае с Challenger, приводить к гибели людей. Короче говоря, отсутствующие данные важны.

В случае с Arctic Ale чуть большее внимание помогло бы избежать проблемы. Небрежность, безусловно, одна из самых распространенных причин появления темных данных, но далеко не единственная. Неприятный факт заключается в том, что данные могут стать темными по очень широкому ряду причин, и далее в книге мы увидим это.

Заманчиво считать темные данные исключительно тем, что можно было бы получить, но по каким-то причинам не удалось. Безусловно, это самый очевидный вид темных данных. Отсутствующие данные по заработной плате в опросе, в котором часть респондентов отказалась разглашать эту информацию, конечно, являются темными данными, но также ими является и уровень заработной платы безработных, которые не получают ее и, следовательно, просто не могут назвать. Ошибки измерения и неточности скрывают истинные значения; обобщая данные (например, вычисляя средние значения), мы теряем детали; неверные формулировки запросов искажают смысл того, что мы хотим узнать. В более общем понимании любую неизвестную характеристику некоей генеральной совокупности (статистики часто используют термин « параметр ») можно рассматривать как темные данные.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Дэвид Хэнд читать все книги автора по порядку

Дэвид Хэнд - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных отзывы


Отзывы читателей о книге Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, автор: Дэвид Хэнд. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x