Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных
- Название:Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:2021
- Город:Москва
- ISBN:9785961458930
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных краткое содержание
Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Первый – известная карикатура, на которой изображен человек, стоящий перед большой картой, какие обычно висят на вокзалах. В центре карты находится красная точка с надписью «Вы здесь». «Как?! – думает потрясенный человек. – Как они узнали это?» Они узнали, потому что отталкивались от простого факта, что каждый , кто смотрит на эту красную точку, должен находиться непосредственно перед ней. Мы имеем дело с очень узкой выборкой, отсекающей всех, кто находится в другом месте.
Данные могут быть собраны, только если имеется кто-то или что-то для их сбора, например измерительный прибор. Второй пример самоотбора связан с антропным принципом , который, по сути, говорит, что Вселенная должна быть такой, какая она есть, а иначе нас бы просто не существовало и мы бы не смогли наблюдать ее. У нас нет данных из разных вселенных по одной простой причине – мы там не были. Это означает, что любые выводы, которые мы делаем, неизбежно ограничиваются нашей Вселенной (а точнее, вселенными такого же типа): как и в случае с бостонскими выбоинами, может происходить масса всего, о чем мы не знаем.
Из этого примера наука может извлечь для себя важный урок. Теория может идеально согласовываться с данными, но сами данные имеют ограничения. И это относится не только к сверхвысоким температурам, геологическим эпохам или космическим расстояниям. Если вы экстраполируете теорию за пределы, в которых были собраны данные, то всегда есть вероятность того, что она окажется недействительной. Экономические теории, основанные на данных, собранных в период процветания, часто оказываются несостоятельными во время рецессии, а законы Ньютона работают только тогда, когда речь не идет о крошечных объектах, высоких скоростях и прочих крайностях. В этом и заключается суть темных данных DD-тип 15: экстраполяция за пределы ваших данных .
У меня есть классная футболка от сайта веб-комиксов xkcd.com, на которой общаются два персонажа. Один говорит: «Раньше я думал, что корреляция подразумевает причинность». В следующем кадре он продолжает: «Потом я прошел курс статистики, и теперь я в этом не уверен». Другой персонаж говорит ему: «Похоже, курс помог», а первый отвечает: «Возможно, но не факт» [7] http://archive.defense.gov/Transcripts/Transcript.aspx?TranscriptID=2636 , accessed 31 July 2018.
.
Корреляция просто показывает, что две вещи меняются синхронно, например положительная корреляция означает, что когда одно становится большим, то и другое увеличивается, а когда первое уменьшается, то и второе поступает точно так же. Это в корне отличается от причинно-следственной связи. Говорят, что одно становится причиной другого, если изменения первого приводят к изменениям второго. Но проблема в том, что две вещи могут изменяться вместе, но при этом изменения одной не являются причиной изменений другой. Например, наблюдения в начальной школе показывают, что дети с более значительным словарным запасом в среднем выше. Но вряд ли вам придет в голову, что причиной этого являются родители, которые, желая иметь более рослое потомство, нанимают репетиторов для расширения словарного запаса своих детей. Намного вероятнее, что существуют какие-то темные данные, третий фактор, который объясняет корреляцию, например разный возраст детей. Когда персонаж на моей майке говорит «Возможно, но не факт», он признает, что пройденный курс статистики мог изменить его понимание, но при этом допускает наличие и других причин. Далее в книге мы еще столкнемся с поразительными примерами темных данных этого типа, а именно с DD-типом 5: неизвестный определяющий фактор .
Существуют и другие типы темных данных, о которых мы будем говорить. Напомню, что цель этой книги – рассказать о существующей на сегодня классификации темных данных, объяснить способы их идентификации, наглядно продемонстрировать оказываемое ими влияние и показать пути решения проблем, которые они вызывают, а также то, как темные данные можно использовать. Список типов темных данных приводится в конце этой главы, а краткое описание каждого из них вы найдете в главе 10.
Не было ничего необычного, поэтому мы не придали этому значения
Следующий пример служит иллюстрацией того, что темные данные могут иметь катастрофические последствия и что они не являются специфической проблемой больших наборов данных.
28 января 1986 г. на 73-й секунде полета на высоте около 15 км космический челнок Challenger превратился в гигантский огненный шар в результате неисправности ракеты-носителя. Отсек с экипажем какое-то время еще продолжал двигаться по восходящей траектории, достиг отметки 19 км и рухнул в Атлантику. Все семь членов экипажа погибли.
Впоследствии президентская комиссия установила, что руководители среднего звена NASA нарушили правила безопасности, требующие передачи данных по цепочке управления. Все объяснялось экономическими причинами: необходимо было уложиться в график, ведь дата старта уже переносилась с 22-го на 23-е, потом на 25-е, а затем и на 26 января. Поскольку прогноз погоды на этот день обещал неприемлемо низкую температуру, запуск снова отложили на день. Обратный отсчет прошел нормально, индикаторы показали, что замок люка закрылся должным образом. Однако к тому моменту поднялся сильный ветер, и запуск шаттла вновь пришлось отложить.
В ночь на 27 января состоялась трехчасовая телеконференция между представителями компании Morton Thiokol, построившей разгонные ступени, сотрудниками NASA в Центре космических полетов Маршалла и людьми из Космического центра Кеннеди. Ларри Уир из Центра космических полетов Маршалла попросил представителей Morton Thiokol проверить возможное влияние низких температур на твердотопливные ракетные двигатели. В ответ команда Morton Thiokol указала на то, что при низких температурах уплотнительные кольца становятся более жесткими.
Уплотнительные кольца представляли собой манжеты из резиноподобного материала с диаметром поперечного сечения около 6 мм, которые устанавливались по окружности в стыки между четырьмя сегментами ракетного двигателя. Твердотопливные ракетные ускорители имели 45 м в высоту и 11 м в диаметре. Во время запуска зазор величиной 0,1 мм, который в обычных условиях полностью герметизировался уплотнительными кольцами, открывался максимум до 1,5 мм и оставался открытым в течение каких-то 0,6 секунды.
Роберта Эбелинга из Morton Thiokol беспокоило то, что при низких температурах повышение жесткости уплотнительных колец может привести к потере способности герметизировать зазоры между сегментами, пока они будут в течение 0,6 секунды оставаться увеличенными на 1,4 мм. На телеконференции Роберт Лунд, вице-президент Morton Thiokol, заявил, что рабочая температура уплотнительного кольца не должна быть ниже границы подтвержденной температуры запуска 53 ºF (около 12 ºC). За этим последовала довольно горячая дискуссия, продолжавшаяся и после окончания конференции на уровне личных бесед. По ее итогам Morton Thiokol пересмотрела свою позицию и согласилась рекомендовать запуск.
Читать дальшеИнтервал:
Закладка: