Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Тут можно читать онлайн Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных - бесплатно ознакомительный отрывок. Жанр: Математика, издательство Манн, Иванов и Фербер, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Искусство статистики. Как находить ответы в данных
  • Автор:
  • Жанр:
  • Издательство:
    Манн, Иванов и Фербер
  • Год:
    2021
  • Город:
    Москва
  • ISBN:
    9785001692508
  • Рейтинг:
    3/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 60
    • 1
    • 2
    • 3
    • 4
    • 5

Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание

Искусство статистики. Как находить ответы в данных - описание и краткое содержание, автор Дэвид Шпигельхалтер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.

Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок

Искусство статистики. Как находить ответы в данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Шпигельхалтер
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Созданное программное обеспечение называется Predict 2.1, и результаты его работы выдаются в виде доли схожих по анамнезу женщин, которые, как ожидается, проживут 5 и 10 лет при различных видах адъювантной терапии. В табл. 6.5 приведены некоторые результаты для воображаемой женщины, а на рис. 6.7 – кривые выживаемости из Predict 2.1 для периода до 15 лет после операции.

Таблица 6.5

С помощью алгоритма Predict 2.1 определялась ожидаемая доля 65-летних женщин, которые проживут 10 лет после операции при раке молочной железы, когда при обследовании была обнаружена опухоль 2-й стадии размером 2 см, с двумя метастазами узлов и положительными индексами ER, HER2 и Ki-67. Показана кумулятивная ожидаемая польза для различных методов адъювантной терапии, хотя они могут иметь побочные эффекты. Доля выживаемости для «женщин без рака» отражает наилучшую возможную выживаемость с учетом возраста женщины

Трастузумаб противоопухолевый препарат Герцептин его торговое название - фото 15

* Трастузумаб – противоопухолевый препарат. Герцептин – его торговое название. Прим. пер.

Рис. 6.7

Кривые выживаемости из Predict 2.1 для периода до 15 лет после операции – для женщин с признаками, перечисленными в подписи к табл. 6.5. Показано совокупное увеличение выживаемости в зависимости от дополнительных видов терапии. Область над пунктирной линией отображает процент женщин с раком молочной железы, умерших от других причин

Программа Predict 2.1 не совершенна, и данные в табл. 6.5 могут использоваться только в качестве примерных ориентиров: они отображают, что (как можно ожидать) случится с женщинами, обладающими признаками, включенными в алгоритм, но для какой-то конкретной женщины нужно учитывать дополнительные факторы. Тем не менее Predict 2.1 регулярно используется для десятков тысяч случаев в месяц как на консилиумах, где обсуждаются варианты лечения, так и для передачи этой информации пациентке. Для женщин, желающих активно участвовать в своем лечении, используется процесс, известный как «совместный уход», когда пациентке предоставляется информация, обычно доступная только врачам, что может помочь ей лучше контролировать свою жизнь. Этот алгоритм не запатентован и представляет собой программное обеспечение с открытым исходным кодом, поэтому система регулярно обновляется, чтобы предоставлять дополнительную информацию, в том числе о и негативных последствиях лечения.

Искусственный интеллект

С момента появления в 1950-е годы идея искусственного интеллекта (ИИ) периодически переживает всплески ажиотажа и энтузиазма и последующие волны критики. Я работал над диагностикой с помощью компьютера и неопределенностью в ИИ в 1980-е, когда в целом эта тема обсуждалась в рамках конкуренции между различными подходами: как основанными на вероятности и статистике или на экспертных «правилах» для суждений, так и теми, которые пытались эмулировать когнитивные способности с помощью нейронных сетей. Сейчас эта область стала более зрелой, подход к ее основополагающей философии – более прагматичным и универсальным, хотя ажиотаж не исчез.

Демонстрируемый машинами интеллект – весьма широкая идея. Она намного масштабнее, чем ограниченная проблема алгоритмов, обсуждаемая в этой главе, и статистический анализ – всего лишь один компонент для построения систем ИИ. Однако, как показывают последние выдающиеся достижения в компьютерном зрении, речи, играх и так далее, главную роль в успехах в «узком» ИИ играет статистическое обучение. Такие системы, как Predict, которые ранее считались системами принятия решений на базе статистики, теперь можно с полным основанием именовать ИИ [150].

Многие из вышеописанных проблем сводятся к алгоритмам, моделирующим только связи и не имеющим понятия о процессах, лежащих в основе. Джуда Перл, благодаря которому повысилось внимание к причинным связям в ИИ, утверждает, что такие модели позволяют всего лишь отвечать на вопросы типа «Мы наблюдаем X, чего мы можем ожидать от следующего наблюдения?» В то же время общий ИИ нуждается в причинно-следственной модели того, как реально функционирует мир, что позволило бы ему отвечать на вопросы человеческого уровня, касающиеся результатов вмешательства («Что будет, если мы сделаем X?») и контрфактуального мышления («Что было бы, если бы мы не сделали X?»). Пока мы весьма далеки от искусственного интеллекта, обладающего такой способностью.

Эта книга подчеркивает классические статистические проблемы малых выборок, систематические ошибки (в статистическом смысле) и невозможность обобщения на новые ситуации. Список задач для алгоритмов показывает, что хотя беспокоиться о величине выборки можно меньше ввиду наличия колоссальных объемов данных, другие проблемы имеют тенденцию усугубляться и мы сталкиваемся с дополнительной проблемой – объяснением для обоснования алгоритма. Огромные массивы данных только увеличивают проблемы при получении надежных выводов. Смирение при построении алгоритмов крайне важно.

Выводы

• Алгоритмы, построенные на основе данных, можно использовать в различных технологических приложениях для классификации и прогнозирования.

• Важно остерегаться переобучения алгоритма на тренировочных данных, когда, по сути, происходит подгонка не к сигналу, а к шуму.

• Алгоритмы можно оценивать по точности классификации, способности различать отдельные группы, а также общей точности прогнозирования.

• Сложным алгоритмам может не хватать прозрачности, поэтому, возможно, разумнее потерять немного в точности ради понимания.

• Использование алгоритмов и искусственного интеллекта сопряжено со многими трудностями, поэтому важно осознавать как мощь, так и ограничения методов машинного обучения.

Глава 7. Насколько мы можем быть уверены в происходящем? Оценки и интервалы

Сколько в Великобритании безработных?

В январе 2018 года новостной сайт «Би-би-си» объявил, что за три месяца до прошедшего ноября «уровень безработицы в Соединенном Королевстве снизился на 3 тысяч и составил 1,44 миллиона человек». О причинах такого сокращения много спорили, но, как ни странно, никто не усомнился в точности этой цифры. Однако при тщательной проверке Бюро национальной статистики Великобритании обнаружило, что погрешностьэтой величины составляет ±77 000. Иными словами, истинное изменение могло колебаться от снижения на 80 тысяч до увеличения на 74 тысячи. Таким образом, хотя журналисты и политики считали, что заявленное сокращение касается всей страны, фактически это была неточная оценка, основанная на опросе примерно 100 тысяч человек [151]. Аналогично, когда Бюро статистики труда США сообщило о росте безработицы среди гражданского населения на 108 тысяч человек между декабрем 2017 и январем 2018 года, эта оценка опиралась на выборку примерно из 60 тысяч домохозяйств, а погрешность (которую опять же трудно определить) составляла ±300 000 [152], [153].

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Дэвид Шпигельхалтер читать все книги автора по порядку

Дэвид Шпигельхалтер - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Искусство статистики. Как находить ответы в данных отзывы


Отзывы читателей о книге Искусство статистики. Как находить ответы в данных, автор: Дэвид Шпигельхалтер. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x