Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Тут можно читать онлайн Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - бесплатно ознакомительный отрывок. Жанр: Экономика, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных
  • Автор:
  • Жанр:
  • Издательство:
    неизвестно
  • Год:
    2021
  • Город:
    Москва
  • ISBN:
    9785961458930
  • Рейтинг:
    4/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 80
    • 1
    • 2
    • 3
    • 4
    • 5

Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных краткое содержание

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - описание и краткое содержание, автор Дэвид Хэнд, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - читать онлайн бесплатно ознакомительный отрывок

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Хэнд
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Выхлопные данные, описывающие людей, называются административными [13] D. J. Hand, “Statistical challenges of administrative and transaction data (with discussion),” Journal of the Royal Statistical Society , Series A181 (2018): 555-605. . Особая сила административных данных заключается в том, что они сообщают не то, что люди говорят о своих действиях (как, например, в случае опросов), а то, что они делают на самом деле . Такие данные показывают, что люди купили, где они это купили, что они ели, какие поисковые запросы делали и т. д. Считается, что административные данные намного точнее демонстрируют реалии общества, чем ответы людей на вопросы об их действиях и поведении. Это привело к накоплению правительствами, корпорациями и рядом других организаций гигантских баз данных, описывающих наше поведение. Нет сомнения в том, что эти базы данных представляют собой очень ценный ресурс, настоящую золотую жилу в сфере знаний о человеческом поведении. Сделанные на их основе выводы помогут усовершенствовать процесс принятия решений, повысить корпоративную эффективность и лучше продумать государственную политику – конечно, при условии, что эти выводы будут точными и не подвергнутся влиянию темных данных. Кроме того, когда данные, которые мы хотели бы сохранить в темноте, становятся известны другим, возникают риски нарушения конфиденциальности. Мы вернемся к этому вопросу чуть дальше, а пока давайте поищем темные данные, причем в самых неожиданных местах.

Один из очевидных и очень серьезных недостатков административных данных кроется в самом их преимуществе: они сообщают о том, что на самом деле делают люди, а это может быть полезным только тогда, когда вы не пытаетесь исследовать, что люди думают и чувствуют. Например, своевременное обнаружение недовольства сотрудников тем, как идут дела, может быть не менее важным для корпорации, как и наблюдение за их поведением в жестких рамках повседневной работы, когда начальник буквально стоит за спиной. Но, чтобы узнать, что чувствуют люди, нам придется активно допытываться этого, например с помощью опроса. Для решения разных задач требуются и разные стратегии сбора данных, при этом каждая из них грозит своими особыми проблемами, связанными с темными данными.

Мое первое настоящее знакомство с темными данными состоялось в сфере банковских услуг для потребительского сектора: кредитные и дебетовые карты, персональные займы, автокредиты, ипотека и прочие подобные вещи. Данные о транзакциях по кредитным картам представляют собой гигантские наборы данных, поскольку миллионы клиентов ежегодно совершают миллиарды операций. Так, с июня 2014 г. по июнь 2015 г. было совершено около 35 млрд транзакций по картам Visa [14] https://www.quora.com/How-many-credit-and-debit-card-transactions-are-there-every-year , accessed 24 August 2018. . Каждый раз, когда покупка оплачивается кредитной картой, регистрируется потраченная сумма, валюта, продавец, дата и время транзакции, а также многие другие детали, общий список которых включает 70–80 пунктов. Большую часть этой информации составляют данные, необходимые для совершения транзакции и списывания суммы с соответствующего счета – это обязательная часть операции, поэтому пропуск таких деталей маловероятен или даже невозможен. Например, операция не может быть выполнена без информации о том, сколько взимать или с кого взимать. Но есть и такие данные, которые не критичны для проведения операции, поэтому существует вероятность того, что они не будут собраны. В частности, номер партии товара, его идентификационный код или цена за единицу не являются обязательной информацией для проведения транзакции. Очевидно, что это DD-тип 1: данные, о которых мы знаем, что они отсутствуют .

Что еще хуже, во всяком случае в отношении темных данных, клиенты рассчитываются за покупки не только кредитными картами, но и наличными. Это означает, что реестр всех покупок и транзакций, созданный на основе данных по кредитным картам, будет содержать невидимые массивы темных данных – DD-тип 4: самоотбор . Вдобавок существует несколько операторов кредитных карт. Данные одного оператора не могут считаться репрезентативными для всей совокупности держателей кредитных карт и уж тем более для населения в целом. Таким образом, несмотря на многообещающие перспективы, административные данные имеют скрытые недостатки, связанные с темными данными.

Конкретной проблемой, с которой мне пришлось столкнуться, был заказ на создание «системы показателей» – статистической модели для прогнозирования вероятности неплатежей, которая могла бы использоваться при принятии решений о предоставлении кредитов. Мне был открыт доступ к большому набору данных, содержащему информацию из заявок предыдущих клиентов, а также их кредитные истории, показывающие действительную картину того, платили они или нет по своим обязательствам.

По сути ничего сложного в этом заказе не было. Я должен был выяснить, какие сочетания характеристик отличают клиентов, выполнивших свои обязательства, от тех, кто допустил дефолт. Это позволило бы классифицировать будущих заявителей как «добросовестные заемщики» или «потенциальные неплательщики».

Проблема заключалась в том, что банк хотел получить модель, позволяющую делать прогнозы в отношении всех будущих заявителей. Предоставленные мне данные, безусловно, не были генеральной совокупностью, отражавшей всех заявителей – они касались лишь тех, кто уже прошел процесс отбора. Надо полагать, состоявшиеся клиенты получили кредиты, потому что им был присвоен статус приемлемого риска в соответствии с каким-то более ранним механизмом отбора – на основе либо предыдущей статистической модели, либо субъективной оценки менеджеров банка. Те, кого сочли слишком рискованными, не получили ссуду, поэтому я не мог знать о том, насколько добросовестно они выполнили бы свои обязательства. Я даже не имел понятия, сколько заявителей было отклонено ранее и не попало в мой набор данных. Короче говоря, данные, предоставленные мне, были искаженной выборкой с неизвестными критериями отбора (или смещением выборки), и любая статистическая модель, построенная на этом наборе данных, вводила бы в заблуждение в случае применения ко всем потенциальным кандидатам.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «ЛитРес».

Прочитайте эту книгу целиком, на ЛитРес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

Сноски

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Дэвид Хэнд читать все книги автора по порядку

Дэвид Хэнд - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных отзывы


Отзывы читателей о книге Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, автор: Дэвид Хэнд. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x