Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
- Название:Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2014
- Город:М.
- ISBN:978-5-91657-936-9
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим краткое содержание
Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Проблема, с которой столкнулось Бюро переписи населения США, напоминает трудности современных ученых и бизнесменов: поток данных стал непосильным. Объем собираемой информации превысил все возможности инструментов, используемых для ее обработки. Срочно требовались новые методы. В 1880-х годах ситуация оказалась настолько удручающей, что Бюро переписи населения США заключило контракт с Германом Холлеритом, американским изобретателем, на использование его идеи с перфокартами и счетными машинами для переписи 1890 года. [24] История переписей в США: US Census Bureau. The Hollerith Machine (онлайн-материал). URL: http://www.census.gov/history/www/innovations/technology/the_hollerith_tabulator.html (последнее посещение — 25.07.2012).
С большим трудом ему удалось сократить время на сведение результатов с восьми лет до менее одного года. Это было удивительное достижение, которое положило начало автоматизированной обработке данных (и заложило основу будущей компании IBM). Однако такой метод получения и анализа больших объемов данных обходился все еще слишком дорого. Каждый житель Соединенных Штатов заполнял форму, из которой создавалась перфокарта для подсчета итогов. Трудно представить, как в таких условиях удалось бы провести перепись быстрее чем за десять лет. Но отставание определенно играло против нации, растущей не по дням, а по часам.
Основная трудность состояла в выборе: использовать все данные или только их часть. Безусловно, разумнее всего получать полный набор данных всех проводимых измерений. Но это не всегда выполнимо при огромных масштабах. И как выбрать образец? По мнению некоторых, лучший выход из ситуации — создавать целенаправленные выборки, которые представляли бы полную картину. Однако в 1934 году польский статистик Ежи Нейман ярко продемонстрировал, как такие выборки приводят к огромным ошибкам. Оказалось, разгадка в том, чтобы создавать выборку по принципу случайности. [25] Вклад Неймана: Kruskal, William. Representative Sampling, IV: the History of the Concept in Statistics, 1895–1939 / William Kruskal and Frederick Mosteller // International Statistical Review. — 1980. — Vol. 48. — P. 169–195, 187–188. Знаменитая статья Неймана: Neyman, Jerzy. On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection // Journal of the Royal Statistical Society. — 1934. — Vol. 97, No. 4 . — P. 558–625.
Работа статистиков показала, что на повышение точности выборки больше всего влияет не увеличение ее размера, а элемент случайности. На самом деле, как ни странно, случайная выборка из 1100 ответов отдельных лиц на бинарный вопрос («да» или «нет») имеет более чем 97%-ную точность при проецировании на все население. Это работает в 19 из 20 случаев, независимо от общего размера выборки, будь то 100 000 или 100 000 000. [26] Выборки из 1100 результатов наблюдений достаточно. Пример см. в статье: Babbie, Earl. Practice of Social Research. — 12th ed., 2010. — P. 204–207.
И трудно объяснить математически. Если вкратце, то с определенного момента роста данных предельное количество новой информации, получаемой из новых наблюдений, становится все меньше.
То, что случайность компенсирует размер выборки, стало настоящим открытием, проложившим путь новому подходу к сбору информации. Данные можно собирать с помощью случайных выборок по низкой себестоимости, а затем экстраполировать их с высокой точностью на явление в целом. В результате правительства могли бы вести небольшие переписи с помощью случайных выборок ежегодно, а не раз в десятилетие (что они и делали). Бюро переписи населения США, например, ежегодно проводит более двухсот экономических и демографических исследований на выборочной основе, не считая переписи раз в десять лет для подсчета всего населения. Выборки решали проблему информационной перегрузки в более раннюю эпоху, когда собирать и анализировать данные было очень трудно.
Новый метод быстро нашел применение за пределами государственного сектора и переписей. В бизнесе случайные выборки использовались для обеспечения качества производства, упрощая процессы контроля и модернизации и к тому же снижая расходы на них. Поначалу для всестороннего контроля качества требовалось осматривать каждый продукт, выходящий с конвейера. Сейчас достаточно случайной выборки тестовых экземпляров из партии продукции. По сути, случайные выборки уменьшают проблемы с большими данными до более управляемых. Кроме того, они положили начало опросам потребителей в сфере розничной торговли, фокус-группам в политике, а также преобразовали большинство гуманитарных наук в социальные.
Случайные выборки пользовались успехом. Они же сформировали основу для современных масштабных измерений. Но это лишь упрощенный вариант — еще одна альтернатива сбора и анализа полного набора данных, к тому же полная недостатков. Мало того что ее точность зависит от случайности при сборе данных выборки — достичь этой случайности не так-то просто. Если сбор данных осуществляется с погрешностью, результаты экстраполяции будут неправильными.
Так, например, одна из ранних ошибок, связанных с выборкой, произошла в 1936 году, когда еженедельный журнал Literary Digest провел опрос двух миллионов избирателей и ошибочно спрогнозировал блестящую победу Республиканской партии на президентских выборах США. (Как оказалось, действующий президент Франклин Рузвельт, представитель Демократической партии, победил Альфреда Лэндона с перевесом в 523 голоса к 8 в коллегии выборщиков.) И дело было не в том, что выборка оказалась слишком маленькой, — не хватало элемента случайности. Выбирая участников опроса, специалисты Literary Digest использовали список подписчиков и телефонные каталоги, не понимая, что обе группы — и подписчики, и телефонные абоненты — относятся к более состоятельной категории населения и гораздо вероятнее проголосуют за республиканцев. [27] Подводные камни опросов: Crossen, Cynthia. Fiasco in 1936 Survey Brought ‘Science’ To Election Polling // Wall Street Journal. — October 2, 2006. URL: http://online.wsj.com/public/article/SB115974322285279370-_rk13XDUHmIcnA8DYs5VUscZG94_20071001.html?mod=rss_free.
С этой задачей можно было бы справиться гораздо лучше и дешевле, используя часть выборки, но сформированную именно случайным образом.
Не так давно нечто подобное произошло в процессе опросов, связанных с выборами. Опросы проводились с помощью стационарных телефонов. Выборка оказалась недостаточно случайной из-за погрешности, вызванной тем, что люди, которые пользуются исключительно мобильными телефонами (более молодая и либеральная категория населения), не брались в расчет. Это привело к неправильным прогнозам результатов выборов. В 2008 году в период президентских выборов между Бараком Обамой и Джоном Маккейном главные организации по проведению анкетного опроса населения — Gallup, Pew и ABC/Washington Post — обнаружили разницу в один-три пункта между опросами с учетом пользователей мобильных телефонов и без них. С учетом напряженности гонки это была огромная разница. [28] Влияние сотовых телефонов: Estimating the Cellphone Effect. — September 20, 2008. URL: http://www.fivethirtyeight.com/2008/09/estimating-cellphone-effect-22-points.html.
Интервал:
Закладка: