Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
- Название:Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2014
- Город:М.
- ISBN:978-5-91657-936-9
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим краткое содержание
Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Негласно считалось, что, если измерить явление, его удастся понять. Позже измерения оказались привязанными к научному методу наблюдения и объяснения — способности количественно измерять воспроизводимые результаты, а затем записывать и представлять их. «Измерить — значит узнать», — говорил лорд Кельвин. И это стало основным постулатом. «Знание — сила», — поучал Фрэнсис Бэкон. В то же время математики и те, кто позже стал актуарием или бухгалтером, разработали методы, которые сделали возможным точный сбор и регистрацию данных, а также управление ими. [38] Кросби: Crosby, Alfred W. The Measure of Reality: Quantification and Western Society. — 1997.
К ХІХ веку во Франции (в то время ведущей стране в мире по уровню развития науки) была разработана система строго определенных единиц измерения для сбора данных о пространстве, времени и не только. Другие страны перенимали эти стандарты. Дошло до того, что признанный во всем мире эталон единиц измерения стал закрепляться в международных договорах. Это явилось вершиной эпохи измерений. Лишь полвека спустя, в 1920-х годах, открытия в области квантовой механики навсегда разрушили веру в возможность достичь совершенства в измерениях. Тем не менее, не считая относительно небольшого круга физиков, инженеры и ученые не спешили расставаться с мыслью о совершенстве измерений. В деловой сфере эта идея даже получила более широкое распространение, по мере того как рациональные науки — математика и статистика — начали оказывать влияние на все области коммерческой деятельности.
Между тем множатся ситуации, в которых неточность воспринимается скорее как особенность, а не как недостаток. Взамен снижения стандартов допустимых погрешностей вы получаете намного больше данных, с помощью которых можно совершать новые открытия. При этом действует принцип не просто «больше данных — какой-то результат», а, по сути, «больше данных — лучше результат».
Нам предстоит иметь дело с несколькими видами беспорядочности. Это может быть связано с тем, что при добавлении новых точек данных вероятность ошибок возрастает. Следовательно, если, например, увеличить показатели нагрузки на мост в тысячу раз, возрастет вероятность того, что некоторые показатели будут ошибочными. Вы увеличите беспорядочность, сочетая различные типы информации из разных источников, которые не всегда идеально выравниваются. Или, определив причину жалоб, направленных в центр обработки заказов с помощью программного обеспечения для распознавания речи, и сравнив эти данные со временем, затраченным со стороны оператора на их обработку, можно получить несовершенную, но полезную общую картину ситуации. Кроме того, беспорядочность иногда связана с неоднородностью форматирования. В таком случае, прежде чем обрабатывать данные, их следует «очистить». «Существуют буквально тысячи способов упомянуть компанию IBM, — отмечает знаток больших данных Дж. Патил, — от IBM до International Business Machines и Исследовательского центра Т. Дж. Уотсона». [39] Множество способов сослаться на IBM: Patil, D. J. Data Jujitsu: The Art of Turning Data into Product // O’Reilly Media. — July 2012. URL: http://oreillynet.com/oreilly/data/radarreports/data-jujitsu.csp?cmp=tw-strata-books-data-products.
Беспорядочность может возникнуть при извлечении или обработке данных, поскольку путем преобразования мы превращаем их в нечто другое. Так, например, происходит, когда мы анализируем настроения в сообщениях Twitter, чтобы прогнозировать кассовые сборы голливудских фильмов. А беспорядочность сама по себе… беспорядочна.
Представьте себе, что вам нужно измерить температуру в винограднике. Если у вас только один датчик температуры на весь участок земли, необходимо убедиться, что он работает точно и непрерывно. Если же для каждой из сотен лоз установлен отдельный датчик, вероятно, рано или поздно какой-то из них станет предоставлять неправильные данные. Полученные данные могут быть менее точными (или более «беспорядочными»), чем от одного точного датчика. Любой из отдельно взятых показателей может быть ошибочным, но в совокупности множество показателей дадут более точную картину. Поскольку набор данных состоит из большего числа точек данных, его ценность гораздо выше, и это с лихвой компенсирует его беспорядочность.
Теперь рассмотрим случай повышения частоты показателей. Если мы возьмем одно измерение в минуту, то можем быть уверены, что данные будут поступать в идеально хронологическом порядке. Измените частоту до десяти или ста показателей в секунду — и точность последовательности станет менее определенной. Так как информация передается по сети, запись может задержаться и прибыть не по порядку либо попросту затеряться. Информация получится немного менее точной, но ввиду большого объема данных отказаться от строгой точности вполне целесообразно.
В первом примере мы пожертвовали точностью отдельных точек данных в пользу широты, получив взамен детали, которые не удалось бы обнаружить другим путем. Во втором случае отказались от точности в пользу частоты, зато увидели изменения, которые иначе упустили бы из виду. Такие ошибки можно устранить, если направить на них достаточно ресурсов. В конце концов, на Нью-Йоркской фондовой бирже производится 30 000 сделок в секунду, и правильная последовательность здесь чрезвычайно важна. Но во многих случаях выгоднее допустить ошибку, чем работать над ее предотвращением.
Мы можем согласиться с беспорядочностью в обмен на масштабирование. Один из представителей консалтинговой компании Forrester однажды выразился так: «Иногда два плюс два может равняться 3,9. И это достаточно хорошо». [40] Идея о том, что «2 + 2 = 3,9»: Hopkins, Brian. Expand Your Digital Horizon With Big Data / Brian Hopkins and Boris Evelson // Forrester. — September 30, 2011.
Конечно, эти данные не могут быть абсолютно неправильными, и мы готовы в некоторой степени пожертвовать точностью в обмен на понимание общих тенденций. Большие данные преобразуют цифры в нечто более вероятностное, чем точность. В этом процессе обществу придется ко многому привыкнуть, столкнувшись с рядом проблем, которые мы рассмотрим в этой книге. Но на сегодняшний день стоит просто отметить, что при увеличении масштаба беспорядочность неизбежна, и с этим нужно смириться.
Подобный переход можно заметить в том, в какой степени увеличение объема данных важнее других усовершенствований в вычислительных технологиях. Всем известно, насколько вычислительная мощность выросла за эти годы в соответствии с законом Мура, который гласит, что число транзисторов на кристалле удваивается примерно каждые два года. В результате компьютеры стали быстрее, а память — объемнее. Производительность алгоритмов, которые управляют многими нашими системами, также увеличилась, но осталась несколько в тени. По некоторым данным, вычислительные алгоритмы улучшились примерно в 43 000 раз в период между 1988 и 2003 годами — значительно больше, чем процессоры в соответствии с законом Мура. [41] Белый дом: Report To The President And Congress Designing A Digital Future: Federally Funded Research And Development In Networking And Information Technology // President’s Council of Advisors on Science and Technology. — December, 2010. — P. 71. URL: http://www.whitehouse.gov/sites/default/files/microsites/ostp/pcast-nitrd-report-2010.pdf.
Однако многие достижения, наблюдаемые в обществе благодаря большим данным, состоялись не столько за счет более быстрых чипов или улучшенных алгоритмов, сколько за счет увеличения количества данных.
Интервал:
Закладка: