Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
- Название:Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
- Автор:
- Жанр:
- Издательство:АСТ
- Год:2016
- Город:Москва
- ISBN:978-5-17-088935-8
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры краткое содержание
Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
15
Таким образом, проблему подсчета овец можно будет считать полностью решенной, если только Вселенная не расширится очень сильно.
16
Согласно расчетам IDC (International Data Corporation) , цифровой след человечества вырастет со 130 экзабайт в 2005 году до 40 000 экзабайт (40 зеттабайт) в 2020 г. Иными словами, удвоение объема информации будет происходить каждый год и 10 месяцев. См. выше.
17
См. Facebook Tops 1 Billion Users // Associated Press (4 октября 2012 г.), доступно в сети Интернет: http://goo.gl/nfK32P.
18
См. Einav Liran et al. Learning from Seller Experiments in Online Markets // National Bureau of Economic Research, 2011. Доступно в сети Интернет: http://goo.gl/f9ghir.
19
См. Bond Robert M. et al. A 61-Million-Person Experiment in Social Influence and Political Mobilization // Nature 489, no. 7415 (2012). P. 295–298. Доступно в сети Интернет: http://goo.gl/AQdAS0.
20
См. Song Chaoming et al. Limits of Predictability in Human Mobility // Science 327, no. 5968 (2010). P. 1018–1021.
Доступно в сети Интернет: http://goo.gl/rYlF2v.
21
См. Ginsberg Jeremy et al. Detecting Influenze Epidemics Using Search Engine Query Data // Nature 457 (2009). P. 1012–1014. Доступно в сети Интернет: http://goo.gl/WHEWW.
22
См. Chetty Raj, Friedman John N., Rockoff Jonah E. The Long-Term Impacts of Teachers // National Bureau of Economic Research (декабрь 2011 г.), доступно в сети Интернет: http://goo.gl/C18JQ; Chetty Raj et al. How Does Your Kindergarten Classroom Affect Your Earnings? // National Bureau of Economic Research (март 2011 г.), доступно в сети Интернет: http://goo.gl/N9O6a.
23
См. Silver Nate. FiveThirtyEight, URL: http://www.fivethirtyeight.com; Silver Nate. The Signal and the Noise. New York: Penguin, 2012.
24
Что имеется в виду? Нет смысла оцифровывать каждую копию каждой книги из когда-либо написанных, хотя заметки на полях порой могут оказаться довольно увлекательными. См. Grafton Anthony, Weinberg Joanna. I Have Always Loved the Holy Tongue. Cambridge, MA: Harvard University Press, 2011. С другой стороны, многие издания наиболее знаменитых работ, переиздававшихся на протяжении столетий, порой очень отличаются. И эти различия могут быть весьма серьезными. См., к примеру, Rumsey Eric. Google Book Search: Multiple Editions Give Quirky Results // Seeing the Picture (12 октября 2010 г.), URL: http://goo.gl/6YNld. В случае Google Books цель состоит в оцифровке одной копии каждого издания каждой книги.
25
См. The Stanford Digital Library Technologies Project // Stanford University, URL: http://goo.gl/tstLQ; Google Books History // Google Books, URL: http://goo.gl/ueobb.
26
Отчасти по причинам, приведенным выше, а отчасти и из-за расплывчатости определения книги как физического объекта подсчет количества книг в обычной библиотеке может оказаться непростым делом. Поэтому данные о коллекции каждой библиотеки были взяты со страницы в «Википедии» по состоянию на 18 июля 2013 г. Стоит отметить, что эти цифры не всегда актуальны. Также нужно оговориться, что Стэнфорд уже начинает закрывать физические библиотеки и заменять их «библиотеками без книг». См. Krieger Lisa M. Stanford University Prepares for the «Bookless Library» // San Jose Mercury News (18 мая 2010 г.), доступно в сети Интернет: http://goo.gl/yauezp.
27
См., к примеру, оцифрованное издание книги Klipstein Louis F. Grammar of the Anglo-Saxon Language. New York: George P. Putnam, 1848, доступно в сети Интернет: http://goo.gl/cWRlJ. Стоит отметить, что из юридических и этических опасений Гарвард принял решение выйти из программы Google Books , позволив Google произвести оцифровку лишь материалов, не защищенных копирайтом. См. Mirviss Laura G. Harvard-Google Online Book Deal at Risk // Harvard Crimson (30 октября 2008 г.), доступно в сети Интернет: http://goo.gl/0tYflD.
28
Этот термин не так давно предложен исследователем социальных сетей Сэмюелем Арбесманом. См. Arbesman Samuel. Stop Hyping Big Data and Start Paying Attention to Long Data // Wired (29 января 2013 г.), доступно в сети Интернет: http://goo.gl/X7oEC.
29
Хотя лучшие эмпирические массивы данных малодоступны, социальные сети остаются довольно перспективным полем для исследований. См., к примеру: Watts Duncan J., Strogatz Steven H. Collective Dynamics of «Small-World» Networks // Nature 393, no. 6684 (1998). P. 440–442. Доступно в сети Интернет: http://goo.gl/be3Xmi; Barabаsi Albert-Lаszlу, Albert Reka. Emergence of Scaling in Random Networks // Science 286, no. 5439 (1999). P. 509–512. Доступно в сети Интернет: http://goo.gl/eESUa8; Milo Ron et al. Network Motifs: Simple Building Blocks of Complex Networks // Science 298, no. 5594 (2002). P. 824–827.
30
Стоит отметить, что присутствие юристов в нашей жизни – это не всегда плохо. Так, у одного из авторов этой книги супруга – юрист.
31
Поначалу мы разделили все результаты нашей работы на четыре части: текст исследования, подробное методологическое приложение и два вспомогательных веб-сайта. См. Michel Jean-Baptiste et al. Quantitative Analysis of Culture Using Millions of Digitized Books // Science 331, no. 6014 (14 января 2011 г.), доступно в сети Интернет: http://goo.gl/mahoN; подробный вспомогательный текст, доступный в сети Интернет: http://goo.gl/1e509; Ngram Viewer, Google Books, 2010, URL: http://books.google.com/ngrams; Culturomics. Cultural Observatory, URL: http://www.culturomics.org. Поскольку в наших ссылках мы будем часто обращаться к Michel et al., то обозначим ее как Michel2011. Аббревиатура Michel2011S будет использоваться для отсылки на вспомогательный текст.
32
См. Ngram Viewer 2 и выше; Aiden Erez Lieberman, Michel Jean-Baptiste. Culturomics, Ngrams and New Power Tools for Science // Google Research Blog (10 августа 2011 г.), URL: http://goo.gl/FSbbP; Orwant Jon. Ngram Viewer 2.0 // Google Research Blog (18 октября 2012 г.), URL: http://goo.gl/zOSfg.
33
В 1911 году выдержки из его выступления в городе Сиракьюс, штат Нью-Йорк, появились в Printers’ Ink , первом американском деловом издании по вопросам рекламы. В выдержках приводится первая зафиксированная форма высказывания: «Используйте картинку. Она стоит тысячи слов». Вскоре после этого появилась более компактная форма: «Картинка стоит тысячи слов», а также варианты с использованием «десятка тысяч» и «миллиона». Поначалу все три варианта приписывались Брисбейну. Вполне возможно, что он действительно использовал их все в разных случаях. См. Printers’ Ink 75, no. 1 (6 апреля 1911 г.). P. 17. К 1925 году фразу уже начали приписывать Конфуцию. См. Management Accounting // National Association of Cost Accountants (1925).
34
См. Reimer Karen. Legendary, Lexical, Loquacious Love. Chicago: Sara Ranchouse, 1996. На обложке книги указано: «Карен Реймер переписывает Ив Раймер». прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный, – прекрасный. прекрасный. прекрасный. прекрасный… прекрасный… (Прим. ред.)
35
A – неопределенный артикль в английском языке ( Прим. ред. ).
36
Страстный ( англ. ) ( Прим. ред. ).
37
Идея «больших данных» пока еще слишком нова для того, чтобы найти достойное отражение в книгах; см. наше обсуждение времени, которое требуется, чтобы термины стали появляться в книгах, в главе 6. Согласно данным Google Trends , количество результатов поиска на тему больших данных было довольно постоянно до 2011 года, а затем стало расти. Статья в Википедии Big Data была создана в апреле 2010 года; по состоянию на 14 июля 2013 г. она подвергалась редактированию 694 раза, ее просматривали более 150 000 раз в месяц и она стоит на 2022-м месте по популярности в англоязычной «Википедии». См: Big data // Google Trends, 2013, URL: http://goo.gl/tL8GnD; Big Data // Wikipedia (14 июля 2013 г.), URL: http://goo.gl/DFFbr; Big Data: Revision History // Wikipedia (14 июля 2013 г.), URL: http://goo.gl/Jvla3; Big Data // X!’s Edit Counter (14 июля 2013 г.), URL: http://goo.gl/e9YZ7v; Big Data // Wikipedia Article Traffic Statistics (14 июля 2013 г.), URL: http://goo.gl/vgYxH.
Читать дальшеИнтервал:
Закладка: