Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
- Название:Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
- Автор:
- Жанр:
- Издательство:АСТ
- Год:2016
- Город:Москва
- ISBN:978-5-17-088935-8
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры краткое содержание
Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Мы предполагаем, что соотношение частоты употребления слов burned и burnt отражает пропорцию англоговорящих жителей Великобритании, использующих каждую из форм.
77
См. Meldrum Jeff. Sasquatch: Legend Meets Science. New York: Forge, 2006.
78
Эти создания, и не только они, обсуждаются в книге Coleman Loren, Clark Jerome. Cryptozoology A to Z. New York: Fireside, 1999. Важно отметить, что чупакабры бродят стаями; если вы натолкнетесь на одну из них в каком-то предложении, велики шансы, что где-то по соседству есть и другие. Частота употребления слова Chupacabra в настоящее время растет, так что велики шансы, что в будущем они не окажутся под угрозой уничтожения.
79
С помощью простого перемножения цифр мы получили результат 500 лет. По всей видимости тысяча лет, о которой говорила Коулман, предполагала совершение еще каких-то действий, помимо перелистывания страниц. И, разумеется, речь шла о том, что этой работой будет заниматься один человек. В таком случае при наличии 130 миллионов книг и 40 минут на обработку каждой завершение работы потребовало бы 9900 лет.
80
См. Taycher Leonid. Books of the world, stand up and be counted! All 129 864 880 of you // Google Books Search (5 августа 2010 г.), доступно в сети Интернет: http://goo.gl/5yNV. Тайчер – главный гуру Google по вопросам метаданных.
81
Как знает каждый, кто когда-либо пытался сделать ксерокопию книги, получение хороших копий – задача не из легких. Вот, к примеру, лишь одна из проблем, которые необходимо преодолеть: страницы в книгах не лежат ровно; чем ближе к обложке, тем сильнее они изгибаются вовнутрь. Для решения этой проблемы Google разработала систему корректировки каждого изображения с учетом этого изгиба. Более подробное объяснение этого процесса приведено в Michel2011S.
82
См. Google Books History, доступно в сети Интернет: http://goo.gl/ueobb.
83
Вполне возможно создать предложение любой длины на английском языке с использованием одной лишь фамилии Пейджа и слова page («страница», «полоса», «паж» и так далее). См., к примеру: «Page!» (Марисса Майер приказывает своему подчиненному перевернуть страницу); «Page, page!» (Марисса отдает то же самое приказание Ларри); «Page, page pages!» (более детальная инструкция); «Page, page Page’s pages!» (паж должен перелистывать страницы, с которыми не справился Ларри); «Page, page Page’s page’s pages» (Пейдж должен заняться перелистыванием страниц мальчика-пажа другого Пейджа); «Page, page pages Page’s page pages» (Марисса приказывает пажу заняться перелистыванием страниц, которые обычно перелистывает другой паж, прислуживающий Ларри).
84
Средние значения опросов Института Гэллапа за семь дней были основаны на опросах примерно 2700 потенциальных избирателей. См. Election 2012 Likely Voters Trial Heat: Obama vs. Romney // Gallup, доступно в сети Интернет: http://goo.gl/ujbzb.
85
Информацию об учебном курсе MOOC можно найти в Introduction to Artificial Intelligence , доступно в сети Интернет: https://www.udacity.com/course/cs271. Учебник Норвига: Russell Stuart J., Norvig Peter. Artificial Intelligence: A Modern Approach. Englewood Cliffs, NJ: Prentice Hall, 1995.
86
«Википедия» внимательно следила за судебными разбирательствами, их непростым и непрерывным потоком. См. Google Book Search Settlement // Wikipedia (23 июня 2013 г.), доступно в сети Интернет: http://goo.gl/8E5Cx. Некоторые юридические аспекты обсуждаются в статье Trigona Giovanna Occhipinti. Google Book Search Choices // Journal of Intellectual Property Law and Practice 6, no. 4 (10 марта 2011 г.). P. 262–273. В более общем виде эта же информация содержится в книге Leaffer Marshall A. Understanding Copyright Law, 5th ed. Albany, NY: Matthew Bender, 2011. Довольно подробная библиография по этому вопросу приведена в работе Bailey Charles W., Jr. Google Books Bibliography // Digital Scholarship, 2011, доступно в сети Интернет: http://goo.gl/grff2. См. комментарии Рубина на сайте Rubin Thomas C. Searching for Principles: Online Services and Intellectual Property // Microsoft, доступно в сети Интернет: http://goo.gl/GX3CB.
87
См. Barbaro Michael, Zeller Tom, Jr. A Face Is Exposed for AOL Searcher No. 4417749 // New York Times (9 августа 2006 г.), доступно в сети Интернет: http://goo.gl/c8MCY; About AOL Search Data Scandal, доступно в сети Интернет: http://goo.gl/6hnfuI.
88
Доступно в сети Интернет: http://www.google.org/flutrends/intl/ru/ru/#RU/ Сервис Google, позволяет определить скорость распространения вируса гриппа в различных странах ( Прим. пер .).
89
Вследствие своей актуальности для проблемы секвенирования генома разработан весьма впечатляющий теоретический аппарат по анализу проблемы сбора текстов из крошечных элементов. Качественные изменения в этом вопросе возникли после развития статистического аппарата Ландера – Уотермена. Благодаря значительным улучшениям технологии секвенирования генома и вследствие достаточно сложной повторяющейся структуры генома млекопитающих эта статистика может применяться не только для работы над геномом, но и для анализа текстов с помощью n -грамов. См. Lander E. S., Waterman M. S. Genomic Mapping by Fingerprinting Random Clones // Genomics 2, no. 3 (апрель 1988 г.). P. 231–239. Доступно в сети Интернет: http://academic.research.microsoft.com/Publication/1323792/genomic-mapping-by-fingerprinting-random-clones-a-mathematical-analysis.
90
См. Quayle Dan. Standing Firm. New York: HarperCollins, 1994; Fass Mark. How Do You Spell Regret? One Man’s Take on It // New York Times (29 августа 2004 г.), доступно в сети Интернет: http://goo.gl/gWW4wK.
91
Пэйлин весьма ловко использовала 1-грам в своем твите от 18 июля 2010 г. Перед этим она воспользовалась этим словом во время телевизионного выступления. См. Read Max. Sarah Palin Invents New Word: «Refudiate» // Gawker (19 июля 2010 г.), доступно в сети Интернет: http://goo.gl/XjV7TJ.
92
См. Macrone Michael. Brush Up Your Shakespeare. New York: HarperCollins, 1990; McQuain Jeffrey, Malless Stanley. Coined by Shakespeare. Springfield, MA: Merriam-Webster, 1998.
93
Несмотря на свою консервативную репутацию среди лингвистов, AHD довольно долго был новаторским с точки зрения применяемых методов. В 1967 году Генри Кучера и У. Нельсон Фрэнсис опубликовали Brown Corpus , сборник текстов, состоявший из миллиона слов и представлявший широкий набор жанров. Эта публикация обеспечила инструментарий для развития корпусной лингвистики как научной дисциплины и тем самым является во многих отношениях самым ранним и самым важным предвестником корпуса, созданного нами в Google . Вскоре после этого издатель Х. Миффлин связался с Кучерой по вопросу создания корпуса для нового словаря, над которым работала его компания. По сути, издатель намеревался реализовать на практике стратегию Элдриджа (см. сноски к разделу «1937: Одиссея данных»), используя лексическую статистику для конструирования словаря английского языка. Первое издание American Heritage Dictionary , вышедшее в свет в 1969 году, стало первым словарем, построенным по такому принципу. Разумеется, нам было крайне интересно посмотреть, насколько хорошо методы создания AHD выглядят с учетом нашего нового мощного корпуса, основанного на текстах Google Books . К счастью, Джозеф П. Пикетт, ответственный редактор AHD с 1997 по 2011 год, с радостью поучаствовал в этом процессе. Благодаря его активному сотрудничеству и помощи со стороны его подчиненных наш анализ American Heritage Dictionary был чрезвычайно успешен. Все цифры относительно AHD в настоящей книге взяты из прямого общения с ними или из представленной ими информации (Пикетт даже стал одним из соавторов Michel2011.) Хотя мы время от времени и критикуем AHD в нашей книге, ясно, что сотрудники AHD отлично понимали: новые методы анализа помогут им улучшить свой словарь. Мы считаем крайне важной прозрачность в лингвистическом процессе, и никакой другой справочный источник несравним с AHD в этом отношении.
Читать дальшеИнтервал:
Закладка: