Кирилл Еременко - Работа с данными в любой сфере

Тут можно читать онлайн Кирилл Еременко - Работа с данными в любой сфере - бесплатно ознакомительный отрывок. Жанр: comp_db, издательство Литагент Альпина, год 2019. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Работа с данными в любой сфере
  • Автор:
  • Жанр:
  • Издательство:
    Литагент Альпина
  • Год:
    2019
  • Город:
    Москва
  • ISBN:
    978-5-9614-2652-6
  • Рейтинг:
    3/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 60
    • 1
    • 2
    • 3
    • 4
    • 5

Кирилл Еременко - Работа с данными в любой сфере краткое содержание

Работа с данными в любой сфере - описание и краткое содержание, автор Кирилл Еременко, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Что общего у аналитика данных и Шерлока Холмса? Как у Netflix получилось создать 100 %-ный хит – сериал «Карточный домик»? Ответ кроется в правильном использовании данных. Эта книга – практическое руководство и увлекательное путешествие в науку о данных, независимо от того, хотите ли вы использовать анализ данных в своей профессии, собираетесь ли стать аналитиком данных, или уже работаете в этой области. Ее автор, основатель образовательного онлайн-портала и консультант, Кирилл Еременко просто и понятно рассказывает об основных методах, алгоритмах и приемах, которые вам помогут на любом этапе: от сбора данных и их анализа до визуализации полученных результатов. Благодаря «Работе с данными в любой сфере» вы не только узнаете, как данные влияют на нашу жизнь (и как защитить свои данные), но и сможете расширить свои карьерные возможности.

Работа с данными в любой сфере - читать онлайн бесплатно ознакомительный отрывок

Работа с данными в любой сфере - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Кирилл Еременко
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать
Почему такая суета вокруг больших данных?

Вам может показаться странным, что мы только начали понимать, насколько значимыми могут быть данные. Но когда мы в прошлом собирали данные, единственное, что мешало нам превратить их во что-то полезное, было отсутствие технологий. В конце концов, важно не то, насколько огромны данные; важно, что вы с ними делаете. Любые данные, «большие» или иные, полезны, только если из них можно извлечь информацию, и до того, как была разработана соответствующая технология, чтобы помочь нам проанализировать и масштабировать эти данные, их полезность могла быть измерена только интеллектуальными возможностями человека, пытавшегося с ними совладать. Но для сортировки больших данных требуется более быстрый и мощный процессор, чем человеческий мозг. До технологических разработок XX в. данные хранились на бумаге, в архивах, библиотеках и хранилищах. Теперь почти все новые данные, которые мы собираем, хранятся в цифровом формате (и даже старые данные активно преобразуются в цифровые, о чем свидетельствует огромное количество ресурсов, сосредоточенных в таких цифровых собраниях, как Europeana Collections и Google Books).

Хранение и обработка данных

С изобретением компьютера появилась возможность автоматизации процесса хранения и обработки данных. Но большие массивы данных увязли в первых машинах; ученым, работавшим с электронными массивами данных в 1950-х гг., приходилось ждать решения простой задачи несколько часов. Вскоре пришли к выводу, что для правильной обработки больших массивов данных – для установления связей между элементами и использования этих связей с целью получения точных и значимых прогнозов – нужно создавать информационные носители, которые могли бы управлять данными и справляться с их хранением. Разумеется, по мере совершенствования технологий, основанных на вычислениях, менялись и возможности компьютеров по хранению и обработке данных. И за последние 70 лет мы не только научились эффективно хранить информацию, но и смогли сделать эту информацию переносимой. Те же самые данные, которые в 1970-х гг. помещались только на 177 778 гибких дисках, к 2000-му могли поместиться на одном флеш-накопителе . Сегодня вы можете хранить все это и многое другое в облаке (хранилище с виртуализированной инфраструктурой, которая позволяет просматривать ваши личные файлы из любой точки мира) [2] Облачные данные хранятся за пределами сайта и в основном перемещаются по подводным кабелям, которые укладываются на дно океана. Так что облако находится не в воздухе, как мы могли подумать, а под водой. Карту расположения этих кабелей можно найти на www.submarinecablemap.com . . Когда вы в следующий раз обратитесь к личным документам, хранящимся в местной библиотеке, у вас на работе или просто в вашем мобильном устройстве, имейте в виду: вы фактически делаете то, что в 1970-х гг. потребовало бы использования более 100 000 дискет.

Когда новые технологии облегчили хранение данных, исследователи начали обращать внимание на то, как эти сохраненные данные могут быть использованы на практике. Как мы начали создавать порядок из хаоса? Вернемся к нашему предыдущему примеру – фильму, который вы в последний раз смотрели в кинотеатре. Вероятно, вы были выбраны, чтобы увидеть этот фильм, не проницательным маркетологом, сосредоточенно изучавшим соответствующие критерии, а умной машиной, которая изучила ваши «выхлопные данные» и сопоставила их с найденными ею демографическими сведениями о тех, кто увидел этот фильм и получил от него удовольствие. Это может казаться новинкой, но, как мы уже установили, данные и их (ручная) обработка уже давно существуют. Некоторые из киностудий Голливуда еще в 1950-х гг. собирали данные о том, что конкретно – от актера до режиссера и жанра – хотела увидеть их аудитория, а потом преобразовывали эту информацию в демографические характеристики респондентов, включавшие в себя возраст, местожительство и пол. Даже в то время люди принимали способные изменить ход событий решения в соответствии с информацией, извлеченной из данных.

RKO Pictures

Почему RKO Pictures, одна из голливудских студий «Большой пятерки» в 1950-х гг., продолжала снимать Кэтрин Хепберн в своих фильмах? Потому что данные показывали, что это был беспроигрышный выбор, способный привлечь внимание людей и в конечном итоге заставить их пойти в кинотеатры.

Конечно, есть место и для интуиции. На первом кастинге режиссер Джордж Кьюкор нашел актрису странной, но также признал, что «она обладала огромным чувством, которое проявлялось даже в том, как она брала стакан. Я подумал, что она очень талантлива…» (Fowles, 1992). Вот пример интуиции.

Опираясь на данные о положительном восприятии Хепберн зрительской аудиторией, RKO позже смогла воспользоваться и интуитивными предположениями Кьюкора относительно таланта актрисы и превратить их в надежные прогнозы о том, что студия сможет и дальше зарабатывать свои миллионы.

Это произошло благодаря Джорджу Гэллапу – первому человеку, который рассказал руководителям Голливуда о возможности использовать данные для принятия решений и прогнозирования, включая подбор актеров на главные роли и определение того, в какой жанр наиболее целесообразно вкладывать деньги [3] Гэллап был статистиком, впервые ставшим известным публике, когда разработал метод, с помощью которого он точно предсказал переизбрание Франклина Д. Рузвельта в 1936 г. .

Чтобы помочь RKO сделать это, Гэллап собрал, объединил и проанализировал качественные и количественные данные, которые охватывали демографическую информацию о зрительской аудитории RKO и ее мнение о фильмах, выпускаемых киностудией. Собирая эти данные, Гэллап создал модель, которая в первый раз сегментировала аудиторию кинозрителей демографически, выделив тех, кто благоприятно реагировал на определенные жанры, – модель, которая может и будет использоваться в дальнейшем для выборки и анализа данных.

Разрекламированный как предсказатель, помогающий студиям разбогатеть, Гэллап быстро стал любимцем многих лидеров киноиндустрии США, проверяя по данным опросов и интервью отношение аудитории к персонажам различных лент, от мультиков Уолта Диснея до фильмов Орсона Уэллса [4] Более подробно о новаторской работе Джорджа Гэллапа см. Ohmer (2012). .

Своим успехом Гэллап был обязан только данным (возможно, его можно назвать первым высокооплачиваемым аналитиком данных в мире). Его усилия в области статистики привели к тому, что этот ресурс по-прежнему имеет ценность за пределами своего первоначального замысла, обладая потенциалом охвата неструктурированных данных: записанных интервью представителей аудитории, отражающих культурные и социальные ценности того времени. Возможно, Гэллап подозревал, что потенциал анализа данных может только расти.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Кирилл Еременко читать все книги автора по порядку

Кирилл Еременко - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Работа с данными в любой сфере отзывы


Отзывы читателей о книге Работа с данными в любой сфере, автор: Кирилл Еременко. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x