Кирилл Еременко - Работа с данными в любой сфере

Тут можно читать онлайн Кирилл Еременко - Работа с данными в любой сфере - бесплатно ознакомительный отрывок. Жанр: comp_db, издательство Литагент Альпина, год 2019. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Работа с данными в любой сфере
  • Автор:
  • Жанр:
  • Издательство:
    Литагент Альпина
  • Год:
    2019
  • Город:
    Москва
  • ISBN:
    978-5-9614-2652-6
  • Рейтинг:
    3/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 60
    • 1
    • 2
    • 3
    • 4
    • 5

Кирилл Еременко - Работа с данными в любой сфере краткое содержание

Работа с данными в любой сфере - описание и краткое содержание, автор Кирилл Еременко, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Что общего у аналитика данных и Шерлока Холмса? Как у Netflix получилось создать 100 %-ный хит – сериал «Карточный домик»? Ответ кроется в правильном использовании данных. Эта книга – практическое руководство и увлекательное путешествие в науку о данных, независимо от того, хотите ли вы использовать анализ данных в своей профессии, собираетесь ли стать аналитиком данных, или уже работаете в этой области. Ее автор, основатель образовательного онлайн-портала и консультант, Кирилл Еременко просто и понятно рассказывает об основных методах, алгоритмах и приемах, которые вам помогут на любом этапе: от сбора данных и их анализа до визуализации полученных результатов. Благодаря «Работе с данными в любой сфере» вы не только узнаете, как данные влияют на нашу жизнь (и как защитить свои данные), но и сможете расширить свои карьерные возможности.

Работа с данными в любой сфере - читать онлайн бесплатно ознакомительный отрывок

Работа с данными в любой сфере - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Кирилл Еременко
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Данные повсеместны

Прежде чем двигаться дальше, нужно уточнить, что подразумевается под данными. Когда люди размышляют о данных, они думают о том, как те активно собираются, хранятся в базах данных на непостижимых корпоративных серверах и направляются на исследования. Но это устаревший взгляд. Сегодня данные гораздо более вездесущи [1] Теперь вы, вероятно, привыкли к тому, что люди используют слово «данные» как множественную форму слова «данное» и что на самом деле правильно употреблять его с глаголами во множественном, а не в единственном числе. Вы можете упомянуть, что «данное» было впервые зафиксировано в 1645 г. как используемое в единственном числе Томасом Уркхартом и что только 60 лет спустя, в 1702-м, это слово стало использоваться как существительное во множественном числе. – Здесь и далее, за исключением особо оговоренных случаев, прим. автора. .

Все весьма просто: данные – это любая единица информации. Это побочный продукт любых действий, пронизывающих каждую часть нашей жизни не только в сфере интернета, но также в истории, географии и культуре. Наскальные изображения – данные. Музыкальный аккорд – данные. Скорость автомобиля, билет на футбольный матч, ответ на вопрос анкеты – все это данные. Книга – это тоже данные, как и глава в этой книге, как слово в главе, а также буква в слове. Им не нужно быть собранными , чтобы считаться данными. Их не нужно хранить в архиве организации, чтобы они считались данными. Значительная часть данных в мире, вероятно, пока не объединены в какой-либо базе данных.

Предположим, что в этом определении данных как единицы информации данные являются осязаемым прошлым . Весьма мудро, если задуматься. Данные – это прошлое, а прошлое – это данные. Запись всего, что можно отнести к данным, называется базой данных. И аналитики данных могут использовать их для лучшего понимания наших нынешних и будущих действий. Они применяют тот же принцип, что веками использовали историки: мы можем учиться на опыте истории. Мы можем учиться на наших успехах – и на наших ошибках, чтобы улучшить настоящее и будущее.

Единственный аспект данных, который в последние годы резко изменился, – наша способность собирать, организовывать, анализировать и визуализировать их в контекстах, которые ограничены только нашим воображением. Куда бы мы ни пошли, что бы мы ни покупали, какими бы ни были наши интересы, все эти данные собираются и систематизируются в тренды, которые помогают рекламодателям и маркетологам продвигать свои продукты к тем, кто в них заинтересован; которые показывают политические предпочтения членов правительства в соответствии с их происхождением или возрастом и которые помогают ученым создавать искусственный интеллект (ИИ), реагирующий не только на простые запросы, но и на сложные эмоции, этику и идеологию.

С учетом всех обстоятельств вы можете спросить: «Каковы же ограничения: что мы называем данными, а что – нет? Считаются ли фактические сведения о цикле цветения растения (количественные данные) такими же данными, как фиксация ученым культурного обычая, связанного с передачей умирающему родственнику букета цветов из родной страны (качественные данные)?» Ответ – да. Данные не дискриминируются. Не имеет значения, является ли рассматриваемая единица информации количественной или качественной. Качественные данные, возможно, были менее полезными в прошлом, когда не была достаточно сложной технология их обработки, но благодаря достижениям в алгоритмах, способных обрабатывать такие данные, этот недостаток быстро уходит в прошлое.

Говоря об ограничениях понятия «данные», еще раз вспомните, что данные – это прошлое. Вы не можете получать данные из будущего, если только вам не удалось создать машину времени. Но в то время как данные нельзя получить из будущего, с их помощью можно получить представление о грядущем и прогнозировать его. И именно способность данных восполнить пробелы в наших знаниях делает их настолько увлекательными.

Большие данные прекрасны

Теперь, когда мы разобрались, что такое данные, нужно по-другому взглянуть на то, где и как они фактически хранятся. Мы уже продемонстрировали наш широкомасштабный потенциал создания данных (это «выхлопные данные») и пояснили, что, трактуя их как единицу информации, мы создаем очень широкую концепцию того, что понимается под данными. Итак, если они где-то рядом, где все это происходит ?

К настоящему времени вам, вероятно, доводилось слышать термин «большие данные». Проще говоря, большие данные – это название, присвоенное массивам данных со столбцами и строками, которых настолько много, что они не могут быть обработаны обычным аппаратным и программным обеспечением в течение разумного промежутка времени. По этой причине сам термин является динамичным – то, что расценивалось как большие данные в 2015 г., уже не будет считаться большими данными в 2020-м, поскольку к тому времени будут разработаны технологии, легко справляющиеся с подобными объемами.

Три V

Чтобы можно было считать массив данных большими данными, должно быть выполнено хотя бы одно из трех условий:

1. Объем данных – то есть размер массива данных (например, количество строк) – должен исчисляться миллиардами.

2. Скорость, то есть то, как быстро собираются данные (например, потоковое видео в интернете), предполагает, что скорость генерируемых данных слишком высока для адекватной обработки с использованием обычных методов.

3. Разнообразие. Это подразумевает либо разнородность типов информации, содержащейся в массиве данных, таком как текст, видео, аудио или файлы изображений (известные как неструктурированные данные), либо таблицы, содержащие значительное количество столбцов, которые представляют разные свойства данных.

Мы пользуемся большими данными в течение многих лет для всех видов дисциплин и гораздо дольше, чем вы могли бы ожидать, – просто до 1990-х гг. не было термина для их обозначения. Так что я вас шокирую: большие данные – это не большая новость. Это, конечно, не новая концепция. Многие, если не все, крупнейшие корпорации располагают огромными хранилищами данных об их клиентах, продуктах и услугах, которые собирались в течение длительного времени. Правительства хранят данные о людях, полученные в результате переписей и регистрации по месту проживания. Музеи хранят культурные данные – от артефактов и сведений о коллекционере до выставочных архивов. Даже наши собственные тела хранят большие данные в виде генома (подробнее об этом в главе 3 «Мышление, необходимое для эффективного анализа данных»).

Короче говоря, если вы просто не в состоянии работать с данными, то можете назвать их большими данными. Когда ученые используют термин, они делают это не просто так. Он применяется, чтобы привлечь внимание к тому, что стандартных методов для анализа данных, о которых идет речь, недостаточно.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Кирилл Еременко читать все книги автора по порядку

Кирилл Еременко - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Работа с данными в любой сфере отзывы


Отзывы читателей о книге Работа с данными в любой сфере, автор: Кирилл Еременко. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x