Джон Келлехер - Наука о данных. Базовый курс
- Название:Наука о данных. Базовый курс
- Автор:
- Жанр:
- Издательство:Альпина Паблишер
- Год:2020
- Город:Москва
- ISBN:978-5-9614-3378-4
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Джон Келлехер - Наука о данных. Базовый курс краткое содержание
Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.
«Наука о данных» уже переведена на японский, корейский и китайский языки.
Наука о данных. Базовый курс - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Поддержка проекта.Поддержка со стороны высшего руководства имеет решающее значение для успеха большинства проектов науки о данных. Однако старшие ИТ-менеджеры бывают слишком сосредоточены на происходящем здесь и сейчас, следя за работой повседневных приложений, наличием резервных копий, проверяя процессы восстановления и корректируя приложения на будущее. В успешных проектах науки о данных часто спонсорами выступают старшие бизнес-руководители, а не ИТ-менеджеры. Преимущество этого состоит в том, что бизнес-руководители сосредоточены не на технологии, а на процессах, происходящих вокруг проекта, и на том, как можно использовать его результаты. Чем более сфокусирован на этом спонсор проекта, тем успешнее будет проект. По его завершении такой спонсор станет ключом к информированию остальной части организации об успехе проекта. Но даже когда в проекте в качестве лидера задействован старший руководитель, общая стратегия науки о данных в компании в долгосрочной перспективе может потерпеть неудачу, если начальные проекты будут восприняты как нечто «для галочки». Организация не должна рассматривать науку о данных как разовые проекты. Чтобы получить долгосрочные выгоды, необходимо создать потенциал для науки о данных на постоянной основе, а также использовать результаты ее проектов. Это требует долгосрочных обязательств со стороны высшего руководства и принятия науки о данных как части стратегии.
Итерация.Большинство проектов науки о данных требуют более или менее регулярных обновлений и актуализации. При каждом обновлении или итерации процесса можно добавлять новые данные, корректировки, а возможно, и новые алгоритмы. Модели оттока необходимо обновлять на регулярной основе. Частота этих итераций будет варьироваться от проекта к проекту, от ежедневных до одного раза каждые 3, 4, 6 или 12 месяцев. Для определения необходимости обновления моделей может быть встроен контроль генерируемых выходных данных.
Мысли напоследок
Люди всегда абстрагировались от мира и пытались понять его, выявляя закономерности в собственном опыте. Наука о данных — последнее воплощение этого поиска, этой модели поведения. И хотя она имеет такую долгую предысторию, сила ее влияния на современную жизнь беспрецедентна. Слова «точный», «умный», «целевой» и «персонализированный» являются частью отраслевых названий науки о данных: точная медицина, точный полицейский контроль, точное сельское хозяйство, умные города, умный транспорт, целевая реклама, персонализированные развлечения . Все эти сферы человеческой жизни объединяет необходимость принятия решений. Какое лечение использовать для этого пациента? Как распределить полицейские ресурсы? Сколько удобрений нужно внести? Сколько школ необходимо построить в ближайшие четыре года? Кому мы должны отправить это дополнение? Какой фильм или книгу порекомендовать этому человеку? Именно наука о данных помогает принимать такие решения. Успешный проект науки о данных обеспечивает актуальное понимание вопроса, которое помогает принять наилучшее решение и достигнуть наилучших результатов.
Наука о данных в ее современном виде представляет собой смесь больших данных, компьютерных мощностей и человеческой изобретательности в целом ряде технологических областей (от глубинного анализа данных и исследования баз до машинного обучения). Эта книга призвана дать обзор основных идей и концепций, которые необходимы для понимания науки о данных. Жизненный цикл проекта CRISP-DM делает процесс обработки данных открытым и обеспечивает структуру для перехода от данных к мудрости: формулируйте проблему, подготавливайте данные, используйте машинное обучение для выявления закономерностей и создания моделей, применяйте модели для проникновения в суть. В книге также затрагиваются этические проблемы, связанные с конфиденциальностью. У нас есть искренние и обоснованные опасения, что наука о данных может быть использована правительствами и/или заинтересованными лицами для манипулирования нашим поведением и контроля над нашими действиями. Нам необходимо выработать обоснованное мнение о том, в каком мире мы хотим жить, и подумать о законах, которые бы направили науку о данных в соответствующих направлениях. Говоря о будущем, при всех возможных этических проблемах джинн уже выпущен из бутылки: наука о данных оказывает и будет оказывать существенное влияние на нашу повседневную жизнь. При правильном использовании она сможет улучшить ее. Но для того чтобы организации, в которых мы работаем, сообщества и семьи, в которых мы живем, получали выгоду от науки о данных, нам нужно понять и изучить, что она собой представляет, как работает, что умеет и чего не умеет. Мы надеемся, что эта книга поможет вам в этом.
Глоссарий
CRISP-DM
Межотраслевой стандартный процесс, определяющий жизненный цикл проекта исследования данных. Часто используется в науке о данных.
Пирамида DIKW (DIKW Pyramid)
Модель структурных отношений между данными, информацией, знаниями и мудростью. В пирамиде DIKW данные предшествуют информации, которая предшествует знаниям, которые предшествуют мудрости.
Hadoop
Платформа с открытым исходным кодом, разработанная Apache Software Foundation, предназначенная для обработки больших данных. Использует распределенное хранение и обработку по кластерам аппаратного обеспечения.
OLAP — интерактивная аналитическая обработка
Операции OLAP генерируют сводки исторических данных и включают агрегирование данных из нескольких источников. Они предназначены для генерации сводок по типам отчетов и позволяют пользователям раcпределять, фрагментировать и переворачивать данные в хранилище, используя предопределенный набор атрибутов, например продажи по магазинам, продажи по кварталам.
SQL — язык структурированных запросов
Международный стандарт для определения запросов к базе данных.
Анализ данных (Data Analysis)
Общий термин, используемый для описания любого процесса извлечения полезной информации из данных. Типы анализа данных включают визуализацию, сводную статистику, корреляционный анализ и моделирование с использованием машинного обучения.
Аналитическая базовая таблица (Analytics Base Table, ABT)
Таблица, в которой каждая строка содержит данные, относящиеся к конкретному объекту, а каждый столбец — параметры определенного атрибута объектов в таблице. Это основной способ ввода информации для глубинного анализа данных и алгоритмов машинного обучения.
Атрибут (Attribute)
Каждый объект набора данных описывается рядом атрибутов (также называемых признаками или переменными). Атрибут фиксирует один фрагмент данных, относящихся к объекту. Атрибут может быть базовым или производным.
Читать дальшеИнтервал:
Закладка: