Джон Келлехер - Наука о данных. Базовый курс

Тут можно читать онлайн Джон Келлехер - Наука о данных. Базовый курс - бесплатно ознакомительный отрывок. Жанр: comp-db, издательство Альпина Паблишер, год 2020. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Наука о данных. Базовый курс
  • Автор:
  • Жанр:
  • Издательство:
    Альпина Паблишер
  • Год:
    2020
  • Город:
    Москва
  • ISBN:
    978-5-9614-3378-4
  • Рейтинг:
    3/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 60
    • 1
    • 2
    • 3
    • 4
    • 5

Джон Келлехер - Наука о данных. Базовый курс краткое содержание

Наука о данных. Базовый курс - описание и краткое содержание, автор Джон Келлехер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом.
Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.
«Наука о данных» уже переведена на японский, корейский и китайский языки.

Наука о данных. Базовый курс - читать онлайн бесплатно ознакомительный отрывок

Наука о данных. Базовый курс - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Джон Келлехер
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Обучение без учителя (Unsupervised Learning)

Форма машинного обучения, целью которой является выявление закономерностей в базе данных, которые включают кластеры похожих объектов или регулярность атрибутов. В отличие от контролируемого обучения в наборе данных не определен целевой атрибут.

Необработанный атрибут (Raw Attribute)

Абстракция сущности, которая является ее прямым измерением, например рост человека (в отличие от производного атрибута).

Неструктурированные данные (Unstructured Data)

Данные, где каждый объект в наборе может иметь собственную внутреннюю структуру, отличающуюся от внутренних структур других объектов. Например, текстовые данные часто не структурированы и требуют, чтобы к ним применялась последовательность операций для извлечения структурированного представления каждого объекта.

Объект (Instance)

Каждая строка в наборе данных содержит информацию, относящуюся к одному объекту (также называемому экземпляром, сущностью, случаем или записью).

Поиск ассоциативных правил (Association Rule Mining)

Техника анализа данных при неконтролируемом обучении, которая ищет группы элементов, часто встречающихся вместе. Классическим примером использования является анализ рыночной корзины, когда розничные компании пытаются идентифицировать наборы товаров, которые часто покупают вместе, к примеру хот-дог, кетчуп и пиво.

Прогнозирование (Prediction)

В контексте науки о данных и машинного обучения прогнозирование — это задача вычисления значения целевого атрибута для данного объекта на основе значений других атрибутов (или входных атрибутов) этого же объекта.

Производный атрибут (Derived Attribute)

Атрибут, значение которого генерируется путем применения функции к данным, а не путем прямого измерения объекта (в отличие от базового атрибута). Примером производного атрибута является атрибут, который описывает среднее значение выборки.

Регрессионный анализ (Regression Analysis)

Вычисляет ожидаемое (или среднее) значение числового целевого атрибута при всех заданных значениях входного атрибута. Регрессионный анализ предполагает параметризованную математическую модель гипотетической взаимосвязи между входами и выходами, известную как функция регрессии. Функция регрессии может иметь множество параметров, и целью регрессионного анализа является поиск правильных настроек для них.

Собранные данные (Captured Data)

Данные, которые зафиксированы непосредственно в процессе сбора данных (в отличие от аномалий).

Структурированные данные (Structured Data)

Данные, которые могут храниться в таблице, каждый объект которой имеет одинаковый набор атрибутов (в отличие от неструктурированных данных).

Транзакционные данные (Transactional Data)

Включают информацию о событиях, таких как продажа товара, выставление счета, доставка груза, оплата кредитной картой и т. д.

Умный город (Smart City)

Проекты умных городов, как правило, пытаются интегрировать данные в режиме реального времени из множества различных источников в единый центр данных, где они анализируются и используются для принятия управленческих решений и планирования.

Хранилище данных (Data Warehouse)

Централизованный репозиторий, который содержит данные из разных источников со всех уровней организации. Данные структурированы так, чтобы поддерживать генерацию сводных отчетов. Интерактивная аналитическая обработка (OLAP) — термин, используемый для описания типичных операций в хранилище данных.

Целевой атрибут (Target Attribute)

В задаче прогнозирования целевой атрибут — это атрибут, которому модель прогнозирования обучается для вычисления значений.

Примечания

1

Нильсон Н. Дж. Обучающиеся машины. — М.: Мир, 1967.

2

Цитата взята из приглашения на семинар «KDD — 1989». — Здесь и далее прим. авт .

3

Некоторые специалисты все же проводят границу между глубинным анализом данных и KDD, рассматривая первый как подраздел второго и определяя его как один из методов обнаружения знаний в базах данных.

4

https://www.cancer.gov/research/key-initiatives.

5

https://allofus.nih.gov/.

6

https://www.policedatainitiative.org/.

7

Льюис М. MoneyBall. — М.: Манн, Иванов и Фербер, 2013.

8

Дабнер С., Левитт С. Фрикономика. — М.: Альпина Паблишер, 2018.

9

https://deepmind.com/research/alphago/.

10

Хотя многие наборы данных можно описать как плоскую матрицу n × m , существуют сценарии, в которых набор данных представлен в более сложной форме: например, если набор данных описывает эволюцию нескольких атрибутов во времени, то каждый момент времени в наборе данных будет представлен двухмерной плоской матрицей n × m , перечисляющей состояние атрибутов в данный момент времени, но общий набор данных будет трехмерным, где время используется для связывания двумерных срезов момента. В таком контексте термин «тензор» иногда используется для придания идее матрицы дополнительного измерения.

11

Скрапинг (англ. scraping) — в широком смысле сбор данных с интернет-ресурсов. — Прим. пер .

12

Интерпретация высказывания Джорджа Бокса: «По сути, все модели ошибочны, но некоторые бывают полезны».

13

Для числового целевого атрибута наиболее распространенным показателем центральной тенденции является среднее значение, а для номинальных или порядковых данных — диапазон (или наиболее часто встречающееся значение).

14

Здесь мы используем более сложную запись, включающую и, поскольку далее мы будем расширять эту функцию и включать в нее более одного входного атрибута, а для этого понадобятся индексированные переменные.

15

Предостережение: приведенные здесь числовые значения следует воспринимать только как иллюстрацию, а не как окончательные оценки взаимосвязи между ИМТ и вероятностью развития диабета.

16

Обычно нейронные сети работают лучше, когда все входные данные имеют небольшие значения. Если заданы широкие диапазоны входных атрибутов, то атрибуты с большими значениями имеют тенденцию доминировать при обработке сетью. Чтобы этого не происходило, лучше всего нормализовать входные атрибуты под одинаковые диапазоны.

17

МПК — наибольшее количество кислорода, выраженное в миллилитрах, которое человек способен потреблять в течение одной минуты.

18

Для простоты мы не стали обозначать вес связей на рис. 14.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Джон Келлехер читать все книги автора по порядку

Джон Келлехер - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Наука о данных. Базовый курс отзывы


Отзывы читателей о книге Наука о данных. Базовый курс, автор: Джон Келлехер. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x