Джон Келлехер - Наука о данных. Базовый курс

Тут можно читать онлайн Джон Келлехер - Наука о данных. Базовый курс - бесплатно ознакомительный отрывок. Жанр: comp-db, издательство Альпина Паблишер, год 2020. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Наука о данных. Базовый курс
  • Автор:
  • Жанр:
  • Издательство:
    Альпина Паблишер
  • Год:
    2020
  • Город:
    Москва
  • ISBN:
    978-5-9614-3378-4
  • Рейтинг:
    3/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 60
    • 1
    • 2
    • 3
    • 4
    • 5

Джон Келлехер - Наука о данных. Базовый курс краткое содержание

Наука о данных. Базовый курс - описание и краткое содержание, автор Джон Келлехер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом.
Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.
«Наука о данных» уже переведена на японский, корейский и китайский языки.

Наука о данных. Базовый курс - читать онлайн бесплатно ознакомительный отрывок

Наука о данных. Базовый курс - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Джон Келлехер
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

‹5›. Henke, Nicolaus, Jacques Bughin, Michael Chui, James Manyika, Tamim Saleh, and Bill Wiseman. 2016. «The Age of Analytics: Competing in a Data-Driven World.» McKinsey Global Institute. http://www.mckinsey.com/business-functions/mckinsey-analytics/ourinsights/the-age-of-analytics-competing-in-a-data-driven-world.

‹6›. Tufte, Edward R. 2001. The Visual Display of Quantitative Information. 2nd edition edition. Cheshire, Conn: Graphics Press.

‹7›. Taylor, David. 2016. «Battle of the Data Science Venn Diagrams.» KDnuggets. http://www.kdnuggets.com/2016/10/battle-data-science-venn-diagrams.html.

‹8›. Cleveland, William S. 2001. «Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics.» International Statistical Review 69 (1): 21–26. doi:10.1111/j.1751–5823.2001.tb00477.x.

‹9›. DeZyre. 2015. «How Big Data Analysis Helped Increase Walmart’s Sales Turnover?» DeZyre. https://www.dezyre.com/article/how-big-data-analysis-helped-increase-walmarts-salesturnover/109.

‹10›. Kitchin, Rob. 2014. The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences. Sage.

‹11›. Anderson, Chris. 2008. The Long Tail: Why the Future of Business Is Selling Less of More. Revised edition. New York: Hachette Books.

‹12›. Linoff, Gordon S., and Michael JA Berry. 2011. Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management. John Wiley & Sons.

‹13›. Lewis, Michael. 2004. Moneyball: The Art of Winning an Unfair Game. 1st edition. New York: W. W. Norton & Company.

‹14›. Дабнер Стивен, Левитт Стивен. Фрикономика. Экономист-хулиган и журналист-сорвиголова исследуют скрытые причины всего. — М.: Альпина Паблишер, 2019.

‹15›. Few, Stephen. 2012. Show Me the Numbers: Designing Tables and Graphs to Enlighten. Second edition. Burlingame, CA: Analytics Press.

Глава 2. Что такое данные и что такое набор данных?

Как следует из названия, наука о данных фундаментально зависит от самих данных. По существу данные являются абстракцией реальной сущности (человека, объекта или события). Термины « переменная», «признак» или «атрибут» часто используются взаимозаменяемо для обозначения отдельно взятой абстракции. Обычно каждый объект описывается рядом атрибутов. Например, книга может иметь следующий набор атрибутов: автор, название, тема, жанр, издатель, цена, дата публикации, количество слов, глав, страниц, издание, ISBN и т. д.

Набор данных состоит из данных, относящихся к совокупности объектов, причем каждый объект описан в терминах набора атрибутов. В своей наиболее простой форме [10]набор данных организован в виде матрицы размером n × m , называемой аналитической записью , где n — количество объектов (строк), а m — количество атрибутов (столбцов). В науке о данных термины «набор данных» и «аналитическая запись» часто используются взаимозаменяемо, при этом аналитическая запись является конкретным представлением набора данных. Таблица 1 иллюстрирует аналитическую запись для набора данных нескольких книг. Каждый ряд в таблице описывает одну книгу. Термины «объект», «экземпляр», «пример», «сущность», «кейс» и «запись» используются в науке о данных для обозначения строки. Таким образом, набор данных содержит набор объектов, и каждый из объектов описывается набором атрибутов.

Построение аналитической записи необходимое условие работы с данными - фото 5

Построение аналитической записи — необходимое условие работы с данными. Фактически в большинстве проектов по обработке данных бо́льшая часть времени и усилий уходит на создание, очистку и обновление аналитической записи. Аналитическая запись часто создается путем объединения информации из множества различных источников: может потребоваться извлечение данных из нескольких баз, хранилищ или компьютерных файлов в разных форматах (например, в виде электронных таблиц и CSV-файлов) или скрапинг [11]в интернете или социальных сетях.

В таблице 1 перечислены четыре книги. Если не считать атрибут ID, который представляет собой простую метку строки и, следовательно, бесполезен для анализа, каждая книга описана с помощью шести атрибутов: название, автор, год, обложка, издание и цена. Мы могли бы включить их намного больше для каждой книги, но, как это обычно и бывает в подобных проектах, нам нужно ограничить набор данных. В нашем случае мы должны просто уместить атрибуты в размер страницы. Однако в большинстве проектов ограничения касаются того, какие атрибуты доступны, а также какие из них имеют отношение к проблеме, которую мы пытаемся решить в конкретной предметной области. Включение дополнительных атрибутов в набор данных никогда не обходится без затрат. Во-первых, вам потребуются дополнительные время и усилия для сбора и проверки качества данных в атрибутах для каждого объекта и их интеграции в аналитическую запись. Во-вторых, включение нерелевантных или избыточных атрибутов может отрицательно сказаться на производительности многих алгоритмов, используемых для анализа данных. Включение большого количества атрибутов в набор данных увеличивает вероятность того, что алгоритм найдет не относящиеся к делу или ложные закономерности, которые только кажутся статистически значимыми в рамках выборки объектов. С проблемой правильных атрибутов сталкиваются все проекты науки о данных, и иногда ее решение сводится к итеративному процессу проведения экспериментов методом проб и ошибок, где каждая итерация проверяет результаты, полученные с использованием различных подмножеств атрибутов.

Существуют разные типы атрибутов, и для каждого из них подходят разные виды анализа. Их понимание и распознавание является фундаментальным навыком для специалиста по данным. К стандартным типам относятся числовые (включая интервальные и относительные), номинальные и порядковые. Числовые атрибуты описывают измеримые величины, представленные целыми числами или действительными величинами. Числовые атрибуты могут быть измерены как по шкале интервалов, так и по шкале отношений. Интервальные атрибуты измеряются по шкале с фиксированными, но произвольными единицами измерений и произвольным началом отсчета. Примерами интервальных атрибутов могут быть измерения даты и времени. К ним применяют упорядочивание и вычитание. Умножение, деление и прочие операции в этом случае не подходят. Шкала отношений аналогична шкале интервалов с единственным отличием: ее нулевая точка — истинный нуль. Он указывает на то, что количество, которое могло бы быть измерено, отсутствует. Особенность шкалы отношений состоит в том, что мы можем описать любое значение как кратное другому значению. Температура — прекрасный пример для понимания разницы между шкалой интервалов и шкалой отношений {1} . По шкале Цельсия и по шкале Фаренгейта температура измеряется интервально, поскольку значение 0 на любой из этих шкал не указывает на отсутствие тепла. Таким образом, хотя мы и можем вычислить разницу между температурами на этих шкалах и сравнить различия, мы не можем сказать, что 20 °C — это в два раза теплее, чем 10 °C. В отличие от этого, измерение температуры в кельвинах ведется по шкале отношений, поскольку 0 K (абсолютный нуль) — это температура, при которой прекращается всякое тепловое движение. Другие распространенные примеры измерений по шкале отношений: количество денег, вес, рост и экзаменационные отметки (шкала 0–100). В таблице 1 атрибут года является примером атрибута шкалы интервалов, а атрибут цены — примером атрибута шкалы отношений.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Джон Келлехер читать все книги автора по порядку

Джон Келлехер - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Наука о данных. Базовый курс отзывы


Отзывы читателей о книге Наука о данных. Базовый курс, автор: Джон Келлехер. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x