Джон Форман - Много цифр. Анализ больших данных при помощи Excel
- Название:Много цифр. Анализ больших данных при помощи Excel
- Автор:
- Жанр:
- Издательство:Array Литагент «Альпина»
- Год:2016
- Город:Москва
- ISBN:978-5-9614-4076-8
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Джон Форман - Много цифр. Анализ больших данных при помощи Excel краткое содержание
Много цифр. Анализ больших данных при помощи Excel - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Если вы пользуетесь исключительно Windows и Microsoft Office, работаете в государственной структуре и вам запрещено скачивать и устанавливать приложения из каких попало открытых источников и даже если MATLAB или ваш графический калькулятор наводили на вас леденящий ужас во времена студенчества, вам нечего бояться.
Нужно ли вам знать, как пишется код, чтобы перевести большую часть этих техник в автоматизированную, производственную форму? Непременно! Вы или кто-то из ваших коллег должен знать технологии хранения данных и уметь управляться с кодом.
Нужно ли вам знать, как пишется код, чтобы понимать, различать и моделировать эти техники? Совершенно ни к чему!
Именно поэтому я объясняю каждую методику с помощью электронных таблиц.
Ну, ладно, если по-хорошему, то я должен признаться, что все вышесказанное мною не совсем правда. Последняя глава этой книги – о переходе на язык программирования R, ориентированный на анализ данных. Она предназначена для тех из вас, кто захочет использовать эту книгу как трамплин к пониманию новых глубин аналитики.
Но электронные таблицы так устарели!
Электронные таблицы – не самый привлекательный инструмент из существующих.
Электронные таблицы стоят немного особняком. Они позволяют вам видеть данные и взаимодействовать с ними (или, по крайней мере, кликать на них). Они создают определенную свободу для маневра. Во время изучения анализа данных вам понадобится инструмент – привычный, понятный каждому, позволяющий двигаться быстро и легко в процессе. Это и есть электронные таблицы.
Давайте, наконец, скажем себе: «Я человек и обладаю чувством собственного достоинства. Я не должен делать вручную работу программного фреймворка, чтобы научиться анализировать данные».
А еще электронные таблицы отлично подходят для прототипирования! Конечно, вы не запустите с их помощью производственную модель ИИ [2] Искусственный интеллект. – Прим. пер.
для вашего интернет-магазина из программы Excel, но зато сможете понять характер заказов, спрогнозировать, какие продукты в будущем вызовут интерес потребителей, и разработать прототип модели для определения целевой аудитории.
Используйте Excel или LibreOffice
Все примеры, с которыми вам придется работать, отображаются в таблицах Excel.
На сайте этой книги ( www.wiley.com/go/datasmart
) размещены электронные таблицы с открытым доступом для каждой главы, так что вы сможете следить за ходом повествования. Если вы по натуре склонны к риску, можете стереть оттуда все данные, кроме исходных, и сделать всю работу самостоятельно.
Эта книга совместима с Excel версий 2007, 2010, 2011 для MacOS и 2013. В первой главе достаточно подробно рассматриваются различия между версиями.
У большинства из вас есть доступ к Excel и вы наверняка уже применяете его в вашей работе для отчетности или хранения информации. Но если по какой-то причине этой программы у вас нет, вы можете ее либо купить, либо воспользоваться бесплатным аналогом от LibreOffice ( www.libreoffice.org
).
Кто-то из вас наверняка спросит, можно ли при решении задач, которые нам предстоят, использовать Google Drive – облачный сервис, доступный с любого устройства, как почтовый ящик. Что и говорить, вариант заманчивый… К сожалению, он не будет работать.
Google Drive отлично справляется с небольшими таблицами, но того, чем собираетесь заниматься вы, он просто не выдержит. Процесс добавления строк и колонок уже раздражает, реализация поиска решения просто ужасна, а у графиков даже нет линий тренда!
Хотелось бы мне, чтобы было иначе, но увы…
LibreOffice – открытый бесплатный ресурс, имеющий практически всю функциональность Excel. Я даже думаю, что его собственный поиск решений предпочтительнее, чем у Excel. Так что если вы не раздумали читать эту книгу – вперед!
Условные обозначения
Чтобы помочь вам извлечь из текста максимальную пользу, я ввел в эту книгу несколько условных обозначений.
Вставки типа той, в которой вы только что прочитали про Google Drive, раскрывают «побочные» темы, упомянутые в тексте.
Эти разделы содержат важную информацию, напрямую связанную с текстом, которую я рекомендую все время держать в уме.
Здесь вы найдете советы, подсказки, приемы и все в этом духе, что пришлось к слову в текущем обсуждении.
Частенько я буду вставлять в текст небольшие кусочки кода Excel вроде этого:
=CONCATENATE(“THIS IS A FORMULA”, “IN EXCEL!”)/
=СЦЕПИТЬ(“ЭТО ФОРМУЛА”, “В EXCEL!”)
Мы выделяем курсивом новые термины и важные слова при первом упоминании. Названия файлов, веб-страниц и формул в тексте выглядят так:
http://www.john-foreman.com.
Итак, начнем
В первой главе я намерен заполнить некоторые пробелы в ваших познаниях об Excel, после чего вы сможете погрузиться непосредственно в практику. К концу книги вы не только будете иметь представление о нижеперечисленных техниках, но и приобретете опыт их применения:
• оптимизация с использованием линейного и интегрального программирования;
• работа с временными рядами данных, определение трендов и изменений сезонного характера, а также прогнозирование методом экспоненциального сглаживания;
• моделирование методом Монте-Карло в оптимизации и прогнозировании сценариев для количественного выражения и адресации рисков;
• искусственный интеллект с использованием общей линейной модели, функции логистических звеньев, ансамблевых методов и наивного байесовского классификатора;
• измерение расстояния между клиентами с помощью близости косинусов угла, создание К-ближайших граф, расчет модулярности и кластеризация клиентов;
• определение выбросов в одном измерении по методу Тьюки или в нескольких измерениях с помощью локальных факторов выброса;
• применение пакетов R для использования результатов работы других программистов при выполнении этих задач.
Если хотя бы что-то из вышесказанного звучит для вас воодушевляюще – продолжайте чтение! Если пугающе – то тоже продолжайте! Я торжественно обещаю разжевывать все как можно тщательнее.
Итак, без лишней суеты приступим!
1. Все, что вы жаждали знать об электронных таблицах, но боялись спросить
В этой книге я исхожу из того, что вы уже имеете некоторое представление об электронных таблицах и пользуетесь ими. Если же вы никогда не сталкивались с расчетами по формулам, вам поначалу придется нелегко. Перед нашим совместным погружением в Excel с головой я бы рекомендовал проштудировать «Excel для чайников» или другую подобную литературу вводного уровня.
Читать дальшеИнтервал:
Закладка: