Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных
- Название:Бизнес-аналитика. Извлечение, преобразование и загрузка данных
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:2020
- ISBN:нет данных
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных краткое содержание
В простейшем случае это загрузка данных в виде одной, объединённой, консолидированной таблицы. В данной работе мы познакомимся с основными этапами ETL на примере загрузки данных в электронные таблицы.
Бизнес-аналитика. Извлечение, преобразование и загрузка данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
NLMK
Рис. 3.37. Список голубых фишек
Задание. Найдите биржевой тикер для компании по своему варианту задания.
Задаём поиск по тикеру NLMK.
В результатах поиска находим данные Московской биржи (рис. 3.38).
У нас есть два указания на котировки данной ценной бумаги именно на Московской бирже:
NLMK.ME
Equity — MCX.
Рис. 3.38. Поиск по тикеру
Задание. Найдите страницу котировок компании на МосБирже
Результаты поиска представлены на рис. 3.39.
Переходим по ссылке для скачивания исторических данных:
Historical Data.
Рис. 3.39. Страница сведений о компании
Задание. Перейдите на страницу исторических данных.
На странице исторических данных можно увидеть таблицу котировок (рис. 3.40).
В строке адреса в браузере видим намёк на историю:
history.
Рис. 3.40. Исторические данные
Выбираем даты начала и конца исторического периода (рис. 3.41).
После настройки дат нажимаем кнопку
Done.
Убеждаемся, что нужные даты выставлены в строке
Time Period.
Нажимаем кнопку
Apply.
Рис. 3.41. Выбор диапазона дат
Задание. Настройте даты начала и конца периода так, чтобы получить данные за последние два года.
На странице сайта есть возможность скачать файл:
Download Data.
Эта возможность подходит тем, кто скачает один файл раз в год. Для регулярной загрузки и анализа данных требуется автоматическая процедура. Но такой запрос придётся настроить.
Для формирования запроса копируем строку адреса.
Возвращаемся в Excel.
Вызываем загрузку из интернета (рис. 3.42).
В строке адреса указан не только адрес страницы. В параметрах имеются ссылки на даты начала и конца периода.
Здесь имеется указание на загрузку дневных данных:
frequency=1d.
Рис. 3.42. Загрузка из интернета
Задание. Загрузите исторические данные с помощью запроса.
Дальнейшие действия мы уже обсуждали.
Выбираем нужную таблицу для извлечения.
Настраиваем преобразование данных.
Загружаем таблицу в Excel.
Задание. Извлеките и, преобразуйте и загрузите исторические данные в Excel.
5. Извлечение данных из файлов
При загрузке данных из файлов можно использовать сразу несколько источников данных. Можно извлечь данные из нескольких файлов в выбранном каталоге и объединить их в одну таблицу.
В этом разделе мы будем работать с котировками акций из списка отраслевого индекса. Когда наш запрос будет сформирован, мы сможем добавлять файлы в папку. После этого файлы будут загружаться автоматически — со всеми преобразованиями.
5.1. Варианты заданий
В каждом варианте указан отраслевой индекс Московской Биржи.
Номер варианта — последняя цифра номера зачётки. Для нуля берём вариант 10.
Варианты заданий приведены в таблице 5.1.
Задание. Опишите в отчёте свой вариант задания.
Отраслевые индексы включают в свой состав наиболее ликвидные акции компаний соответствующей отрасли экономики.
Чтобы ознакомиться с составом индекса, откроем в браузере сайт МосБиржи:
https://www.moex.com/
Переходим в следующий раздел:
Индексы — Все индексы.
Мы будем рассматривать в качестве примера индекс голубых фишек.
Далее переходим в раздел выбранного индекса и выбираем следующую ссылку:
База расчёта.
Получаем список тикеров акций, входящих в состав индекса (рис. 5.1).
Рис. 5.1. Состав индекса
Задание. Внесите в отчёт состав своего индекса.
5.2. Выбор акций
Выбираем в составе индекса пару компаний с самой большой КАПИТАЛИЗАЦИЕЙ — рыночной стоимостью всех акций. В составе индекса голубых фишек это следующие бумаги:
— SBER;
— GAZP.
Задаём поиск на сайте биржи по тикеру и выясняем, какие это акции:
— Публичное акционерное общество «Газпром», акция обыкновенная (GAZP);
— Публичное акционерное общество «Сбербанк России», акция обыкновенная (SBER).
Записываем в отчёте названия выбранных бумаг.
Задание. Выберите в составе индекса компании с самой высокой капитализацией и внесите в отчёт названия ценных бумаг.
Создадим новую папку. Здесь мы разместим несколько файлов для автоматической загрузки в Excel. Папку лучше разместить в корневом каталоге рабочего диска. Название папки должно быть коротким и информативным.
Нам совершенно не подходят такие названия:
— Папка;
— Папка 2;
— Новая папка;
— Моя папка.
Эти слова не сообщают читателю ничего полезного.
Рис. 5.2. Папка для котировок
Задание. Создайте папку для котировок.
Мы будем экспортировать котировки на сайте компании «Финам»:
https://www.finam.ru/
Переходим в следующий раздел сайта:
Теханализ — Экспорт котировок.
Выбираем торговую площадку:
МосБиржа акции
Указываем название актива:
ГАЗПРОМ ао.
Выбираем интервал:
один год.
Периодичность:
1 день.
Нажимаем кнопку
Получить файл (рис. 5.3).
Сохраняем данные в файл типа * . CSV.
Рис. 5.3. Настройки экспорта котировок
Задание. Экспортируйте котировки двух выбранных компаний.
Просматриваем содержимое полученных файлов с помощью Блокнота(рис. 5.4):
Open with — Notepad.
Видим, что разделитель полей — точка с запятой.
Разделитель целой и дробной частей — точка.
В нашем файле есть заголовки.
Рис. 5.4. Содержимое файла котировок
Задание. Изучите содержимое полученных файлов.
5.3. Загрузка файлов из папки
Для загрузки файлов из каталога выбираем в верхнем меню следующий пункт:
Data — Get & Transform Data — From File — From Folder.
Всплывающая подсказка поясняет, что мы можем сделать с помощью этого инструмента (рис. 5.5).
Рис. 5.5. Загрузка файлов из каталога
В диалоговом окне Folder (Папка) выбираем каталог для загрузки файлов (рис. 5.6).
Нажимаем кнопку OK.
Рис. 5.6. Выбор каталога для загрузки
Задание. Вызовите загрузку файлов из вашего каталога.
Появляется диалоговое окно для настройки варианта загрузки (рис. 5.7).
Нам предлагают объединить данные из всех файлов в указанном каталоге:
Combine & Transform Data.
Попробуем это проделать.
Рис. 5.7. Выбор файлов для загрузки
Задание. Выберите вариант объединения и преобразования данных.
Появляется диалоговое окно объединения данных из файлов:
Combine Files.
Рассматриваем пример распознанного содержимого файлов (рис. 5.8).
Здесь также указана кодировка исходных файлов и разделитель полей.
Нажимаем кнопку ОК.
Рис. 5.8. Настройка объединения файлов
Следующее окно — редактор запросов (рис. 5.9):
Читать дальшеИнтервал:
Закладка: