Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных
- Название:Бизнес-аналитика. Извлечение, преобразование и загрузка данных
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:2020
- ISBN:нет данных
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных краткое содержание
В простейшем случае это загрузка данных в виде одной, объединённой, консолидированной таблицы. В данной работе мы познакомимся с основными этапами ETL на примере загрузки данных в электронные таблицы.
Бизнес-аналитика. Извлечение, преобразование и загрузка данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Щёлкаем правой кнопкой мыши по нашему запросу в списке
Queries & Connections.
В контекстном меню выбираем обновление:
Refresh.
Рядом с названием запроса нам сообщают, сколько теперь строк загружено. Их явно стало больше, чем в начале работы.
Посмотрим, все ли компании у нас собраны в таблице.
Нажимаем кнопку фильтрации в заголовке столбца TICKER.
В разделе выбора значений видим пять знакомых названий. Лишних значений нет.
Пока всё идёт нормально.
Рис. 5.26. Список загруженных котировок
Задание. Обновите запрос и убедитесь, что теперь у вас загружены котировки акций пяти компаний.
Осталось одно «НО»: формат даты.
Мы настроили формат даты.
Но после обновления запроса и добавления данных формат вернулся к первоначальному (рис. 5.27).
С этим нужно что-то сделать…
Попробуйте на досуге с этой проблемой справиться.
Рис. 5.27. Формат даты
Задание. Рассмотрите объединённую таблицу и обратите внимание на формат даты.
5.4. Дубликаты данных
При загрузке данных из нескольких источников можно получить несколько совершенно одинаковых, идентичных строк. Это называется ДУБЛИКАТЫ данных. Если это две разные записи, относящиеся к одному и тому же факту, нужно оставить только одну запись, а дублирующие строки удалить.
Средства ETL позволяют проводить ОЧИСТКУ данных. Это включает, в том числе, и удаление дубликатов. Смоделируем ситуацию с загрузкой дубликатов и посмотрим, как с этим справиться.
Загрузим ещё один файл для первой ценной бумаги с данными за последний календарный месяц. Поместим файл в каталог для загрузки (рис. 5.28).
Теперь в нашем каталоге два файла с котировками акций Газпрома:
— GAZP_190306_200306.csv;
— GAZP_200301_200306.csv.
В первом файле содержатся данные за период с 6 марта 2019 года по 6 марта 2020 года.
Во втором файле — с 1 марта 2020 года по 6 марта 2020 года.
Второй файл дублирует пять строк первого файла.
Рис. 5.28. Файл с дубликатами данных
Задание. Загрузите дополнительный файл с дубликатами данных за один календарный месяц и убедитесь, что указанные данные в файлах совпадают.
Итак, мы подготовили файлы с дубликатами данных.
Обновим наш запрос и посмотрим на результаты.
Обратим внимание на количество строк рядом с названием запроса.
Рассмотрим объединённую таблицу (рис. 5.29).
Данные в строках 250—254 в точности совпадают с данными в строках 255— 259. Это и есть наши дубликаты, от которых нам нужно буде избавиться.
Рис. 5.29. Дубликаты данных в объединённой таблице
Задание. Обновите запрос и проверьте, появились ли дубликаты в объединённой таблице.
Возвращаемся в редактор запросов.
Выбираем в верхнем меню удаление дубликатов:
Home — Reduce Rows — Remove Rows — Remove Duplicates.
Но не будем спешить нажимать ОКи Next.
Для начала почитаем всплывающую подсказку (рис. 5.30).
Нам сообщают, что будут удалены строки, где есть дубликаты в выбранных столбцах.
Рис. 5.30. Удаление дубликатов
Задание. Изучите всплывающую подсказку по поводу удаления дубликатов.
Что будет, если выбрать первый столбец с тикерами и удалить дубликаты? Попробуем.
У нас осталось всего пять строк (рис. 5.31).
Мы потеряли практически все данные, зато теперь тикеры не повторяются.
Нам такое не подходит. Откатываем назад последнее преобразование:
Removed Duplicates.
Нажимаем красный крестик рядом с названием шага преобразования с списке применённых шагов.
Рис. 5.31. Удаление дубликатов тикеров
Задание. Удалите дубликаты по первому столбцу и изучите результаты преобразования. Откатите последнее изменение.
Мы лишний раз убедились в справедливости следующего шуточного высказывания:
Компьютер делает не то, что вы хотели, а то, что вы сказали.
Так что же мы ХОТЕЛИ сделать? Нам нужно было удалить строки с одинаковыми записями. То есть строки с одинаковыми датами для одной и той же бумаги. Стало быть, нас интересуют дубликаты тикера и даты одновременно.
Выделяем два столбца, нажав клавишу Ctrl.
Ещё раз вызываем удаление дубликатов.
Нажимаем кнопку Закрыть и загрузить:
Close & Load.
Задание. Удалите дубликаты.
Проверяем, что получилось.
Чтобы приятнее было листать таблицу, закрепим верхнюю строку — здесь находятся заголовки столбцов:
View — Window — Freeze Panes — Freeze Top Row.
Теперь можно листать таблицу, а заголовок останется в верхней строке листа (рис. 5.32).
Рис. 5.32. Закрепляем заголовки
Задание. Закрепите заголовки таблицы.
Находим строки, которые раньше были продублированы.
Теперь дубликатов нет (рис. 5.33).
Очистка данных прошла успешно.
Рис. 5.33. Дубликаты отсутствуют
Задание. Изучите объединённую таблицу и убедитесь, что дубликатов больше нет.
5.5. Просмотр запроса
Поработаем ещё немного с запросами.
Сохраним и закроем файл. Откроем его снова.
Чтобы перейти к запросам, нажмём кнопку просмотра списка запросов:
Data — Queries & Connections — Queries & Connections.
Прочитаем всплывающую подсказку (рис. 5.34).
Здесь нам поясняют разницу между двумя инструментами ETL.
Рис. 5.34. Запросы и соединения
Задание. Прочитайте всплывающую подсказку и выясните, что такое Queries, что такое Connectionsи для чего их используют.
Запросы к источникам данных записаны в виде программы. Это последовательность шагов извлечения, преобразования и загрузки данных.
Познакомимся с текстом запроса.
Вызываем редактор запросов.
Затем вызываем в верхнем меню продвинутую версию редактора запросов (рис. 5.35).
Home — Query — Advanced Editor.
Чтобы закрыть окно «улучшенного» редактора, можно нажать кнопку
Done.
Рис. 5.35. Текст запроса к данным
Задание. Запустите просмотр текста запроса и ознакомьтесь с программой. Сравните строки программы запроса и строки в списке применённых шагов запроса Applied Steps. Обратите внимание на параметры каждой команды.
6. Анализ данных
Мы загрузили данные, теперь их можно анализировать.
У нас есть котировки и объёмы торгов по каждой бумаге. Мы будем проводить анализ распределения и взаимосвязей по этим данным с помощью сводных таблиц.
Это задание основано на знаниях и навыках, полученных в работах [6—10].
6.1. Анализ распределения объёмов
Напомним, что ОБЪЁМ торгов — это количество акций, которые сменили хозяев за рассматриваемый период. То есть измеряется объём в количестве акций, в «штуках». Стало быть, по определению это целое число. В нашем примере мы используем так называемые ДНЕВНЫЕ данные. То есть данные за один торговый день, это около девяти часов.
Объём торгов — это случайная величина. Каждый день объём принимает разное значение. но случайность не означает полную непредсказуемость.
Читать дальшеИнтервал:
Закладка: