Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных
- Название:Бизнес-аналитика. Извлечение, преобразование и загрузка данных
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:2020
- ISBN:нет данных
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных краткое содержание
В простейшем случае это загрузка данных в виде одной, объединённой, консолидированной таблицы. В данной работе мы познакомимся с основными этапами ETL на примере загрузки данных в электронные таблицы.
Бизнес-аналитика. Извлечение, преобразование и загрузка данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Задание. Загрузите в Excel таблицу «Лицензирование» из статьи «Power BI» на сайте Википедии и ознакомьтесь с результатами.
Рассмотрим поподробнее название таблицы и сравним его с заголовком раздела в источнике данных (рис. 2.1).
На исходной странице были ссылки на инструменты для редактирования статьи. Напомним, что Википедию создают сами пользователи. Поэтому каждый может предложить свои исправления и дополнения. В результате название таблицы содержит все эти лишние для нас слова.
Кроме сведений о таблице можно увидеть запрос на загрузку данных:
Queries & Connections — Лицензирование…
Пока в этом разделе у нас есть один запрос (рис. 2.6). Название запроса тоже соответствует заголовку раздела в источнике данных (рис. 2.1).
Рис. 2.6. Запрос для загрузки
Задание. Сравните название запроса и заголовок раздела статьи.
Исправим название таблицы.
Вызываем инструмент Диспетчер имён:
Formulas — Defined Names — Name Manager(рис. 2.7).
Рис. 2.7. Запуск Диспетчера имён объектов
Задание. Запустите Диспетчер имён.
Появляется диалоговое окно Диспетчера имён:
Name Manager(рис. 2.8).
Рассмотрим сведения о нашем объекте.
В графе Name(Название) указано:
Лицензирование_править___править_код.
В графе Value(Значения) можно видеть содержимое ячеек таблицы по строкам.
В графе Refers To указан лист рабочей книги Excel и диапазон ячеек, в который была загружена наша таблица.
Рис. 2.8. Сведения о названии таблицы
Задание. Изучите сведения об объекте «Лицензирование…».
Нажимаем кнопку Edit.
В окне редактирования Edit Nameисправляем название и оставляем слово «Лицензирование». Добавляем комментарий (рис. 2.9).
Рис. 2.9. Редактирование названия объекта
Задание. Исправьте название таблицы.
Вернёмся к списку запросов (рис. 2.6). Для этого укажем на таблицу и выберем в верхнем меню
Data — Queries & Connections — Queries & Connections.
Видим, что название запроса не изменилось.
Подводим курсор к запросу и рассматриваем вплывающее окно с подробным описанием запроса (рис. 2.10).
В верхней части окна можно видеть название запроса.
Ниже видим саму таблицу.
Далее идёт список столбцов
Columns.
Здесь же указано количество столбцов:
(3).
Кроме того, нам сообщают время, когда было сделано последнее обновление данных из источника Last refreshed.
В нижней части окна указан источник данных
Data Sources.
Это ссылка на страницу в интернете.
Нам также сообщают, что мы использовали всего один источник данных
(1).
Рис. 2.10. Сведения о запросе
Задание. Изучите сведения о запросе.
Запустим редактор запросов.
Нажимаем на наш запрос правой кнопкой мыши и выбираем в контекстном меню
Edit(рис. 2.11).
Рис. 2.11. Вызов редактора запросов
Задание. Запустите редактирование своего запроса.
Появляется окно Power Query Editor(рис. 2.12).
Как видим, редактор запросов по-прежнему называется Power Query.
Исправим название запроса и оставим только слово «Лицензирование».
Закрываем окно редактора:
Home — Close — Close & Load.
Рис. 2.12. Редактирование названия запроса
Задание. Измените название запроса.
Обратим внимание на сведения о запросе (рис. 2.13).
Название запроса изменилось. Мы убрали лишние слова и знаки. В дальнейшей работе будет гораздо проще работать с простыми и понятными названиями.
Рис. 2.13. Запрос с новым названием
Задание. Убедитесь, что название запроса изменилось.
Мы загрузили данные из Википедии. И мы знаем, про какие лицензии идёт речь. Но через пару дней или недель всё забудется. А в нашем файле будет ещё несколько десятков разных запросов.
Так что лучше бы нам сразу дать информативное название.
Например, сказать, что это сведения о вариантах лицензий на программные средства из линейки Power BI и что мы взяли эти данные в статье на сайте Википедии. Объяснение получается длинное. Попробуем оставить буквально несколько слов — то, что уже нельзя сократить без потери информации.
Теперь начинает проясняться смысл высказывания «Краткость — сестра таланта». Надо по-настоящему понять материал, чтобы кратко что-то сообщить, но при этом передать смысл, идею. Интересно, кто-нибудь вспомнит автора этой фразы?
Задание. Сделайте название запроса коротким и информативным.
3. Загрузка таблицы дивидендов
Загрузим ещё одну табличку из интернета. На этот раз нас будет интересовать таблица размеров дивидендов на сайте компании «Газпром».
Открываем в браузере страницу сайта компании ПАО «Газпром»:
https://www.gazprom.ru/
Переходим в следующий раздел:
Акционерам и инвесторам — Дивиденды — История дивидендных выплат(рис. 3.1).
Рис. 3.1. Таблица дивидендов
Задание. Откройте страницу дивидендов на сайте ПАО «Газпром».
Скопируем адрес страницы в буфер обмена.
Вызываем функцию загрузки данных из интернета:
Data — Get & Transform — From Web.
Указываем анонимный доступ к сайту без ввода пароля (рис. 3.2).
Нажимаем кнопку:
Connect.
Рис. 3.2. Анонимный доступ
Задание. Выберите анонимный доступ к сайту.
Появляется диалоговое окно
Navigator.
Выбираем таблицу дивидендов (рис. 3.3).
Нажимаем кнопку
Load.
Рис. 3.3. Выбор таблицы для загрузки
Задание. Загрузите таблицу дивидендов Газпрома.
Рассмотрим загруженную таблицу (рис. 3.4). Нам предстоит кое-что исправить. Причём почти всё.
На этот раз название таблицы и соответствующего запроса получилось не очень информативное:
Table_0.
Заголовки столбцов после загрузки были продублированы.
Числовые значения распознаны как текстовые строки. Содержимое ячеек прижато влево — это текстовый формат по умолчанию.
Английская версия Excel ожидает точку как десятичный разделитель целой и дробной частей. А русская страница сайта использует для этой цели запятую.
Мало того, пробел разделяет группы по три разряда — тысячи, миллионы, миллиарды.
Рис. 3.4. Загруженная таблица дивидендов
Задание. Изучите результаты загрузки и перечислите в отчёте все необходимые преобразования.
Переходим к преобразованиям.
Открываем редактор запросов (рис. 3.4):
Data — Get & Transform — Get Data — Launch Power Query Editor.
Рис. 3.4. Запуск редактора запросов
Задание. Запустите редактор запросов.
Появляется окно редактора запросов (рис. 3.5).
Видим название запроса:
Table_0.
В заголовках всех колонок указано, что тип данных — текст:
ABC
В верхнем меню тоже говорится, что здесь данные текстового типа:
Читать дальшеИнтервал:
Закладка: