Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных. Учебное пособие
- Название:Бизнес-аналитика. Извлечение, преобразование и загрузка данных. Учебное пособие
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:неизвестен
- ISBN:9785449840868
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных. Учебное пособие краткое содержание
Бизнес-аналитика. Извлечение, преобразование и загрузка данных. Учебное пособие - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
3. Загрузка таблицы дивидендов
Загрузим ещё одну табличку из интернета. На этот раз нас будет интересовать таблица размеров дивидендов на сайте компании «Газпром».
Открываем в браузере страницу сайта компании ПАО «Газпром»:
https://www.gazprom.ru/
Переходим в следующий раздел:
Акционерам и инвесторам – Дивиденды – История дивидендных выплат(рис. 3.1).
![Рис 31 Таблица дивидендов Задание Откройте страницу дивидендов на сайте ПАО - фото 18](/books/1272534/image17_5e676251378e983c94b8c18a_jpg.webp)
Рис. 3.1. Таблица дивидендов
Задание. Откройте страницу дивидендов на сайте ПАО «Газпром».
Скопируем адрес страницы в буфер обмена.
Вызываем функцию загрузки данных из интернета:
Data – Get & Transform – From Web.
Указываем анонимный доступ к сайту без ввода пароля (рис. 3.2).
Нажимаем кнопку:
Connect.
![Рис 32 Анонимный доступ Задание Выберите анонимный доступ к сайту - фото 19](/books/1272534/image18_5e67624f378e983c94b8c187_jpg.webp)
Рис. 3.2. Анонимный доступ
Задание. Выберите анонимный доступ к сайту.
Появляется диалоговое окно
Navigator.
Выбираем таблицу дивидендов (рис. 3.3).
Нажимаем кнопку
Load.
![Рис 33 Выбор таблицы для загрузки Задание Загрузите таблицу дивидендов - фото 20](/books/1272534/image19_5e67624d378e983c94b8c184_jpg.webp)
Рис. 3.3. Выбор таблицы для загрузки
Задание. Загрузите таблицу дивидендов Газпрома.
Рассмотрим загруженную таблицу (рис. 3.4). Нам предстоит кое-что исправить. Причём почти всё.
На этот раз название таблицы и соответствующего запроса получилось не очень информативное:
Table_0.
Заголовки столбцов после загрузки были продублированы.
Числовые значения распознаны как текстовые строки. Содержимое ячеек прижато влево – это текстовый формат по умолчанию.
Английская версия Excel ожидает точку как десятичный разделитель целой и дробной частей. А русская страница сайта использует для этой цели запятую.
Мало того, пробел разделяет группы по три разряда – тысячи, миллионы, миллиарды.
![Рис 34 Загруженная таблица дивидендов Задание Изучите результаты загрузки и - фото 21](/books/1272534/image20_5e67624b378e983c94b8c181_jpg.webp)
Рис. 3.4. Загруженная таблица дивидендов
Задание. Изучите результаты загрузки и перечислите в отчёте все необходимые преобразования.
Переходим к преобразованиям.
Открываем редактор запросов (рис. 3.4):
Data – Get & Transform – Get Data – Launch Power Query Editor.
![Рис 34 Запуск редактора запросов Задание Запустите редактор запросов - фото 22](/books/1272534/image21_5e676248378e983c94b8c17e_jpg.webp)
Рис. 3.4. Запуск редактора запросов
Задание. Запустите редактор запросов.
Появляется окно редактора запросов (рис. 3.5).
Видим название запроса:
Table_0.
В заголовках всех колонок указано, что тип данных – текст:
ABC
В верхнем меню тоже говорится, что здесь данные текстового типа:
Home – Transform – Data Type – Text.
![Рис 35 Редактор запросов Задание Обратите внимание на название запроса и - фото 23](/books/1272534/image22_5e676246378e983c94b8c17b_jpg.webp)
Рис. 3.5. Редактор запросов
Задание. Обратите внимание на название запроса и тип данных.
Начнём исправления загруженной таблицы.
Зададим новое название запроса:
Дивиденды Газпрома.
Изменим тип данных для первого столбца:
Home – Transform – Data Type – Decimal Number.
![Рис 36 Изменение типа данных Задание Измените тип данных Появляется - фото 24](/books/1272534/image23_5e676243378e983c94b8c178_jpg.webp)
Рис. 3.6. Изменение типа данных
Задание. Измените тип данных.
Появляется диалоговое окно
Change Column Type.
Нам предлагают определиться, как именно делать преобразование. Если добавить новый этап работы с данными, изменения можно будет откатить при желании.
Нам не потребуется возвращаться к текстовому типу номера года. Поэтому выбираем первый вариант:
Replace current.
![Рис 37 Параметры преобразования типа Задание Выберите замену - фото 25](/books/1272534/image24_5e676241378e983c94b8c175_jpg.webp)
Рис. 3.7. Параметры преобразования типа
Задание. Выберите замену преобразования.
Рассмотрим результаты преобразования типа данных (рис. 3.8).
Тип данных для первого столбца теперь установлен ка числовой:
Data Type – Decimal Number.
В заголовке столбца тоже указано, что здесь находятся числа:
1.2.
Сами числа в первой колонке теперь прижаты вправо. Это формат числа по умолчанию.
В разделе Применённые шагиуказано преобразование типа:
Query Settings – Applied Steps – Changed Type.
![Рис 38 Результаты преобразования типа Задание Рассмотрите результаты - фото 26](/books/1272534/image25_5e67623f378e983c94b8c172_jpg.webp)
Рис. 3.8. Результаты преобразования типа
Задание. Рассмотрите результаты преобразования типа данных в первом столбце.
Первая строка, которая дублирует заголовок, содержит текст. Поэтому преобразование завершилось ошибкой, о чём нам и сообщают:
Error.
Щёлкнем по этой ячейке и получим более подробное пояснение (рис. 3.9).
В разделе Применённые шаги появляется новая строка:
Год.
Щёлкаем по красному крестику и возвращаемся к предыдущему шагу.
![Рис 39 Сообщение об ошибке Задание Изучите сообщение об ошибке формата - фото 27](/books/1272534/image26_5e67623e378e983c94b8c16f_jpg.webp)
Рис. 3.9. Сообщение об ошибке
Задание. Изучите сообщение об ошибке формата данных.
Удалим первую строку таблицы, в которой появилась ошибка преобразования типа.
Выбираем в верхнем меню
Home – Reduce Rows – Remove Rows – Remove Errors.
Всплывающая подсказка намекает, что программа удалит все строки, в которых есть ошибки. У нас одна такая строка.
![Рис 310 Удаление строк с ошибками После удаления строк с ошибками получаем - фото 28](/books/1272534/image27_5e67623b378e983c94b8c16c_jpg.webp)
Рис. 3.10. Удаление строк с ошибками
После удаления строк с ошибками получаем более красивую таблицу (рис. 3.11).
Кроме в разделе Применённые шагидобавилась строка
Removed Errors.
Обратим внимание на количество строк в таблице до и после удаления ошибок. Для этого мы можем откатить последний шаг, нажав красный крестик в разделе Применённые шаги. Потом снова вызываем удаление строк с ошибками.
![Рис 311 Таблица после удаления ошибок Задание Удалите строки с ошибками и - фото 29](/books/1272534/image28_5e676239378e983c94b8c169_jpg.webp)
Рис. 3.11. Таблица после удаления ошибок
Задание. Удалите строки с ошибками и обратите внимание на количество строк.
Переходим ко второму столбцу – величине дивидендов.
Зададим числовой тип данных.
Содержимое действительно стало числовым (рис. 3.12).
Читать дальшеИнтервал:
Закладка: