Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных
- Название:Бизнес-аналитика. Извлечение, преобразование и загрузка данных
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:2020
- ISBN:нет данных
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных краткое содержание
В простейшем случае это загрузка данных в виде одной, объединённой, консолидированной таблицы. В данной работе мы познакомимся с основными этапами ETL на примере загрузки данных в электронные таблицы.
Бизнес-аналитика. Извлечение, преобразование и загрузка данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Home — Transform — Data Type — Text.
Рис. 3.5. Редактор запросов
Задание. Обратите внимание на название запроса и тип данных.
Начнём исправления загруженной таблицы.
Зададим новое название запроса:
Дивиденды Газпрома.
Изменим тип данных для первого столбца:
Home — Transform — Data Type — Decimal Number.
Рис. 3.6. Изменение типа данных
Задание. Измените тип данных.
Появляется диалоговое окно
Change Column Type.
Нам предлагают определиться, как именно делать преобразование. Если добавить новый этап работы с данными, изменения можно будет откатить при желании.
Нам не потребуется возвращаться к текстовому типу номера года. Поэтому выбираем первый вариант:
Replace current.
Рис. 3.7. Параметры преобразования типа
Задание. Выберите замену преобразования.
Рассмотрим результаты преобразования типа данных (рис. 3.8).
Тип данных для первого столбца теперь установлен ка числовой:
Data Type — Decimal Number.
В заголовке столбца тоже указано, что здесь находятся числа:
1.2.
Сами числа в первой колонке теперь прижаты вправо. Это формат числа по умолчанию.
В разделе Применённые шагиуказано преобразование типа:
Query Settings — Applied Steps — Changed Type.
Рис. 3.8. Результаты преобразования типа
Задание. Рассмотрите результаты преобразования типа данных в первом столбце.
Первая строка, которая дублирует заголовок, содержит текст. Поэтому преобразование завершилось ошибкой, о чём нам и сообщают:
Error.
Щёлкнем по этой ячейке и получим более подробное пояснение (рис. 3.9).
В разделе Применённые шаги появляется новая строка:
Год.
Щёлкаем по красному крестику и возвращаемся к предыдущему шагу.
Рис. 3.9. Сообщение об ошибке
Задание. Изучите сообщение об ошибке формата данных.
Удалим первую строку таблицы, в которой появилась ошибка преобразования типа.
Выбираем в верхнем меню
Home — Reduce Rows — Remove Rows — Remove Errors.
Всплывающая подсказка намекает, что программа удалит все строки, в которых есть ошибки. У нас одна такая строка.
Рис. 3.10. Удаление строк с ошибками
После удаления строк с ошибками получаем более красивую таблицу (рис. 3.11).
Кроме в разделе Применённые шагидобавилась строка
Removed Errors.
Обратим внимание на количество строк в таблице до и после удаления ошибок. Для этого мы можем откатить последний шаг, нажав красный крестик в разделе Применённые шаги. Потом снова вызываем удаление строк с ошибками.
Рис. 3.11. Таблица после удаления ошибок
Задание. Удалите строки с ошибками и обратите внимание на количество строк.
Переходим ко второму столбцу — величине дивидендов.
Зададим числовой тип данных.
Содержимое действительно стало числовым (рис. 3.12).
Сравним с оригиналом — числа стали гораздо больше. Программа просто проигнорировала запятые. Это искажает данные. Откатим изменения.
Рис. 3.12. Результаты преобразования второго столбца
Задание. Задайте целый тип данных для второго столбца и обратите внимание на изменения.
Попробуем заменить запятые на точки.
Находим инструмент поиска и замены в меню (рис. 3.13):
Home — Transform — Replace Values
Рис. 3.13. Функция замены значений
Задание. Прочитайте всплывающую подсказку для кнопки Замена значений.
Нажимаем кнопку Замена значений:
Replace Values.
Заменим запятые на точки (рис. 3.14).
Рис. 3.14. Поиск и замена
Задание. Замените запятые на точки.
Рассмотрим результаты поиска и замены (рис. 3.15).
Действительно, теперь у нас во втором столбце точки вместо запятых.
При этом тип данных по-прежнему текстовый.
Рис. 3.15. Результаты поиска и замены
Задание. Замените запятые на точки во втором столбце.
Изменим тип данных во втором столбце с текстового на числовой:
Decimal Number.
Обращаем внимание на изменение форматирования и сообщение о типе в заголовке столбца.
В одной ячейке за 1998 год был прочерк. Возможно, это означает, что дивиденды не выплачивались. То есть равны нулю.
Теперь в этой ячейке выводится сообщение об ошибке (рис. 3.16).
Рис. 3.16. Преобразование типа второго столбца
Задание. Измените тип данных на числовой и обратите внимание на сообщение об ошибке.
Отменяем последний шаг преобразований.
Заменяем прочерк, то есть символ тире, на ноль.
Щёлкаем по ячейке с неправильным содержимым и копируем её в буфер обмена. Затем вызываем функцию поиска и замены. В строке поиска будет загадочное тире. В строке замены — ничего.
Снова изменяем тип данных на числовой.
Теперь всё прошло успешно (рис. 3.17).
В ячейке за 1998 год стоит ноль.
Ошибок нет.
Все выполненные шаги по преобразованию данных выводятся в списке
APPLIED STEPS
Рис. 3.17. Второй столбец преобразован
Задание. Завершите преобразование второго столбца и убедитесь в отсутствии ошибок.
Здесь мы столкнулись с длинным тире. Это не просто чёрточка. Неплохо было бы с этими чёрточками познакомиться. А ещё есть символ минуса. Это тоже какая-то чёрточка. Или это одно и то же?
Задание. Прочитайте в Википедии статьи «Тире», «Дефис» и «Минус». Выясните английские названия этих символов, какие символы для каких целей используют, а также как вводить разные виды тире в текстовом редакторе Microsoft Word.
Преобразование данных в третьем столбце потребует нескольких действий:
— удалить пробелы, которые мешают преобразованию в число;
— возможно, удалить запятую и два нуля в конце строк;
— преобразовать тип данных в числовой и настроить формат вывода на экран.
Мало того, в данных за 2015 год отсутствует один пробел.
Выделяем третий столбец и начинаем проводить перечисленные преобразования.
Замена пробела на «ничто» не удалась.
Попробуем выяснить причину.
Возвращаемся в браузер и вызываем просмотр исходного текста страницы сайта (рис. 3.18). Нажимаем правую кнопку мыши и в контекстном меню выбираем
View Page Source.
Мы работаем в браузере Firefox. В других браузерах функция просмотра исходного текста может скрываться в другом месте.
Рис. 3.18. Переход к исходному тексту страницы
Задание. Откройте исходный текст страницы.
Рассматриваем полученный текст (рис. 3.19).
Между тройками цифр стоит загадочная комбинацию букв.
А в неудачной строке за 2015 год есть и пробел, и эти загадочные буквы. В конце числа пробел действительно отсутствует.
Рис. 3.19. Фрагмент исходного текста
Задание. Ознакомьтесь с представлением данных за 2015 и 2016 годы в исходном тексте.
Поищем в интернете ответ на вопрос:
что такое
Выясняется, что это так называемый НЕРАЗРЫВНЫЙ ПРОБЕЛ (рис. 3.20).
Читать дальшеИнтервал:
Закладка: