Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных

Тут можно читать онлайн Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных - бесплатно ознакомительный отрывок. Жанр: Прочая научная литература, год 2020. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных краткое содержание

Бизнес-аналитика. Извлечение, преобразование и загрузка данных - описание и краткое содержание, автор Валентин Арьков, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Системы бизнес-аналитики работают с различными источниками данных с помощью функций ETL (Extract-Transform-Load). Название ETL можно перевести как «извлечение, преобразование и загрузка данных». Имеется в виду загрузка в хранилище данных для дальнейшей обработки в системе бизнес-аналитики.
В простейшем случае это загрузка данных в виде одной, объединённой, консолидированной таблицы. В данной работе мы познакомимся с основными этапами ETL на примере загрузки данных в электронные таблицы.

Бизнес-аналитика. Извлечение, преобразование и загрузка данных - читать онлайн бесплатно ознакомительный отрывок

Бизнес-аналитика. Извлечение, преобразование и загрузка данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Валентин Арьков
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Home — Transform — Data Type — Text.

Рис. 3.5. Редактор запросов

Задание. Обратите внимание на название запроса и тип данных.

Начнём исправления загруженной таблицы.

Зададим новое название запроса:

Дивиденды Газпрома.

Изменим тип данных для первого столбца:

Home — Transform — Data Type — Decimal Number.

Рис. 3.6. Изменение типа данных

Задание. Измените тип данных.

Появляется диалоговое окно

Change Column Type.

Нам предлагают определиться, как именно делать преобразование. Если добавить новый этап работы с данными, изменения можно будет откатить при желании.

Нам не потребуется возвращаться к текстовому типу номера года. Поэтому выбираем первый вариант:

Replace current.

Рис. 3.7. Параметры преобразования типа

Задание. Выберите замену преобразования.

Рассмотрим результаты преобразования типа данных (рис. 3.8).

Тип данных для первого столбца теперь установлен ка числовой:

Data Type — Decimal Number.

В заголовке столбца тоже указано, что здесь находятся числа:

1.2.

Сами числа в первой колонке теперь прижаты вправо. Это формат числа по умолчанию.

В разделе Применённые шагиуказано преобразование типа:

Query Settings — Applied Steps — Changed Type.

Рис. 3.8. Результаты преобразования типа

Задание. Рассмотрите результаты преобразования типа данных в первом столбце.

Первая строка, которая дублирует заголовок, содержит текст. Поэтому преобразование завершилось ошибкой, о чём нам и сообщают:

Error.

Щёлкнем по этой ячейке и получим более подробное пояснение (рис. 3.9).

В разделе Применённые шаги появляется новая строка:

Год.

Щёлкаем по красному крестику и возвращаемся к предыдущему шагу.

Рис. 3.9. Сообщение об ошибке

Задание. Изучите сообщение об ошибке формата данных.

Удалим первую строку таблицы, в которой появилась ошибка преобразования типа.

Выбираем в верхнем меню

Home — Reduce Rows — Remove Rows — Remove Errors.

Всплывающая подсказка намекает, что программа удалит все строки, в которых есть ошибки. У нас одна такая строка.

Рис. 3.10. Удаление строк с ошибками

После удаления строк с ошибками получаем более красивую таблицу (рис. 3.11).

Кроме в разделе Применённые шагидобавилась строка

Removed Errors.

Обратим внимание на количество строк в таблице до и после удаления ошибок. Для этого мы можем откатить последний шаг, нажав красный крестик в разделе Применённые шаги. Потом снова вызываем удаление строк с ошибками.

Рис. 3.11. Таблица после удаления ошибок

Задание. Удалите строки с ошибками и обратите внимание на количество строк.

Переходим ко второму столбцу — величине дивидендов.

Зададим числовой тип данных.

Содержимое действительно стало числовым (рис. 3.12).

Сравним с оригиналом — числа стали гораздо больше. Программа просто проигнорировала запятые. Это искажает данные. Откатим изменения.

Рис. 3.12. Результаты преобразования второго столбца

Задание. Задайте целый тип данных для второго столбца и обратите внимание на изменения.

Попробуем заменить запятые на точки.

Находим инструмент поиска и замены в меню (рис. 3.13):

Home — Transform — Replace Values

Рис. 3.13. Функция замены значений

Задание. Прочитайте всплывающую подсказку для кнопки Замена значений.

Нажимаем кнопку Замена значений:

Replace Values.

Заменим запятые на точки (рис. 3.14).

Рис. 3.14. Поиск и замена

Задание. Замените запятые на точки.

Рассмотрим результаты поиска и замены (рис. 3.15).

Действительно, теперь у нас во втором столбце точки вместо запятых.

При этом тип данных по-прежнему текстовый.

Рис. 3.15. Результаты поиска и замены

Задание. Замените запятые на точки во втором столбце.

Изменим тип данных во втором столбце с текстового на числовой:

Decimal Number.

Обращаем внимание на изменение форматирования и сообщение о типе в заголовке столбца.

В одной ячейке за 1998 год был прочерк. Возможно, это означает, что дивиденды не выплачивались. То есть равны нулю.

Теперь в этой ячейке выводится сообщение об ошибке (рис. 3.16).

Рис. 3.16. Преобразование типа второго столбца

Задание. Измените тип данных на числовой и обратите внимание на сообщение об ошибке.

Отменяем последний шаг преобразований.

Заменяем прочерк, то есть символ тире, на ноль.

Щёлкаем по ячейке с неправильным содержимым и копируем её в буфер обмена. Затем вызываем функцию поиска и замены. В строке поиска будет загадочное тире. В строке замены — ничего.

Снова изменяем тип данных на числовой.

Теперь всё прошло успешно (рис. 3.17).

В ячейке за 1998 год стоит ноль.

Ошибок нет.

Все выполненные шаги по преобразованию данных выводятся в списке

APPLIED STEPS

Рис. 3.17. Второй столбец преобразован

Задание. Завершите преобразование второго столбца и убедитесь в отсутствии ошибок.

Здесь мы столкнулись с длинным тире. Это не просто чёрточка. Неплохо было бы с этими чёрточками познакомиться. А ещё есть символ минуса. Это тоже какая-то чёрточка. Или это одно и то же?

Задание. Прочитайте в Википедии статьи «Тире», «Дефис» и «Минус». Выясните английские названия этих символов, какие символы для каких целей используют, а также как вводить разные виды тире в текстовом редакторе Microsoft Word.

Преобразование данных в третьем столбце потребует нескольких действий:

— удалить пробелы, которые мешают преобразованию в число;

— возможно, удалить запятую и два нуля в конце строк;

— преобразовать тип данных в числовой и настроить формат вывода на экран.

Мало того, в данных за 2015 год отсутствует один пробел.

Выделяем третий столбец и начинаем проводить перечисленные преобразования.

Замена пробела на «ничто» не удалась.

Попробуем выяснить причину.

Возвращаемся в браузер и вызываем просмотр исходного текста страницы сайта (рис. 3.18). Нажимаем правую кнопку мыши и в контекстном меню выбираем

View Page Source.

Мы работаем в браузере Firefox. В других браузерах функция просмотра исходного текста может скрываться в другом месте.

Рис. 3.18. Переход к исходному тексту страницы

Задание. Откройте исходный текст страницы.

Рассматриваем полученный текст (рис. 3.19).

Между тройками цифр стоит загадочная комбинацию букв.

А в неудачной строке за 2015 год есть и пробел, и эти загадочные буквы. В конце числа пробел действительно отсутствует.

Рис. 3.19. Фрагмент исходного текста

Задание. Ознакомьтесь с представлением данных за 2015 и 2016 годы в исходном тексте.

Поищем в интернете ответ на вопрос:

что такое

Выясняется, что это так называемый НЕРАЗРЫВНЫЙ ПРОБЕЛ (рис. 3.20).

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Валентин Арьков читать все книги автора по порядку

Валентин Арьков - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Бизнес-аналитика. Извлечение, преобразование и загрузка данных отзывы


Отзывы читателей о книге Бизнес-аналитика. Извлечение, преобразование и загрузка данных, автор: Валентин Арьков. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x