Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных

Тут можно читать онлайн Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных - бесплатно ознакомительный отрывок. Жанр: Прочая научная литература, год 2020. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных краткое содержание

Бизнес-аналитика. Извлечение, преобразование и загрузка данных - описание и краткое содержание, автор Валентин Арьков, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Системы бизнес-аналитики работают с различными источниками данных с помощью функций ETL (Extract-Transform-Load). Название ETL можно перевести как «извлечение, преобразование и загрузка данных». Имеется в виду загрузка в хранилище данных для дальнейшей обработки в системе бизнес-аналитики.
В простейшем случае это загрузка данных в виде одной, объединённой, консолидированной таблицы. В данной работе мы познакомимся с основными этапами ETL на примере загрузки данных в электронные таблицы.

Бизнес-аналитика. Извлечение, преобразование и загрузка данных - читать онлайн бесплатно ознакомительный отрывок

Бизнес-аналитика. Извлечение, преобразование и загрузка данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Валентин Арьков
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Английское название: non-breaking space.

Сокращённое обозначение: NBSP — Non-Breaking Space.

Рис. 3.20. Описание неразрывного пробела

Задание. Прочитайте в Википедии статью «Неразрывный пробел» и выясните, в каких случаях его рекомендуют применять, а также как его вставлять в редакторе Microsoft Word.

Мы разобрались, что это было. Оно только выглядит как пробел. На самом деле, это другой символ. Поэтому поиск обычного пробела ничего не дал.

Снова вызываем функцию поиска и замены:

Replace Values.

На этот раз сделаем всё правильно (рис. 3.30).

Раскрываем дополнительные возможности

Advanced Options.

Ставим отметку для выбора специальных символов:

Replace using special characters.

Неразрывный пробел относится как раз к специальным символам.

Щёлкаем по строке поиска:

Value To Find.

Раскрываем выпадающий список:

Insert special character.

Выбираем в этом списке тот самый неразрывный пробел:

Non-breaking Space.

А вот в строке замены не пишем ничего.

Значит пробел заменят на ничто. То есть мы все эти символы удаляем.

Нажимаем ОК.

Рис. 3.30. Удаление неразрывного пробела

Задание. Удалите неразрывные пробелы в третьем столбце.

Рассмотрим полученные результаты (рис. 3.31).

Числа стали похожи на числа.

Но в данных за 2015 год остался один пробел.

Изучаем исходный текст и обнаруживаем один настоящий пробел. Похоже при составлении данной страницы каждый год в таблицу дивидендов добавляли новую строчку. И данные за 2015 год ввели по-другому. Может быть, использовали другой редактор HTML. А, может, просто была плохая погода. Или, наоборот, хорошая. Нас интересует получить числа. А по пути приходится выяснять причины ошибок и справляться с ними.

Рис. 3.31. Третий столбец после удаления NBSP

Задание. Изучите результаты замены для 2015 года.

Задаём поиск и удаление обычного пробела.

Пробел исчезает. Остаются красивые числа.

Изменяем тип данных на числовой.

Теперь в третьем столбце появились числа.

А в пустых ячейках появилось слово NULL. Это не число «ноль». Это «ничего», то есть «данные отсутствуют». Скорее всего, этот столбец добавили в 2013 году. А, может быть, до 2013 года действительно не объявляли размер дивидендов.

Рис. 3.32. Третий столбец — числовые значения

Задание. Удалите пробелы.

Нажимаем кнопку Закрыть редактор и загрузить данные:

Close & Load.

Мы здесь не просто редактировали табличку в Excel.

Мы на самом деле редактировали запрос на извлечение, преобразование и загрузку данных. Когда данные на исходной странице сайта изменятся, наша табличка обновится. И нам не нужно будет ещё раз её редактировать вручную.

Рассмотрим, что же мы загрузили (рис. 3.33).

Рис. 3.33. Результаты загрузки

Задание. Изучите результаты загрузки.

Числа в третьем столбце выводятся в формате с плавающей точкой. То есть 3,0 умножить на десять в тринадцатой степени. Это приятно для программиста, но тяжело воспринимается на глаз.

Зададим формат вывода без дробной части и с разделителями тысяч-миллионов.

Выделяем диапазон числовых значений в третьей колонке.

Вызываем контекстное меню и выбираем форматирование ячеек (рис. 3.34):

Format Cells.

Number — Category — Number — Decimal places — 0.

Дополнительно выбираем пункт с разделителями:

Use 1000 separator (,).

Здесь только один вариант разделителя — запятая.

Результат форматирования нам сразу же показывают в разделе предварительного просмотра

Sample.

Само число можно видеть в строке формул. Здесь число даётся без украшательства.

Теперь у нас числа читаются немного легче. Можно посчитать тройки и выяснить, что речь идёт о миллионах или о чём-то ещё.

Рис. 3.34. Формат числа с разделителями

Задание. Настройте формат вывода длинных чисел на экран.

Обратим внимание, что колонка «Год» получила вещественный числовой тип. Это подчёркивается обозначением 1.2. То есть одна целая и две десятых.

У нас есть два числовых типа:

Decimal Number — вещественное число;

Whole Number — целое число.

Задание. Измените тип колонки «Год» на целое и обратите внимание на указание типа в заголовке столбца.

Кстати, пришло время освежить в памяти названия больших чисел. Что идёт после тысячи? А после миллиона? Само собой, нас интересуют степени числа ТЫСЯЧА. Все остальные, промежуточные числа составлены из этих названий.

Задание. Составьте таблицу чисел и их названий.

4. Задание по загрузке таблицы из интернет

Мы рассмотрели некоторые приёмы, которые помогут извлекать данные из страничек в интернете. Пришло время для самостоятельной работы.

4.1. Загрузка сведений о дивидендах

Возьмём для дальнейшей работы список компаний из российского индекса голубых фишек. Действующий состав индекса можно найти на сайте МосБиржи. Выбираем компанию под номером, который соответствует варианту задания. Если выбранная компания не выплачивает дивиденды, берём следующую компанию из списка.

Номер варианта задания — последняя цифра номера зачётки. Если последняя цифра — ноль, выбираем число 10.

Задание. Вставьте в отчёт состав индекса голубых фишек. Запишите в отчёт свой вариант и параметры задания.

Акционерные компании выплачивают владельцам акций дивиденды. Это часть прибыли компании. Соответственно, на своём сайте такие компании обязаны сообщать о размере дивидендов.

Задание. Извлеките данные о дивидендах из страницы для инвесторов/акционеров на сайте акционерной компании в соответствии с вариантом задания.

В интернете можно найти сайты, которые ведут аналитику дивидендных выплат. Один из примеров таких ресурсов — сайт управляющей компании «ДОХОДЪ»:

https://www.dohod.ru/

Задание. Найдите страницу компании в соответствии с вариантом задания и загрузите в Excel таблицу дивидендов.

При загрузке из интернета Excel выводит диалоговое окно выбора таблицы (рис. 3.35):

Navigator.

В предыдущих опытах мы нажимали кнопку загрузки:

Load.

У нас есть и другой вариант — это кнопка преобразования:

Transform Data.

Попробуем нажать эту кнопку.

Рис. 3.35. Преобразование вместо загрузки

Задание. Запустите преобразование данных при загрузке таблицы с сайта.

4.2. Загрузка котировок Yahoo! Finance

Следующее задание — извлечение и загрузка данных из сайта Финансы Yahoo:

https://finance.yahoo.com/

На сайте можно найти котировки компании, если знать её биржевое обозначение — тикер.

Рис. 3.36. Строка поиска службы Финансы

Чтобы узнать тикер, рассмотрим список компаний из индекса голубых фишек (рис. 3.37). Выбираем последнюю строку списка. Нас будет интересовать биржевой тикер НЛМК. Это четыре английские буквы:

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Валентин Арьков читать все книги автора по порядку

Валентин Арьков - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Бизнес-аналитика. Извлечение, преобразование и загрузка данных отзывы


Отзывы читателей о книге Бизнес-аналитика. Извлечение, преобразование и загрузка данных, автор: Валентин Арьков. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x