Тимур Машнин - Технология хранения и обработки больших данных Hadoop
- Название:Технология хранения и обработки больших данных Hadoop
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:2021
- ISBN:978-5-532-96881-3
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Тимур Машнин - Технология хранения и обработки больших данных Hadoop краткое содержание
Технология хранения и обработки больших данных Hadoop - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Поэтому с помощью этой команду скопируем их в HDFS, где Hive может легко получить к ним доступ.
Вы могли заметить, что мы импортировали данные в каталоги Hive.
И Hive и Impala читают данные из файла в HDFS, и они даже обмениваются метаданными о таблицах.
Отличие состоит в том, что Hive выполняет запросы, компилируя их в задания MapReduce.
В то время как Impala является механизмом системы параллельных запросов, которые считывают данные непосредственно из самой файловой системы, в более быстром и интерактивном режиме.
Таким образом, мы загрузили данные с помощью Sqoop в HTFS, преобразовав их в формат Avro, и импортировали файлы схем, для их использования при запросе этих данных.
И теперь, давайте перейдем к следующему упражнению.

Здесь мы будем использовать Hue, приложение Impala, для создания метаданных для наших таблиц.
Мы создадим эти метаданные, а затем сделаем запрос к нашей таблице используя Hue.
Hue предоставляет веб-интерфейс, который доступен на порту 8888.

Чтобы войти в Hue, введем сloudera в качестве имени пользователя и пароля.

Далее в меню Query Editors откроем Impala.

Скопируем и вставим код, который создаст таблицы.

И обновим данные в левой колонке, чтобы увидеть созданные таблицы.

Теперь, когда данные доступны для запросов, мы можем ответить на вопрос, какие продукты покупают клиенты.
Для этого скопируем и вставим SQL запросы для расчета общей выручки по продукту и отображения 10 лучших продуктов, приносящих доход.

После выполнения, в Hue, мы увидим результаты запроса.

Таким образом мы узнали, как создавать и запрашивать таблицы с помощью Impala.
Теперь, давайте перейдем к следующему уроку.
И далее мы должны посмотреть, какие преимущества дает стек Cloudera по сравнению с традиционными системами.

Здесь мы попытаемся соотнести структурированные данные с неструктурированными данными и сможем ответить на вопрос – являются ли наиболее просматриваемые товары наиболее продаваемыми.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «ЛитРес».
Прочитайте эту книгу целиком, на ЛитРес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.
Интервал:
Закладка: