Билл Фрэнкс - Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики
- Название:Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики
- Автор:
- Жанр:
- Издательство:Манн Иванов Фербер
- Год:2014
- Город:Москва
- ISBN:978-5-00057-146-0
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Билл Фрэнкс - Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики краткое содержание
Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Логи, собираемые в журнальных файлах, – прекрасный пример полуструктурированных данных. Они выглядят довольно уродливо, однако каждый фрагмент информации служит определенной цели. Служит ли любой из фрагментов журнала именно вашей цели – это совсем другой вопрос. На рис. 1.1 изображен пример необработанных данных интернет-журнала.

Рис. 1.1.Пример необработанных данных интернет-журнала
Многие источники больших данных на самом деле являются полуструктурированными или мультиструктурированными, а не совсем неструктурированными. Такие данные подразумевают логическую схему, которая позволяет извлечь информацию для анализа. С ними просто сложнее работать, чем с традиционными источниками структурированных данных. Использование полуструктурированных данных требует дополнительного времени и усилий для того, чтобы определить наилучший способ их обработки.
Хотя на первый взгляд может показаться иначе, данные интернет-журнала подчинены определенной логике. В них присутствуют поля, разделители и значения, как и в структурированном источнике. При этом они не согласованы друг с другом и не представляют собой набор. Текст журнала, сгенерированный только что щелчком кнопкой мыши на сайте, может быть длиннее или короче, чем текст, сгенерированный щелчком кнопкой мыши на другой странице минуту назад. И все-таки необходимо понять, что полуструктурированные данные не лишены логики. Вполне возможно найти взаимосвязь между различными их фрагментами – просто это потребует больше усилий, чем в случае со структурированными данными.
Профессиональных аналитиков больше тревожат неструктурированные данные, чем полуструктурированные. Возможно, им придется побороться с полуструктурированными данными, чтобы подчинить их своей воле, но они это сделают. Они смогут привести полуструктурированные данные в хорошо структурированную форму и включить в свои аналитические процессы. По-настоящему неструктурированные данные приручить гораздо сложнее, и это будет оставаться головной болью для организаций по мере того, как они будут учиться справляться с полуструктурированными данными.
Исследование больших данных
Начать работу с большими данными несложно. Просто соберите их и поручите команде аналитиков вашей организации разобраться в том, чем они могут быть вам полезны. Для начала не понадобится обеспечивать постоянный поток данных. Все, что вам нужно, – это позволить аналитической команде применить свои инструменты и подходы к некоторому набору данных, чтобы они могли начать процесс исследования. Это именно то, чем занимаются аналитики и ученые в области науки о данных.
Существует старое правило: 70–80 % времени уходит на сбор и подготовку данных и только 20–30 % – на их анализ. В начале работы с большими данными можно ожидать более низких значений. Вероятно, в самом начале аналитики будут тратить 95 %, если не все 100 %, времени только на то, чтобы разобраться в источнике данных, прежде чем они смогут решить, как его следует анализировать.
Важно понимать, что это нормально. Выяснение того, что собой представляет источник данных, – важная часть процесса анализа. Это, может быть, и скучновато, однако итеративная загрузка данных [4] Итеративная загрузка данных (от англ. iteration – повторение) – выполнение загрузки данных параллельно с непрерывным анализом полученных результатов и корректировкой предыдущих этапов работы. Прим. ред .
, изучение того, как они выглядят, а также настройка процесса загрузки с целью более точного извлечения нужных данных критически важны. Без выполнения этих действий невозможно перейти к самому процессу анализа.
Чтобы решить, как использовать источник больших данных на благо своего бизнеса, придется потратить немало усилий. Аналитики и их работодатели должны подумать, как обеспечить небольшие быстрые достижения. Это продемонстрирует организации прогресс и обеспечит поддержку дальнейших действий. Такие достижения могут генерировать солидную отдачу от инвестиций.
Процесс выявления ценных фрагментов больших данных и определение наилучшего способа их извлечения имеют решающее значение. Будьте готовы к тому, что на это понадобится время, и не расстраивайтесь, если его потребуется больше, чем вы ожидали. По мере изучения новых источников больших данных специалисты и их работодатели должны искать способы достижения небольших и быстрых побед. Если вы обнаружите хоть что-то ценное, это поддержит заинтересованность людей и продемонстрирует прогресс. Например, кросс-функциональная команда не может приступить к делу, а год спустя утверждает, что по-прежнему не может ничего сделать с большими данными. Необходимо придумать хоть что-то, и сделать это нужно быстро.
Вот отличный пример. Европейский розничный магазин. Компания решила начать использовать подробные данные интернет-журналов. При создании сложных долгосрочных процессов сбора данных они сначала наладили несколько простых процессов для определения того, какие товары просматривает каждый посетитель. Информация о просмотренных страницах была использована в качестве основы для последующей кампании, в рамках которой каждому посетителю, покинувшему сайт без совершения покупки, высылалось электронное письмо. Это простое действие принесло организации значительную прибыль.
Далее компания наладила долгосрочный процесс сбора и загрузки веб-данных. Важно то, что они даже не начинали работу со всем потоком данных. Представьте, какую прибыль они получат в будущем, когда приступят к более глубокому анализу этих данных! Сотрудники организации, с самого начала увидев реальные достижения, сохраняют высокую мотивацию, поскольку они уже оценили мощь даже самого простого использования данных. А главное, дальнейшие усилия уже оплачены!
Б о льшая часть больших данных не имеет значения
Дело в том, что б о льшая часть больших данных вообще не имеет значения. Неожиданно, не так ли? Однако так быть не должно. Мы уже упоминали, что поток больших данных подразумевает большой объем, скорость передачи, разнообразие и сложность. Б о льшая часть содержимого потока данных не будет отвечать поставленным целям, а некоторая его часть вообще не будет иметь какого-либо значения. Укрощение больших данных похоже не на закачку воды в бассейн, а скорее на питье воды из шланга: вы отхлебываете только то, что вам нужно, а остальному позволяете течь мимо.
Читать дальшеИнтервал:
Закладка: