Алексей Благирев - Big data простым языком [litres]
- Название:Big data простым языком [litres]
- Автор:
- Жанр:
- Издательство:Литагент АСТ
- Год:2019
- Город:Москва
- ISBN:978-5-17-111829-7
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Алексей Благирев - Big data простым языком [litres] краткое содержание
Но насколько глубока кроличья нора? Каждому предстоит разобраться в этом самому. Эта книга поможет донести основные принципы проектирования и создания таких интерфейсов управления бизнесом, обществом и окружающим нас миром посредством Больших данных. Читайте, наслаждайтесь и помните: сожжение книг противозаконно.
Big data простым языком [litres] - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
В этот момент в моей голове не происходит сбоя, потому что я понимаю, что такое метаданные, и все в фильме выглядит крайне логичным. Но что, если я понятия не имею об этом? Тогда мне подсовывают красивый фантастический фильм по аналогии с « Особым Мнением» [100] .
.
Глаза – это самый высокоскоростной интерфейс, поэтому они находятся на голове. Если бы они были, скажем, на заднице, то сигнал от них доходил был долго, и весь мир воспринимался бы нами с большой задержкой. Герои фильма «Анон» все делают глазами: звонят друг другу, оплачивают покупки, передают файлы того, что видят, идентифицируют себя. Все с помощью глаз.
Samsung представил в 2018 году, умную контактную линзу, которая может совершать эти операции с помощью глаз [101] .
. Линза проецирует изображение на глаз, позволяя воспринимать контент новым образом. Но также линза содержит и камеру, позволяя записывать видеопоток того, на что смотрит человек.
На протяжении всего фильма бравые парни пытаются отследить цепочку серверов и выследить метаданные.
И вот тут мое сознание дало сбой, потому что я не смог сформировать в голове единую платформу, на которой все живут. Возникла куча вопросов: как так вообще получилось, что всех на нее перевели.
По ряду причин я не сторонник централизованных платформ. Во-первых, делать их очень долго и дорого. Во-вторых, размер риска взлома гораздо выше, так как все находится в одном месте. В-третьих, чтобы управлять таким объемом данных, нужно правильно структурировать их, а это определенные компетенции.
В моем опыте был один проект построения крупного хранилища данных. Мы пытались совместить все ключевые функциональные подразделения организации вместе и получили ситуацию, сложность которой не могли представить.
Представьте себе на минуту, что человек, который работает с большими объемами данных и проектирует сервисы, должен уметь разбираться в том, с чем именно он работает, – риски, продажи, бэк-офис, финансы и отчетность и так далее. По факту, таких людей единицы, поэтому централизованные системы обречены. В какой-то момент с ними никто не сможет разобраться.
В этом заключается интересный парадокс: чем больше люди хотят контролировать и чем больше они тратят ресурсов на централизацию, тем меньше в реальности они контролируют, и тем сложнее становится сама система. Выживут только небольшие управляемые компоненты.
Лазейки, оставляемые архитекторами таких платформ, похожи на небольшие тропинки, по которым идешь будто в потемках. Если мир полон красок, то эти лазейки переносят в пространство, где красок нет, но есть описание, что какие-то материалы применяются. Будто хоббит надел кольцо, и мир преобразился, лишился красок и стал похож, скорее, на чертежи.
Уж не знаю, какие еще аналогии привести, но смысл, думаю, понятен. Речь идет про те самые метаданные. Подложку мира. Описание того, как работает основная сцена.
Изучать эту подложку – это как смотреть на чертежи здания. Либо ты видишь, что архитектура безупречна, либо, что у архитектора руки растут из другого места.
А если таких зданий много, и вы находитесь в большом городе? Вдруг вы хотите открыть свой бизнес по продаже окон. Вам бы прикинуть, сколько окон вы можете продать и кому. Сможете просто взять и посчитать?
Возьмем что-то посложнее, например локомотив. Он состоит из секций, секции состоят из узлов, узлы представляют собой объединение деталей. Вот локомотив приехал на ремонт. Как понять, сколько конкретных болтов в нем нужно заменить в рамках регулярного ремонта? Нужно, чтобы техническая документация имела определенное описание, чтобы это описание можно было использовать и сделать запрос к информационной системе, где оно хранится. Бинго, правильно, используем метаданные.
Метаданные не только нужны для поиска и работы с большими массивами данных. Их еще очень часто используют различные люди и организации для получения доступа к тому, к чему они его легально получать не должны.
Большинство провайдеров сервисов (телекоммуникационные компании, мессенджеры и другие) собирают метаданные о звонках и сообщениях. В случае с iMessage, такие сообщения будут содержать помимо времени звонка еще и данные о номере телефона, IP-адресе и номере адресата, который получил сообщение. Все это хранится в едином логе – истории изменения метаданных. Информация используется и предоставляется третьим лица, если на то есть решение правоохранительных органов.
В фильме «Анон» следователь получал доступ, используя метаданные к архивным файлам людей, и показывал их родственникам или пострадавшим жизнь глазами обвиняемых. И все это через метаданные, которые хранят последовательности с обращениями серверов о том, какие данные там хранятся.
Метаданные чаще всего используются для ведения каталога. Книжки, вещи, запчасти к велосипеду. В общем, если запускать большой бизнес, который будет торговать или что-то предлагать в Интернете, то работа с метаданными – это из ряда must have.
Откуда она такая появилась
В 1965 году одним из первых появился стандарт IPTC-описания фотографий [102] .
в Ассоциации Новостных Газет Америки. Стандарт включал в файл обязательную информацию – автора, заголовок, дату создания. Когда файл обрабатывали приложения, появившиеся чуть позднее (к примеру, Photoshop), они уже адаптировали этот стандарт, и все изменения сохраняли в файлики с форматом *JPEG, *PNG или *TIFF.
Позднее, в начале 90-х, все это было уже структурировано более изящно и преобразовано в XML, чтобы можно было работать со сложным поиском. Adobe показал миру платформу XMP, которая встраивала мета-информацию в файлы самостоятельно, без участия пользователя в формате, который мог быть воспринят как человеком, так и машиной.
Метаданные стали ключом к поиску. К сложному поиску в больших массивах данных.
Самое важное здесь, конечно же то, что формат данных по-прежнему понятен и человеку, и машине.
Стандарт XMP впоследствии стал открытым стандартом ISO (16684-1). В совокупности такая стандартизация дала возможность:
• Управлять контекстом не только во время путешествия вокруг баз данных, но и обмениваться их в индустрии в целом.
• Организовать полноценный поиск среди разных форматов файлов и различного контекста.
• Управлять и определять взаимосвязями объектов, их жизненного цикла (создание контента и его удаление).
Почему я начал с фото, а не с книг, где метаданные появились в первую очередь? Например, с той же Десятичной Классификации Дьюи [103] .
,которая впоследствии стала основным иерархическим справочником материала для библиотек на добрые полтора века.
Интервал:
Закладка: