Алексей Благирев - Big data простым языком [litres]
- Название:Big data простым языком [litres]
- Автор:
- Жанр:
- Издательство:Литагент АСТ
- Год:2019
- Город:Москва
- ISBN:978-5-17-111829-7
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Алексей Благирев - Big data простым языком [litres] краткое содержание
Но насколько глубока кроличья нора? Каждому предстоит разобраться в этом самому. Эта книга поможет донести основные принципы проектирования и создания таких интерфейсов управления бизнесом, обществом и окружающим нас миром посредством Больших данных. Читайте, наслаждайтесь и помните: сожжение книг противозаконно.
Big data простым языком [litres] - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Продолжая эксперимент профессора Стэнфорда, Джеффри Хиир и Майкл Босток, используя анализ и результаты МакГил и Кливленд, выявили, что круговые диаграммы – наиболее сложный объект по интерпретации, и их восприятие пользователями уже несет в себе ряд ошибок. Отчасти именно поэтому ни одно существенное научное исследование сегодня не использует круговые диаграммы в описании результатов работы, так как их восприятие сильно разнится между разными категориями пользователей. Это относится и к восприятию геометрических объектов (сравнение углов и зон), а значит использование круговых диаграмм и вовсе искажает аналитический контекст, подаваемый слушателю.
Тем самым, научное сообщество сформулировало фреймворк по восприятию аналитических данных, который популярен и по сей день. Разделяя по сложности интерпретации аналитических материалов, мы имеем следующее:
• Сравнение на общем уровне
• Сравнение объектов не на общем уровне
• Сравнение длины, угла или направления
• Сравнение зон
• Сравнение объемов или размеров
• Сравнение цвета (насыщенность и так далее)

Чем выше сложность распознавания, тем выше вероятность ошибки или искажения, с которым пользователи будут воспринимать контекст [74] .
. [75] Выступление Джефри The Future of Data Visualisation 2015 – Strata + Hadoop World Conference (San Jose).

Ранжирование визуальных кодировок по точности восприятия
Большинство решений представляют собой конечное решение, которое не учитывает в себе эти особенности восприятия. Впоследствии Джефри Хиир и Максл Босток разработали ряд библиотек и фреймворков для визуализации данных, которые учитывают эти зависимости по сложности восприятия.
• Protovis [76] .
– библиотека в JavaScript, которая позволяет управлять внешним видом графика через скрипт с определенным синтаксисом и использует Canvas [77] .
чтобы бы можно было интегрировать графики в веб-страницы, делать их красивыми, многоуровневыми и интегрировать видео или иной активный контент прямо в аналитику.
• Flare [78] .
– фреймворк на python, который позволяет быстро строить модели и взаимосвязи.
• Vega [79] .
– формат данных, который позволяет сохранять и управлять чартами, графиками и аналитикой, в том числе с возможностью воспроизводить их в браузере, поддерживающем HTML5.
• D3 Data-Driven Documents– библиотека для JavaScript, используемая веб-сайтами, которая позволяет анализировать и работать с данными используя браузер.
Визуальная часть, как отмечалось ранее, одна из трех основных частей, участвующих при демонстрации конечных результатов и формировании рассказа. Успешность восприятия или декодирования аналитической информации тесно связана с тем, как эта информация представлена.
В 1982 году Эдвард Тафт, американский статистик, профессор статистики, политологии и компьютерных наук Йельского университета, сформулировал и опубликовал ряд важнейших принципов в графическом дизайне в книге «Visual Display of Quantitative Information»:
• Использовать историю для пояснения описания данных.
• Тщательно выбирать формат представления.
• Интегрировать описание текста с изображениями.
• Отражать и сравнивать объекты соответственно их размеру.
• Избегать использование декоративного контента.
В процессе своих исследований позднее Эдвард Тафт также придумал новую форму транслирования аналитического контента – микрочарты (искрографики) или спарклайны. Это небольшие микрочарты размером в несколько слов, отражающие какую-то определенную динамику или отвечающие на какой-то конкретный вопрос. Функциональность микрочартов была впоследствии применена практически в большинстве аналитических средств, и одним из самых массовых применений стал Microsoft Excel.
Таким образом, ошибки в выборе визуализации крайне серьезно влияют на конечное восприятие доклада или отчета, когда он представляется широкой публике.
Impact investment – у каждого рассказа должна быть цель
Финальный блок успешного рассказа с использованием данных – это фокус на влиянии, которое он способен оказать. Любая инвестиция времени, посвященная исследованию и анализу данных, должна приводить к формированию конкретного результата.
В 2012 году мэр Нью-Йорка Майкл Блумберг подписал специальный закон «Open Data Law», обязывающий городские власти раскрывать свои данные для пользования, открыв тем самым целую новую главу создания совместных сервисов с использованием данных. Закон установил порядок раскрытия и перечень информации, которую обязаны были предоставлять власти с максимальным сроком раскрытия не позднее 31 декабря 2018. Раскрытие данных происходило неравномерно, власти раскрывали свои данные постепенно, поэтому, чтобы получить интересующие данные, необходимо было заполнять специальную форму запроса (FOIL FORM) для того, чтобы департамент той или иной службы предоставил запрашиваемые данные. Существенная часть данных раскрывалась в PDF-файлах, затрудняя их обработку и анализ. Например, данные по ДТП публиковались только в PDF, составляя сотни и тысячи документов. Так продолжалось, пока один из разработчиков по имени Джон Краусс [80] Репозиторий с программой позволяющей обрабатывать PDF-файлы, которые публиковали власти города Нью-Йорк.
[81] .
не придумал собственную программу для конвертации файлов PDF в CSV, чтобы их можно было уже загрузить в аналитические средства. Сообщества неоднократно в своих выступлениях делали акцент на трансформации используемого формата предоставления информации, пока администрация де Блазио [82] Бил де Блазио, мэр города Нью-Йорка с 2014 года.
не пересмотрела интерфейсы предоставления данных.
Бен Веллингтон основал свой проект IQuantNY и стал использовать эти данные, чтобы повлиять на политику властей Нью-Йорка. Каждое выступление или пост в своем блоге он посвящал конкретным проблемам, призывая власти обратить внимание. В какой-то момент он добился определенного результата в этом направлении. Вот несколько наиболее ярких исследований и публикаций, которые он сделал.
• Ошибка городского бюджета на 791 миллион долларов – в 2016 году Администрация наконец опубликовала городской бюджет на 2017 год на портале Открытых данных. При детальном анализе Бен выявил ошибку в 791 миллион долларов по статье финансирования Департамента полиции Нью-Йорка в части защиты иностранных представительств. Официальный ответ городской администрации указал, что, действительно, это была ошибка в аллокации средств. Корректное значение аллокации средств на 2017 год составляло не более 25 миллионов долларов.
Читать дальшеИнтервал:
Закладка: