Алексей Благирев - Big data простым языком [litres]
- Название:Big data простым языком [litres]
- Автор:
- Жанр:
- Издательство:Литагент АСТ
- Год:2019
- Город:Москва
- ISBN:978-5-17-111829-7
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Алексей Благирев - Big data простым языком [litres] краткое содержание
Но насколько глубока кроличья нора? Каждому предстоит разобраться в этом самому. Эта книга поможет донести основные принципы проектирования и создания таких интерфейсов управления бизнесом, обществом и окружающим нас миром посредством Больших данных. Читайте, наслаждайтесь и помните: сожжение книг противозаконно.
Big data простым языком [litres] - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Для сравнения отмечу: нанять на работу 280 сотрудников за два месяца возможно, разве что для простой работы, например, контакт-центр или поддержки. Найти квалифицированных специалистов или, как было указано в исследовании, пациентов с конкретной болезнью – очень проблематично.
Судьбы людей вершились исключительно при использовании данных. Болланд никогда лично не встречался с Сато и впервые о нем услышал только в 2012 году, когда его коллега доктор Алисия Авенелли рассказала ему о странных данных в исследованиях Сато [109] .
, которые при проверке оказались слишком научными.
Первый контакт состоялся в Марте 2013 года, когда Болланд и Авенелли написали в журнал Американской Медицинской Ассоциации – наиболее уважаемый журнал из тех, которые публиковали статью и исследования Сато. Главный редактор журнала дал указание обратиться к Сато и его институту, чтобы получить пояснения по выявленным в данных фактам.
Через два года, в апреле 2015-го, никакого ответа не пришло, в связи с чем журнал опубликовал результаты расследования и претензию к полученным и ранее опубликованным результатам Сато. Репутация Сато была настолько высокой, что журналы не решались поначалу идти против него и предъявлять обвинения в искажении результатов.
К декабрю 2016 года только 10 из 33 опытов были опровергнуты, когда вышло очередное расследование в журнале «Нейрология».
Только пять процентов [110] .
из опубликованных исследований приходят из Японии, поэтому такой удар по научной среде привел к потере репутации для японских ученых. Остается загадкой, зачем Йошихиро Сато подделывал так много результатов своих работ и фальсифицировал данные.
На сегодняшний день он занимает шестую строчку по количеству отозванных результатов клинических исследований [111] .
.
На первом месте в этом списке находится японский ученый Йошитака Фуджи, который занимался клиническими исследованиями в области анестезии. Согласно отчету, опубликованному 8 марта 2012 года, во всех 169-ти клинических испытаниях данные были искажены и сфабрикованы (в общей сложности для 171-го исследования).
На втором месте находится Хоаким Болд с исследованиями в области грудной хирургии, который так же был уличен в подделке данных [112] .
.
На третьем месте – Дидерик Штапель со своими сфабрикованными исследованиями в области социальной психологии [113] .
. В целом масштаб таких проблем в науке поражает. Эти имена – лишь верхушка айсберга.
Спасти эту ситуацию может блокчейн. Одно из решений – платформа Frankl [114] .
, которая интегрирует всех ученых в единую открытую сеть. Туда можно загружать данные и делиться ими друг с другом для проверки чужих или проведения своих подобных исследований. Если не вдаваться в подробности, то Frankl пытается создать распределенную сеть, где можно будет контролировать качество данных, что фактически снизит размер потенциальных фальсификаций.
Регистрировать все метаданные на блокчейне – самый простой шаг, но очень мощный, чтобы контролировать полноту данных, используемых в исследованиях.
Итак, метаданные – это в первую очередь явление чисто человеческое, то есть, его нет в природе. Человек разработал его специально для себя, чтобы обрабатывать большие объемы информации и оптимизировать поиск необходимого контента. Метаданные уже спроектированы и во многом генерируются автоматическими устройствами.
С другой стороны, мы вовсе не коснулись проектирования баз данных. И это хорошо, потому что это очень занудная для обычного читателя тема. Если кратко, то при проектировании сложных экосистем метаданные используются для управления потоками загрузки и обработки данных. Они формируют управляющую логику того, как данные собираются и обрабатываются.
Есть интересная работа, надеюсь, не поддельная, по оптимизации работы с базой данных Википедии [115] .
. В работе предложен специальный инструмент по управлению и архивированию исторических данных: индексы, каталоги, описание – все, что помогает оптимизировать поиск по историческим данным.
В зависимости от используемого решения систем хранения и обработки данных, на рынке предлагаются различные решения по управлению метаданными, использующими специальные сервера [116] .
. По версии «волшебного квадранта» Гартнера, лидером таких решений является Informatica [117] .
. Хотя, конечно, я слышал, что за то, чтобы попадать регулярно в этот квадрант, нужно платить определенную сумму, поэтому там нет начинающих или малоизвестных компаний.
Все эти решения отличаются как функциональными возможностями, так и пользовательским интерфейсом. Пользователями таких решений являются инженеры в области данных, они здесь самый ценный ресурс, так как этой компетенции, к сожалению, не обучают в ВУЗах, а количество специалистов на рынке стремится к минимуму.
Раньше процесс найма проходил в основном самостоятельно, в недрах IT. Сегодня за это должен отвечать отдельный лидер в организации. Но вопрос о том, где взять специалистов, по-прежнему актуален, поэтому приходится выкручиваться. Я, например, был сторонником того, чтобы поощрять горизонтальное движение сотрудников как внутри организации, так и за ее пределами.
Мы собирали ребят из службы IT-поддержки, потому что им по факту приходилось ковыряться в базах данных различных IT-систем, анализируя те или иные метаданные. Приглашали на работу сотрудников других компаний, которые занимались выпуском и проверкой финансовой отчетности. Такие люди понимают ценность данных и анализируют, в каких системах лежат наиболее ценные данные. Каждый такой кейс мы рассматривали отдельно.
Обучение новым навыкам мы строили на основе практики, потому других источников знаний у нас не было. С одной стороны, это создавало риски, с другой – поощряло свободу к действиям. Сотрудники были как никогда нацелены на результат, а их предыдущий опыт помогал находить нестандартные решения в тех или иных вопросах.
Стоит отметить, что бизнес-лидеры не всегда понимают ценность отдельно взятых решений по работе с метаданными.
Это какая-то малопонятная область работы и применения ресурсов, и не всегда ясно, зачем на это нужно тратить время. Надеюсь, что пример с чертежами зданий и новые фильмы по аналогии с «Аноном» позволяют раскрыть потенциал метаданных. Моделей монетизации таких решений очень мало.
Например, при расчете себестоимости функции работы с данными как сервиса, я использовал исследования Калифорнийского университета, где была приведена модель затрат и ценообразований функции использования данных. В этом отношении я мыслил достаточно просто – нужно было продавать именно данные как сервис, а работу с метаданными сделать обязательным компонентом себестоимости этого сервиса. Сервисная модель работы с данными – относительно новое явления для бизнеса, так как большинство лидеров для тех или иных задач выделяют ресурсы напрямую.
Читать дальшеИнтервал:
Закладка: