Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим

Тут можно читать онлайн Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - бесплатно полную версию книги (целиком) без сокращений. Жанр: Прочая околокомпьтерная литература, издательство Манн, Иванов и Фербер, год 2014. Здесь Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим краткое содержание

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - описание и краткое содержание, автор Виктор Майер-Шенбергер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
С появлением новой науки открылась удивительная возможность с точностью предсказывать, что произойдет в будущем в самых разных областях жизни. Большие данные — это наша растущая способность обрабатывать огромные массивы информации, мгновенно их анализировать и получать порой совершенно неожиданные выводы. По какому цвету покраски можно судить, что подержанный автомобиль находится в отличном состоянии? Как чиновники Нью-Йорка определяют наиболее опасные люки, прежде чем они взорвутся? И как с помощью поисковой системы Google удалось предсказать распространение вспышки гриппа H1N1? Ключ к ответу на эти и многие другие вопросы лежит в больших данных, которые в ближайшие годы в корне изменят наше представление о бизнесе, здоровье, политике, образовании и инновациях.

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - читать онлайн бесплатно полную версию (весь текст целиком)

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - читать книгу онлайн бесплатно, автор Виктор Майер-Шенбергер
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Менее чем через десять лет, в 2006-м, компания Google подалась в область перевода в рамках своей миссии «упорядочить мировую информацию и сделать ее полезной и всесторонне доступной». Вместо того чтобы использовать аккуратно переведенные на два языка страницы текста, Google задействовала более массивный, но при этом гораздо более беспорядочный набор данных — глобальную сеть интернет. Разработанная система поглощала все переводы, которые ей только удавалось найти, с целью обучить компьютер. Она обрабатывала корпоративные сайты на нескольких языках, а также идентичные переводы официальных документов и отчетов межправительственных организаций, таких как Организация Объединенных Наций и Европейская комиссия. Даже переводы книг в рамках проекта по сканированию книг были пущены в дело. Вместо трех миллионов тщательно переведенных предложений, используемых в проекте Candide, по словам Франца Оча, главы службы «Google Переводчик» и одного из ведущих специалистов в этой области, система Google охватывала миллиарды страниц документов с широким спектром качества перевода. Корпус этой системы содержал триллион слов и насчитывал 95 миллиардов англоязычных предложений, пусть и сомнительного качества. [48] Корпус Google из 95 миллиардов предложений: Franz, Alex. All Our N-gram are Belong to You / Alex Franz and Thorsten Brants // Google blog post. — August 3, 2006. URL: http://googleresearch.blogspot.co.uk/2006/08/all-our-n-gram-are-belong-to-you.html.

Несмотря на беспорядочность входящих данных, служба Google лучше других систем. Ее переводы точнее, хотя и весьма далеки от совершенства. К тому же эта служба во много раз полнее других: к середине 2012 года она охватила более 60 языков, а теперь даже способна принимать голосовой ввод на 14 языках для моментального перевода. Поскольку она рассматривает язык лишь как беспорядочный набор данных, по которому можно судить скорее о вероятностях явлений, чем о них самих, служба может выполнять переводы между языками, в переводах на которые представлено недостаточно прямых соответствий, чтобы создать систему. В таких случаях (например, для хинди и каталонского языка) английский язык служит своеобразным мостом. Кроме того, эта система более гибкая, чем другие подходы, поскольку может добавлять и удалять слова по мере того, как они входят в обиход или устаревают.

Google Переводчик работает хорошо не потому, что в его основе заложен более разумный алгоритм. Как это было у Банко и Брилла из корпорации Microsoft, причина тому — большее количество входящих данных (но не всех подряд). Так, например, компании Google удалось использовать в десятки тысяч раз больше данных, чем системе Candide компании IBM. И все потому, что в Google принимались беспорядочные данные. Корпус из триллиона слов, выпущенный Google в 2006 году, состоял из разбросанных фрагментов интернет-контента. Он стал «обучающим набором», по которому вычислялась вероятность того, что именно последует за тем или иным английским словом. Это был огромный шаг вперед, в корне отличающийся от предшественника — знаменитого Брауновского корпуса с миллионом английских слов, созданного в 1960-х годах. Благодаря более объемным наборам данных развитие обработки естественного языка шло семимильными шагами. На нем были основаны как системы распознавания голоса, так и системы компьютерного перевода. «Простые модели с множеством данных по результатам превосходят более сложные модели, основанные на меньшем количестве данных», — отметил Питер Норвиг, гуру искусственного интеллекта в компании Google, в статье «Необоснованная эффективность данных», написанной в соавторстве с коллегами. [49] Цитата из статьи Норвига: Halevy, A. The Unreasonable Effectiveness of Data / A. Halevy, P. Norvig, and F. Pereira // IEEE Intelligent Systems. — Mar./Apr., 2009. — P. 8–12. Обратите внимание, что ее название — вариация на тему знаменитой статьи Юджина Вигнера The Unreasonable Effectiveness of Mathematics in the Natural Sciences, в которой он рассматривает, почему физику можно аккуратно выразить в математических формулах, но они плохо годятся для гуманитарных наук. См.: Wigner, E. The Unreasonable Effectiveness of Mathematics in the Natural Sciences // Comm. Pure and Applied Mathematics. — 1960. — Vol. 13, no. 1. — P. 1–14.

Однако, как поясняют Норвиг и его коллеги, ключевым элементом была беспорядочность: «В некотором смысле этот корпус — шаг назад по сравнению с Брауновским корпусом, ведь его данные взяты с неотфильтрованных веб-страниц, а значит, содержат неполные предложения, а также орфографические, грамматические и прочие ошибки. Такой корпус не имеет примечаний с добавленными вручную пометками частей речи. Но то, что он в миллион раз больше Брауновского корпуса, перевешивает эти недостатки».

Больше данных — лучше результат

Аналитикам, которые работают с обычными выборками, трудно свыкнуться с беспорядочностью, которую они всю жизнь стремились предотвратить или искоренить. Статистики используют целый комплекс стратегий в целях снижения частоты появления ошибок при сборе выборок, а также для проверки выборок на наличие потенциальных систематических ошибок перед объявлением результатов. Этот комплекс стратегий включает в себя сбор выборок, который осуществляется специально обученными специалистами в соответствии с точным протоколом. Реализация стратегий, направленных на сокращение числа ошибок, — дорогостоящее удовольствие, даже при ограниченном количестве точек данных. Что немаловажно, эти стратегии становятся невозможными в случае сбора данных в полном объеме — не только из-за чрезмерной стоимости, но и потому, что при таком масштабе вряд ли удастся равномерно соблюсти строгие стандарты сбора. И даже исключение человеческого фактора не решило бы проблему.

Двигаясь в сторону больших данных, мы будем вынуждены изменить свое представление о преимуществах точности. Пытаясь мыслить привычными категориями измерений в цифровом взаимосвязанном мире ХХІ века, мы упускаем важный момент. Одержимость точностью — не более чем артефакт аналогового мира, находящегося в информационной изоляции, где данные поистине были редкостью. На тот момент измерение каждой точки данных было крайне важно для результата, поэтому большое внимание уделялось тому, чтобы не допускать в анализе систематические погрешности.

В наше время нет такого дефицита информации. При переходе на всеобъемлющие наборы данных, которые охватывают всё или почти всё рассматриваемое явление, а не только его мизерную часть, нам уже не приходится беспокоиться об отдельных точках данных, привносящих в анализ систематические погрешности. Вместо того чтобы искоренять каждый неточный бит (что со временем обходится все дороже), мы выполняем вычисления, принимая во внимание беспорядочность.

Возьмем для примера беспроводные датчики, внедряемые на производстве. По всей территории нефтеперерабатывающего завода BP Cherry Point в Блейне (Вашингтон) расставлены беспроводные датчики, образующие невидимую сеть, которая производит огромные объемы данных в режиме реального времени. Неблагоприятные окружающие условия — сильная жара и электрические механизмы — могут время от времени искажать показания, приводя к беспорядочности данных. Но огромное количество поступающей информации компенсирует эти трудности. Измеряя нагрузку на трубы непрерывно, а не через определенные промежутки времени, компания BP выяснила, что некоторые виды сырой нефти более едкие, чем другие. Прежде это не удавалось определить, а значит, и предотвратить. [50] Коррозия труб и враждебная среда связи в компании BP: Clarabut, Jaclyn. Operations Making Sense of Corrosion // BP Magazine. — 2011. — Issue 2. URL: http://www.bp.com/liveassets/bp_internet/globalbp/ globalbp_uk_english/reports_and_publications/ bp_magazine/STAGING/local_assets/pdf/BP_Magazine_2011_issue2_text.pdf.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Виктор Майер-Шенбергер читать все книги автора по порядку

Виктор Майер-Шенбергер - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим отзывы


Отзывы читателей о книге Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим, автор: Виктор Майер-Шенбергер. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x