Далчи Грей - Пособие по журналистике данных
- Название:Пособие по журналистике данных
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:2013
- ISBN:978-5-905600-08-1
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Далчи Грей - Пособие по журналистике данных краткое содержание
Пособие по журналистике данных - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
— Данный раздел был написан Мариано Блейманом, Марианой Берруэзо, Серджио Сориным, Энди Тоу и Мартином Сарсале из Hacks/Hackers Buenos Aires
Данные в новостях: WikiLeaks

Рис 40. Военные отчеты от WikiLeaks (The Guardian)
Началось все с того, что один человек из группы, занимающейся расследовательской журналистикой, спросил: «Вы же хорошо умеете работать с электронными таблицами, не правда ли?» А это была просто чертовски большая таблица: 92 201 строка данных, и в каждой – подробности о каком–либо военном событии в Афганистане. Это были военные отчеты WikiLeaks. Мало того, только часть первая. За которой последуют еще две: посвященная Ираку и дипломатические депеши. Официальный термин для всего этого был такой – SIGACTS – база данных о значимых действиях американских военных.
Афганские военные отчеты – которые мы обрабатывали вместе с New York Times и Der Spiegel – были настоящей журналистикой данных в действии. Что мы хотели сделать, так это дать возможность нашей команде специалистов вытащить какие–то серьезные человеческие истории из этой информации – и мы также хотели проанализировать данные, чтобы получить картину в целом, и показать, как действительно шла и идет война.
Практически сразу мы пришли к важному решению, что мы не будем публиковать полную базу данных. WikiLeaks уже собиралась это сделать, а мы хотели убедиться в том, что мы не раскроем имена лиц, ставших источниками информации, или не будем без необходимости подвергать опасности войска НАТО. В то же время нам нужно было сделать данные более легкими для понимания, а также для использования нашей командой расследовательских журналистов, возглавляемой Дэвидом Леем (David Leigh) и Ником Дэвисом (Nick Davies) (которые вели переговоры с Джулианом Ассанжем о публикации данных). Мы также хотели упростить задачу извлечения ключевой информации, чтобы она стала доступной всему миру, была при этом ясной, понятной и открытой – в максимально возможной степени, насколько у нас это получится.
Данные поступили к нам в виде огромного «экселевского» файла – 92 201 строка данных, в некоторых не было вообще ничего или же они были плохо отформатированы. Это никоим образом не помогало журналистам, которые продирались сквозь эти данные в поисках сюжетов для материалов, и вдобавок сам файл был слишком велик, чтобы сделать по нему содержательный отчет.
Наша команда соорудила простую внутреннюю базу данных с использованием SQL. Журналисты теперь могли осуществлять поиск по ключевым словам или тем или иным событиям. Получилось, что внезапно набор данных стал доступным, и создавать материалы на его основе стало гораздо легче.
Данные были хорошо структурированы: каждое событие имело следующие ключевые характеристики: время, дату, описание, количество пострадавших, и – самое важное – точные данные долготы и широты места, где оно произошло.
Мы также начали фильтровать данные, что должно было помочь нам рассказать одну из ключевых историй войны: рост числа атак с использованием самодельных взрывных устройств – придорожных мин домашнего изготовления, которые совершенно непредсказуемы и с которыми очень трудно бороться. Но и этот набор данных по–прежнему оставался слишком массивным – однако управляться с ним стало легче. Всего было примерно 7 500 случаев применения самодельных взрывных устройств или внезапных нападений, засад (за таковую атаку мы считали нападение, сочетающееся с, допустим, небольшой перестрелкой или использованием реактивных гранат) за период с 2004 по 2009 годы. И еще 8 000 самодельных взрывных устройств были обнаружены и обезврежены. Мы хотели посмотреть, как эта ситуация менялась со временем – и сравнить. Эти данные дали нам возможность увидеть, что юг, территория, где базировались британские и канадские войска, был самым «горячим» в этом плане районом, там происходило больше всего подобных инцидентов – и эти данные только подкрепили то, что наши журналисты, освещавшие войну, уже знали.
Публикация военных отчетов об Ираке в октябре 2010 выставила на публичное обозрение еще 391 000 записей, на этот раз по иракской войне.
И это было уже кое–что иное по сравнению с утечкой по Афганистану – вполне можно было, воспользовавшись этим случаем, сказать, что эта война стала самой задокументированной войной в истории. Любая, даже самая мелкая, подробность теперь была доступна для нас для анализа, обработки и выводов. Но обращает на себя один фактор: большое количество смертей, причем большинство погибших – гражданские лица.
Как и в случае с Афганистаном, Guardian решил не перепубликовывать всю базу целиком, в значительной мере потому, что мы не могли быть уверены, что поля с описанием не содержат конфиденциальную информацию или данные о тех людях, кто был источником информации, и так далее.
Но мы дали возможность нашим пользователям скачать таблицу с записями о каждом инциденте, где кто–то погиб. Таковых набралось примерно 60 000. Мы удалили при этом поля с кратким описанием, так что остались только основные данные: военный заголовок, число погибших и географическая разбивка.
Мы также взяли все эти инциденты с жертвами, и нанесли их на карту при помощи таблиц Google Fusion. Вариант оказался не идеальный, но в любом случае это было начало процесса попытки составления карт для отображения всех примеров разрушений и уничтожений, которые опустошили Ирак.
В декабре 2010 года были опубликованы депеши. И это был еще более внушительный набор данных – огромное собрание официальных документов: 251 287 дипломатических донесений, из более чем 250 американских посольств и консульств по всему миру. Получилась уникальная картина американского дипломатического языка – она включала в себя более 50 000 документов, касающихся и нынешней американской администрации Барака Обамы. Но что именно включали в себя эти данные?
Сами депеши поступили через огромную безопасную сеть на базе интернет–маршрутизатора (Secret Internet Protocol Router Network – SIPRNet). SIPRNet – это всемирная интернет–система американских военных, которая существует отдельно от обычного гражданского интернета и управляется Министерством обороны в Вашингтоне. Со времен терактов 11 сентября 2001 года в США наблюдалось движение в сторону объединения архивов правительственной информации, в надежде, что ключевые разведданные больше не попадут в ловушку в информационных бункерах, не пострадают от противоречий между федеральными агентствами США. Все большее число американских посольств подключались к SIPRNet в последнее десятилетие, таким образом, становилось возможным обмениваться военной и дипломатической информацией. К 2002 году с SIPRNet работали 125 посольств, к 2005 это количество выросло до 180, а сейчас подавляющее большинство американских зарубежных дипмиссий подключены к этой системе. Вот почему большая часть опубликованных депеш датируется 2008–2009 годами. Как писал Дэвид Лей:
Читать дальшеИнтервал:
Закладка: