Далчи Грей - Пособие по журналистике данных
- Название:Пособие по журналистике данных
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:2013
- ISBN:978-5-905600-08-1
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Далчи Грей - Пособие по журналистике данных краткое содержание
Пособие по журналистике данных - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Можно ли найти адрес ссылки, находящейся в заголовке каждого события?
Можно ли выбрать небольшой контейнер, который содержит дату и место, используя CSS–имя его класса, и затем извлечь текст этого элемента?
ScraperWiki предлагает небольшую базу данных для каждого «скребка», в которую вы можете сохранить ваши результаты (код), скопируйте соответствующий пример из документов ScraperWiki и адаптируйте его так, чтобы он сохранял названия, ссылки и даты событий.
Список событий включает в себя много страниц, можно ли осуществить наш поиск по всем страницам, чтобы получить информацию и о старых событиях?
Когда вы будете решать эти проблемы, изучите ScraperWiki: в имеющихся на этом ресурсе «скребках» можно найти много полезных примеров, а зачастую и довольно интересных данных. Таким образом, вам не обязательно создавать свой «скребок» с нуля: просто выберите подходящий и адаптируйте его под свои задачи.
— Фридрих Линденберг, Open Knowledge Foundation
Сеть как источник данных
Как можно узнать больше о том, что существует только в Интернете? Будь то адрес электронной почты, веб–сайт, изображение или статья в Википедии — в данной главе я расскажу вам об инструментах, которые помогут вам получить больше информации об этих элементах.
Веб–инструменты
Для начала назовем некоторые сервисы, с помощью которых можно узнать больше информации о веб–сайтах в целом.
Whois
Если вы посетите сайт
whois.domaintools.com(или просто введете whois www.example.comв приложении Terminal.app, если вы работаете на компьютере Mac), вы получите базовую регистрационную информацию практически о любом сайте. В последние годы некоторые владельцы выбирают «приватную» регистрацию, которая не позволяет просматривать их данные, однако в большинстве случаев вы увидите имя, адрес, электронную почту и номер телефона лица, зарегистрировавшего сайт. Вы также можете ввести цифровой IP–адрес и получить данные об организации или физическом лице, являющихся владельцами этого сервера. Это особенно удобно, когда вы пытаетесь получить больше информации о лицах, которые, например, нарушают условия пользования каким–либо сервисом, так как большая часть веб–сайтов регистрирует IP–адрес своих посетителей.Blekko
Поисковый движок Blekkoпредлагает необычно большой объем информации о внутренней статистике, которую он собирает в Интернете. Если вы введете доменное имя, и дополните его сочетанием «/seo», вы получите страницу с информацией об этом адресе. В первой табличке на Рис 57показано, какие другие сайты ссылаются на данный домен (в порядке популярности). Это может оказаться полезным, когда вы хотите понять, какое освещение получает сайт, и если вы хотите понять, почему он занимает высокие места в результатах поиска Google, так как эти результаты основываются именно на этих ведущих на сайт ссылках. Рис 59показывает, какие другие сайты размещаются на той же машине. Мошенники и спамеры нередко придают законный вид своей деятельности, создавая многочисленные сайты, которые ссылаются друг на друга. Внешне они выглядят как независимые домены и могут даже иметь разные регистрационные данные, однако зачастую они размещаются на одном и том же сервере, так как это значительно дешевле. Эта статистика позволит вам заглянуть внутрь скрытой бизнес–структуры исследуемого вами сайта.

Рис 57. The Blekko search engine (Blekko.com)

Рис 58. Understanding web popularity: who links to who? The other handy tab is »Crawl stats», especially the »Cohosted with» section. (Blekko.com)

Рис 59. Spotting web spammers and scammers (Blekko.com)
Compete.com
Ресурс Compete.comзанимающийся опросом мнений американских потребителей, составляет подробную статистику использования большого количества сайтов, и некоторые из основных данных предоставляются бесплатно. Выберите вкладку «Site Profile» и введите доменное имя ( Рис 60). В результате вы увидите график трафика сайта за последний год, данные о количестве посетителей и частоте посещений (см. Рис 61). Так как в основе получаемых данных лежат опросы, эти данные являются приблизительными, однако, когда у меня появлялась возможность сравнить их с внутренними аналитическими данными, я понимал, что они являются довольно точными. В частности, их можно принимать во внимание при сравнении между собой двух сайтов, т. к., несмотря на отсутствие абсолютных цифр для этих сайтов, они хорошо показывают относительную разницу в их популярности. Данный ресурс исследует только американских потребителей, поэтому данные по большей части иностранных сайтов будут довольно бедными.

Рис 60. Compete.com’s site profile service (Compete.com)

Рис 61. What’s in vogue? What’s in demand?: hotspots on the web (Compete.com)
Google’s Site Search
Функция, которая может оказаться чрезвычайно полезной, когда вы хотите исследовать содержание какого–либо конкретного домена — это ключевое слово «site:». Если вы добавите фразу «site:example.com» к вашему поисковому запросу, Google покажет только те результаты, которые находятся на указанном вами сайте. Вы можете еще больше сузить запрос, указывая префикс тех страниц, которые вас интересуют, например, «site:example.com/pages/», в результате чего вам будут показаны, отвечающие этому конкретному запросу. Это может оказаться полезным при поиске информации, которая находится в открытом доступе, но которая не рекламируется владельцами домена, поэтому выбор правильных ключевых слов может привести к обнаружению очень важной для вас информации.
Веб–страницы, изображения и видео
Иногда у вас может возникнуть желание исследовать активность, связанную с отдельным материалом, а не со всем веб–сайтом. Описанные далее инструменты помогут вам под разными углами посмотреть на то, как люди читают, комментируют, копируют и делятся контентом в Интернете.
Bit.ly
Я всегда пользуюсь bit.ly, когда я хочу узнать, как люди делятся друг с другом какой–то конкретной ссылкой. Чтобы воспользоваться сервисом, введите интересующий вас URL–адрес и щелкните по ссылке «Info Page+». В результате вы перейдете на страницу с полной статистикой (хотя вам может понадобиться нажать сначала «aggregrate bit.ly link», если вы зарегистрированы в этом сервисе). Вы сможете понять, насколько популярной является страница, включая ее обсуждение в Facebook и Twitter, а ниже вы увидите разговоры об этой ссылке, предоставленные сервисом backtype.com. Это сочетание данных о трафике и разговоров бывает весьма полезным, когда необходимо понять причины популярности сайта или страницы, а также узнать, кем именно являются их фанаты. Например, благодаря этим данным я получил весомые доказательства того, что преобладающие комментарии относительно низов и Сары Пэйлин были ошибочны.
Читать дальшеИнтервал:
Закладка: