Евгений Ющук - Интернет-разведка. Руководство к действию
- Название:Интернет-разведка. Руководство к действию
- Автор:
- Жанр:
- Издательство:Вершина
- Год:2007
- Город:М.:
- ISBN:5-9626-0290-0
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Евгений Ющук - Интернет-разведка. Руководство к действию краткое содержание
Согласно расхожему мнению, человек, владеющий информацией, владеет миром. Интернет – гигантская информационная база современности, и необходимость освоения тонкостей работы в сети скоро станет насущной для всех – от специалистов по конкурентной разведке, маркетингу и PR, в жизни которых Интернет уже играет не последнюю роль, до рядовых служащих.
Как найти в Интернете информацию о конкретных людях, компаниях и товарах? Как организовать продвижение собственного предприятия в Сети? Как уберечься от хакеров и спрятать информацию на своем компьютере от посторонних? Как бороться с вирусами и вредоносными программами? Ответы на эти и многие другие вопросы вы найдете в нашей книге – подробном путеводителе по миру Интернета. Представленные здесь практические советы помогут вам не просто выстоять в конкурентной или информационной борьбе, но и победить в ней, изучив неизвестные рядовому пользователю возможности Всемирной паутины.
Издание представляет практический интерес для специалистов по бизнес-разведке, маркетингу, рекламе и PR, а также для директоров и менеджеров, желающих эффективно продвигать свое предприятие на современном рынке.
Интернет-разведка. Руководство к действию - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Если, например, Яндекс в выдаче представил пять тысяч страниц, то посмотреть более одной тысячи не удастся – он их просто не покажет. Во всяком случае, так обстояло дело на момент написания книги. Исправить ситуацию можно за счет использования операторов запросов. В результате, количество страниц в выдаче уменьшится, с одновременным увеличением релевантности.
1.4.Страницы, не прописанные в форме «Добавить страницу» и не имеющие ссылок с других адресов.
В мае 2000 г. IBM провела исследования, показавшие, что количество таких страниц, неизвестных поисковым системам, достигает 20 % от общего числа адресов, которые могли бы быть проиндексированы с технической точки зрения. [5]
2. Страницы, намеренно исключенные вебмастером из индексации.
К ним как раз и относятся ресурсы, защищенные паролем или включенные в файл robots.txt либо убранные под тег .
3. Страницы, которые требуют регистрации.
В Интернете есть ресурсы, доступные бесплатно любому человеку, который для входа на страницу должен нажать кнопку «Я согласен»: это свидетельствует о его согласии с условиями посещения сайта. Иногда вместо такого выражения согласия требуется заполнить какие-то регистрационные формы. Паук не умеет выполнять подобные действия, и потому не попадает на сайт.
4. Действительно невидимый Интернет.
Страница содержит данные в формате, недоступном поисковым машинам.
Страницы намеренно не обслуживаются поисковыми машинами по тем или иным причинам.
Информация хранится в базе данных и доступ к ней возможен лишь при условии заполнения определенной формы.
Особенности построения адресов некоторых страниц Интернета
Советуем разобраться в данном вопросе, поскольку это позволит лучше ориентироваться в Интернете, а также эффективно обходить проблемы, которые нередко возникают при попытке поставить некоторые страницы на мониторинг, с целью автоматического обнаружения изменений их содержания.
Нередко ресурс может включать одновременно и элементы видимого, и невидимого Интернета.
Иногда веб-мастера принимают меры к тому, чтобы заведомо исключить попадание своего сайта в разряд невидимых, с точки зрения некоторых поисковых машин, сохранив при этом ресурс удобным в использовании и внешне привлекательным для пользователей. Для этого в ряде случаев сайты, написанные, например, на Flash, имеют HTML-копии. Такие копии называют «зеркалами» страницы, они позволяют увидеть ее содержимое с помощью тех информационных систем, которые имеют какие-то затруднения в работе с форматом основного варианта сайта.
Прямой и непрямой URL. Динамические страницы. Еще недавно в специальной литературе, изданной за рубежом, говорилось о том, что страницы, имеющие непрямой URL, как правило, относятся к невидимому Интернету.
Сегодня ресурсы с непрямым адресом могут нормально индексироваться поисковыми машинами. Однако попытки специалистов конкурентной разведки поставить их на мониторинг могут натолкнуться на неожиданную проблему, которая, тем не менее, может быть преодолена.
Если адрес страницы состоит только из букв, цифр и косых черточек, то это прямой url страницы, которая относится, как правило, к видимому Интернету.
Примеры прямого URL: http://www.yandex.ru/; http://yushchuk.livejournal.com/35905.html.
Сложнее обстоит дело со страницами, где в адресе встречается вопросительный знак, после которого следует множество непонятных неподготовленному человеку символов. Обычно все, что расположено левее вопросительного знака, приведет вас на страницу с формой, требующей заполнения или просто на одну из первых страниц сайта, а вот правее вопросительного знака часто записана информация, описывающая запрос.
В качестве примера приведем адрес страницы, которая показывает результаты по запросу «маркетинг» в Яндексе: http://www.yandex.ru/yandsearch?text=%EC%E0%F0%EA%E5%F2%E8%ED%E3&stype=www.
К этому адресу мы обратились для того, чтобы с его помощью разобраться в способах решения типичной проблемы. Поэтому чуть позже мы к нему вернемся.
Непосредственно в этой правой части адреса страницы может содержаться описание критериев запроса – и тогда вы попадете на страницу еще раз, введя этот адрес в адресную строку браузера. А может запрос там и не содержаться, и тогда вам не удастся повторить переход на нужную страницу, введя адрес такой страницы в адресную строку браузера. В этом втором случае попытка перейти по адресу страницы приводит к загрузке незаполненного шаблона.
Рассмотрим два примера, когда запросы одинаковы, но сайты устроены по-разному, что приводит к разным результатам.
Итак, для наглядности поищем людей, которые разместили свои резюме в регионе «Екатеринбург» на сайтах Superjob.ru и e1.ru, причем анкеты их должны содержать слово «повар». При этом, заполняя формы запроса, мы намеренно не будем указывать никаких ограничений по полу, возрасту, образованию и прочим параметрам, дабы это не привело к возникновению дополнительных переменных величин поиска.
Вот адрес страницы, выдаваемой в ответ на запрос, на сайте Superjob.ru:
http://e-burg.superjob.ru/resume/search_resume.html?submit=1&period=60&town=33&paymentfrom=&paymentto=&type=0&old1=&old2=&pol=0&maritalstatus=0&children=0&education=0&language=1&lang_level=0&stazhyear=0&keywords=%EF%EE%E2%E0%F0&kwc=or&rating=0&tree_keyword=&saveparam=1.(ТЕКСТВ ОДНУ СТРОКУ.СТРОКУ РАЗБИТЬ ПО ШИРИНЕ ПОЛОСЫ)
В приведенной выше строке адреса описаны город (он имеет номер 33 по классификатору сайта и отражен в символах «town=33», а также слово «повар», на кодировке которого мы пока не будем останавливаться подробно). Если скопировать этот адрес в поисковую строку браузера, то можно вновь получить страницу с информацией о людях с требуемыми параметрами, как если бы мы ввели ее с клавиатуры заново.
Вид страницы по этому запросу приведен на рис. 3.

Рис. 3. Результат запроса на сайт Superjob.ru в поисках повара в Екатеринбурге.
Вот ответ на такой же запрос с сайта e1.ru при тех же критериях поиска был получен результат, отображенный на рис. 4.

Рис. 4. Результат запроса на сайт e1.ru в поисках повара в Екатеринбурге.
Адрес страницы, показанной на рис. 4, выглядит следующим образом: http:// www.e1.ru/business/job/resume.search.php.
Не нужно быть в высшей степени сведущим относительно всех премудростей Интернета, чтобы заметить: адрес этот выглядит гораздо короче предыдущего. Кроме того, в нем отсутствует описание запроса. Попытка перейти повторно на нужную страницу, просто введя в поисковую строку браузера вышеуказанные координаты, как раз и приводит к незаполненной форме.
Читать дальшеИнтервал:
Закладка: