Евгений Ющук - Интернет-разведка. Руководство к действию

Тут можно читать онлайн Евгений Ющук - Интернет-разведка. Руководство к действию - бесплатно ознакомительный отрывок. Жанр: Интернет, издательство Вершина, год 2007. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Интернет-разведка. Руководство к действию
  • Автор:
  • Жанр:
  • Издательство:
    Вершина
  • Год:
    2007
  • Город:
    М.:
  • ISBN:
    5-9626-0290-0
  • Рейтинг:
    4.5/5. Голосов: 101
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 100
    • 1
    • 2
    • 3
    • 4
    • 5

Евгений Ющук - Интернет-разведка. Руководство к действию краткое содержание

Интернет-разведка. Руководство к действию - описание и краткое содержание, автор Евгений Ющук, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru

Согласно расхожему мнению, человек, владеющий информацией, владеет миром. Интернет – гигантская информационная база современности, и необходимость освоения тонкостей работы в сети скоро станет насущной для всех – от специалистов по конкурентной разведке, маркетингу и PR, в жизни которых Интернет уже играет не последнюю роль, до рядовых служащих.

Как найти в Интернете информацию о конкретных людях, компаниях и товарах? Как организовать продвижение собственного предприятия в Сети? Как уберечься от хакеров и спрятать информацию на своем компьютере от посторонних? Как бороться с вирусами и вредоносными программами? Ответы на эти и многие другие вопросы вы найдете в нашей книге – подробном путеводителе по миру Интернета. Представленные здесь практические советы помогут вам не просто выстоять в конкурентной или информационной борьбе, но и победить в ней, изучив неизвестные рядовому пользователю возможности Всемирной паутины.

Издание представляет практический интерес для специалистов по бизнес-разведке, маркетингу, рекламе и PR, а также для директоров и менеджеров, желающих эффективно продвигать свое предприятие на современном рынке.

Интернет-разведка. Руководство к действию - читать онлайн бесплатно ознакомительный отрывок

Интернет-разведка. Руководство к действию - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Евгений Ющук
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Подобный запрет может быть реализован двумя способами. Первый заключается в том, что на сайте создается специальный файл robots.txt либо используется особый тег – так называемый, метатег . В этот файл или под метатег «прячут» содержимое страницы, которое, по мнению владельца контента, не должно индексироваться поисковыми машинами.

Единственное отличие между ними состоит в том, что работает на той странице, на которой он расположен, тогда как robots.txt может быть использован с целью предотвращения индексации любых отдельных страниц, групп файлов или даже всего веб-сайта.

По своей сути, никаких технических препятствий для индексирования содержимого ресурса этот способ не создает. Однако большинство поисковых машин с уважением относится к подобному способу защиты контента, который, как правило, не попадает в информационные системы. Наиболее близким аналогом столь действенного ограничения доступа в реальном мире можно считать таблички «м» и «ж» на дверях общественных уборных.

На наш взгляд, метод ограничения индексирования с помощью файла robots. txt или метатега потому получил столь большое распространение, что он препятствует работе пауков, но не мешает людям просматривать содержимое страниц без каких-либо ограничений.

Второй способ охраны контента значительно надежнее первого и заключается в том, что страница защищается паролем. Паук технически неспособен вводить пароль. Однако и человек, прежде всего, должен этот пароль знать, а кроме того, ему необходимо потратить время и приложить усилия для того, чтобы его ввести. При такой защите ресурса работает уже не этический, а технический способ ограничения индексирования.

После того, как паук попал на страницу, которая не защищена паролем и не внесена в список запрещенных, события развиваются по-разному, в зависимости от того, что на этой странице находится. Рассмотрим возможные их варианты, а также попытаемся понять, к видимому или к невидимому Интернету эти варианты относятся (по Крису Шерману и Гэри Прайсу).

Вариант 1. Паук обнаруживает страницу, написанную в HTML и содержащую графические элементы.

В таком случае паук может проиндексировать лишь название графического файла, и тогда такой документ будет найден при поиске картинок по ключевому слову, совпадающему с тем, которое есть в названии. Если имя файла не имеет ничего общего с его наполнением, он не сможет быть найден поисковой машиной, даже если будет содержать фотографию с изображением ключевого слова.

Вариант 2. Паук внутри сайта столкнулся со страницей, которая написана на HTML, но содержит поля, требующие заполнения пользователем – например, ввода логина и пароля.

В этом случае есть техническая возможность индексирования содержимого, но только того, к которому имеется доступ. Спрятанная под пароль часть страницы не может быть просмотрена и, как следствие, не может быть проиндексирована спайдером.

Здесь наиболее часто встречаются два варианта. Первый: допустим, на сайте лежат готовые к просмотру страницы, на которые существуют ссылки в Интернете (например, фраза: «Я недавно интересную статью прочитал, она находится здесь:» – и далее следует прямой адрес статьи). В этом случае страница с формой, требующей заполнения, создана лишь для того, чтобы пользователь мог выбрать нужный ресурс из имеющихся. Текст на странице с формой будет виден пауку и проиндексируется, а сами страницы, на которые ведет форма, индексируются «в обход» процедуры ее заполнения, в другое время и, возможно, другим пауком, за счет ссылок на внутренние страницы сайта из других источников. В таком случае и страница с формой, и внутренние страницы будут относиться к видимому Интернету.

Во втором варианте форма собирает информацию, на основании которой впоследствии создается необходимая пользователю страница. То есть, никакой внутренней страницы просто не существует до тех пор, пока форма не будет заполнена. Паук этого сделать не может. Данные, которые находятся внутри такого сайта, не могут быть получены никаким иным путем, кроме как посредством заполнения формы, а потому всегда относятся к невидимому Интернету.

Вариант 3. Паук приходит на сайт, содержащий динамические данные, меняющиеся в реальном масштабе времени.

К таким сайтам относится биржевая информация или, скажем, сведения о прибытии авиарейсов (рис. 2). Эти ресурсы обычно причисляют к невидимому Интернету, но не потому, что их технически нельзя проиндексировать, а потому, что их индексация не имеет практического смысла.

Рис 2 Пример мониторинга движения рейсов на сайте wwwairagencyru Вариант - фото 2

Рис. 2. Пример мониторинга движения рейсов на сайте www.airagency.ru

Вариант 4. Паук попадает на страницу, которая содержит текст в формате, не поддерживаемом данной поисковой машиной.

Например, Рамблер, как мы уже говорили, не поддерживает документы Power Point (.ppt). Ряд поисковых машин не индексируют документы в Postscript-файлах (это формат, в котором могут сохраняться для передачи в типографию файлы, созданные в программе Microsoft Publisher). До недавнего времени к таким форматам относился и PDF, однако сначала Гугл, а за ним и остальные поисковые машины стали индексировать подобные документы. Первоначально ограничение в работе с PDF-файлами было обусловлено тем, что на каждый новый формат приходилось расходовать дополнительные средства, распространенность же PDF-файлов вначале была невелика. Однако, по мере того, как правительственные организации многих стран стали выкладывать в Интернет документы именно в этом формате, поисковые машины начали с ним работать.

Вариант 5. Паук находит базу данных, запрос в которую выполняется через веб-интерфейс.

Причины, по которым такая база не может быть проиндексирована спайдером, следующие:

– страницы генерируются динамически, в ответ на запрос;

– протокол базы данных может не стыковаться с протоколом поисковой машины;

– доступ к базе требует введения логина и пароля (особенно, если дело касается платных ресурсов).

Четыре типа невидимости в Интернете

Традиционно выделяют четыре типа невидимости содержимого Всемирной Паутины, сформулирванные Крисом Шерманом и Гэри Прайсом.

1. Невидимость, обусловленная настройками пауков и их естественными особенностями (так называемый, «серый Интернет» ). «Серый Интернет» имеет несколько возможных вариантов.

Ограничение глубины проникновения паука на сайт, настроенное владельцами поисковой машины.

Изменения страниц, происходящие уже после посещения страницы пауком.

Ограничение максимального количества показанных в выдаче страниц.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Евгений Ющук читать все книги автора по порядку

Евгений Ющук - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Интернет-разведка. Руководство к действию отзывы


Отзывы читателей о книге Интернет-разведка. Руководство к действию, автор: Евгений Ющук. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x