Сергей Расторгуев - Информационные операции в сети Интернет
- Название:Информационные операции в сети Интернет
- Автор:
- Жанр:
- Издательство:АНО «Центр стратегических оценок и прогнозов»
- Год:2014
- ISBN:978-5-906661-05-0
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Сергей Расторгуев - Информационные операции в сети Интернет краткое содержание
Информационные операции в сети Интернет - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Любой парсер состоит из трех частей, которые отвечают за три отдельных процесса парсинга:
• получение контента в исходном виде. Под получением контента чаще всего подразумевается скачивание кода веб-страницы, из которой необходимо извлечь данные или контент. Одним из самых развитых решений для получения кода требуемой страницы является библиотека cURL для языка PHP;
• извлечение и преобразование данных. В этой фазе происходит извлечение требуемых данных из полученного на первом этапе кода страницы. Чаще всего для извлечения используют регулярные выражения. Также на этом этапе происходит преобразование извлеченных данных к нужному формату, если это требуется. В случае преодоления капча-фильтра, после того как данные получены, осуществляется решение задачи распознавания образа;
• генерация результата. Завершающий этап парсинга. На нем происходит вывод или запись полученных на втором этапе данных в требуемый формат и передача результата.
2. В случае удачного решения, т. е. выявления скрытого изображения и нахождения ответа, необходимо выделить часть текста, ответственного за передачу результата на сервер, и полученный результат передать через форму непосредственно на сервер, где расположена база данных с ответами. В случае правильного ответа сервер сменит страницу сайта и пропустит программу-посетителя дальше.
Распознавание каждого образа — это создание специального алгоритма распознавания, который базируется на выявленных слабостях конкретной капчи. Ниже приведем пример построения подобного рода алгоритма.
Например, ( www.captcha.ru/breakings/phpbb/):

Довольно слабая CAPTHA: фиксированный шрифт, символы легко отделяются от фона из-за хорошего контраста. Для гарантированного получения только тех пикселей, которые принадлежат надписи, достаточно выбирать пиксели темнее некоторого порога.

увеличиваем контраст и определяем границы массивов черных точек — это и есть знакоместа.
Также слабой стороной является то, что высота расположения символа задана в шрифте, т. е. одинаковые символы будут на одной высоте (правда, при написании алгоритма распознавания это не учитывалось).

Видно, что одинаковые символы всегда на одной высоте.
Распознавание сделать довольно легко путем прямого попиксельного сравнения каждого из символов со шрифтом.
Понятно, что единого универсального алгоритма здесь нет, каждый раз при появлении принципиально нового капча-фильтра первоначально задачу придется решать человеку в виде создания алгоритма распознавания. Однако, несмотря на невозможность создания при сегодняшних технологиях универсального алгоритма, возможно создание универсальных технологий, в которых на определенном этапе используются человеческие возможности.
Делается подобное следующим образом.
Исходные данные:
• сайт № 1, защищенный капча-фильтром, на который надо проникнуть виртуальному специалисту-[ро]боту;
• достаточно раскрученный сайт № 2, который принадлежит владельцу данного виртуального специалиста-[ро]бота.
Решение задачи:
1. Виртуальный специалист-[ро]бот обращается к сайту № 1 и парсит главную страницу, на которой находится капча-фильтр.
2. Виртуальный специалист-[ро]бот выделяет из страницы капча-фильтр и размещает его на подконтрольном сайте № 2.
3. Посетители сайта № 2 благополучно проходят капча-фильтр.
4. Виртуальный специалист-[ро]бот получает результат и передает этот результат главной странице сайта № 1.
Интересный пример сражения роботов с роботами приведен на сайте html:/ /www.omsk777.ru.Видно, что автора публикации война с роботами захлестнула не на шутку, и он описывает достаточно подробно, на уровне языка программирования, все известные ему способы идентификации роботов роботами.
Остановимся на одном достаточно элегантном примере распознавания робота.
Вот таким тегом языка html задается ссылка на страничках сайтов, по которой посетители лихо щелкают «мышкой»:
Здесь Тег указывает адрес перехода с параметрами;
width='1' height='1' — атрибуты тега , которые задают размер картинки с именем файла 'img/bud2.gif при отображении ее в виде значка перехода на экране.
Как видно, размер картинки всего один пиксель. Это означает, что посетитель-человек ее просто не увидит в силу слабости своего восприятия. А робот увидит, ибо он смотрит не на экран, а непосредственно работает с языком разметки. Робот увидит ссылку, но вряд ли подумает, что она специально для него, ибо проверять размер картинки не станет. Он торопится. И он пойдет по ссылке и начнет скачивать приготовленную для него страничку html. Но вот здесь-то его и ждет засада. Автор этого приема с сайта omsk777.ru не поленился и отомстил по полной программе, подготовив для робота маленький архив из нулей, который при разархивировании раздувается до 250 Гб. Мало не покажется. Робот-противник надолго будет занят бессмысленным делом.
Главное, как мы видим, — это узнать противника. А способов наказания существует достаточно много. Можно навесить на врага тяжелые мегабайтные файлы, можно отправить его по ссылке в какое-нибудь отвратительное место, можно загнать его в бесконечный цикл. Правда, противник тоже не полный кретин, он, получив ту или иную ссылку, тут же проверяет, а знакома ли она ему? И только в том случае, если незнакома, идет по этой дороге. Но дело-то в том, что сами ссылки всегда направлены на те или иные имена файлов, а робот-сайт, который готовит ловушку, всегда может менять имена хранимым у него файлам, используя датчик случайных чисел или дату со временем, а затем проставлять эти новые имена в ссылки для одноразового срабатывания. Пришел враг по ссылке, но пока он приходил, в эти самые мгновенья прихода, уже появился новый файл с тем же содержимым, но с другим именем. И это новое имя уже прописано в ссылке и ждет, когда его выберут: «И вечный бой!» И сбежать нельзя, потому что «работа» не закончена [44] Не по таким ли ссылкам ходит вечно проявляющаяся в тварном мире душа человека?
.
Допустим, используя вышеприведенные приемы, виртуальный специалист проник на сайт-объект информационной операции и разместил подготовленный заранее контент. Однако при размещении материалов на чужих ресурсах всегда надо учитывать, что хозяин (модератор) может удалить эти материалы, если они не соответствуют задачам ресурса. Рассмотрим далее способы защиты размещенных материалов от удаления или блокирования доступа к нему.
Читать дальшеИнтервал:
Закладка: