Дейв Тейлор - Сценарии командной оболочки. Linux, OS X и Unix. 2-е издание
- Название:Сценарии командной оболочки. Linux, OS X и Unix. 2-е издание
- Автор:
- Жанр:
- Издательство:Питер
- Год:2017
- Город:СПб.
- ISBN:978-5-496-03029-8
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дейв Тейлор - Сценарии командной оболочки. Linux, OS X и Unix. 2-е издание краткое содержание
Цель этой книги — продемонстрировать практические приемы программирования сценариев на bash и познакомить с самыми распространенными утилитами на коротких и компактных примерах, не вдаваясь в излишние подробности. Экспериментируйте с этими сценариями — ломайте, исправляйте и приспосабливайте их под свои нужды, чтобы понять, как они работают. Только так вы сможете решать самые сложные задачи.
Сценарии командной оболочки. Linux, OS X и Unix. 2-е издание - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Этот блок извлекает из журнала значение поля 11, отфильтровывает записи, относящиеся к текущему хосту, а также содержащие "-" (значение, передаваемое веб-браузерами, в которых включена блокировка передачи ссылочной информации). Полученные результаты передаются той же последовательности команд −sort|uniq −c|sort −rn|head -10, чтобы получить десяток самых активных ссылающихся доменов.
Запуск сценария
Чтобы запустить этот сценарий, передайте ему единственный аргумент с именем файла журнала Apache (или другого веб-сервера, поддерживающего обобщенный формат журналирования).
Результаты
Результаты обработки этим сценарием типичного файла журнала содержат много полезной информации, как можно видеть в листинге 10.2.
Листинг 10.2.Результаты обработки журнала access_log веб-сервера Apache с помощью webaccess
$ webaccess /web/logs/intuitive/access_log
Results of analyzing log file access_log
··Start date:··01/May/2016 at 07:04:49
····End date:··04/May/2016 at 01:39:04
········Hits:··7,839 (total accesses)
··Pageviews:·· 2,308 (hits minus graphics)
Transferred:·· 25,928,872,755 bytes
The 10 most popular pages were:
266
118 /CsharpVulnJson.ova
··92 /favicon.ico
··86 /robots.txt
··57 /software
··53 /css/style.css
··29 /2015/07/01/advanced-afl-usage.html
··24 /opendiagnostics/index.php/OpenDiagnostics_Live_CD
··20 /CsharpVulnSoap.ova
··15 /content/opendiagnostics-live-cd
The 10 most common referrer URLs were:
108 "https://www.vulnhub.com/entry/csharp-vulnjson,134/#"
··33 "http://volatileminds.net/2015/07/01/advanced-afl-usage.html"
··32 "http://volatileminds.net/"
··15 "http://www.volatileminds.net/"
··14 "http://volatileminds.net/2015/06/29/basic-afl-usage.html"
··13 "https://www.google.com/"
··10 "http://livecdlist.com/opendiagnostics-live-cd/"
··10 "http://keywords-monitoring.com/try.php?u=http://volatileminds.net"
·· 8 "http://www.volatileminds.net/index.php/OpenDiagnostics_Live_CD"
·· 8 "http://www.volatileminds.net/blog/"
Усовершенствование сценария
Одна из проблем, возникающих при анализе файлов журналов веб-сервера Apache, обусловлена тем, что часто на одну и ту же страницу ссылаются два разных URL; например, /custer/ и /custer/index.html . Блок определения десяти наиболее популярных страниц должен учитывать это. Преобразование, выполняемое командой sed, уже гарантирует, что /custer и /custer/ не будут интерпретироваться как разные URL, но определить имя файла по умолчанию для данного каталога может оказаться сложной задачей (особенно если это имя определяется специальными настройками в конфигурации веб-сервера).
Информацию о десятке самых активных ссылающихся доменов можно сделать еще более полезной, если оставить в ссылающихся адресах URL только базовое имя домена (например, slashdot.org ). Сценарий № 74 идет в этом направлении чуть дальше и анализирует дополнительную информацию, доступную в поле ссылающегося домена. В следующий раз, когда весь десяток самых активных ссылающихся доменов будет заполнен ссылками на slashdot.org , вы не сможете оправдаться незнанием!
№ 74. Трафик поисковых систем
Сценарий № 73 предлагает широкий обзор запросов некоторых поисковых систем к вашему сайту, но дальнейший анализ может показать не только какие из этих систем способствуют увеличению потока посетителей, но также какие ключевые слова они вводили в строке поиска. Полученная информация поможет определить, насколько точно ваш сайт индексируется поисковыми системами. Более того, опираясь на полученные данные, вы сможете повысить ранг и релевантность вашего сайта в поисковых системах. Однако, как упоминалось выше, эта дополнительная информация постепенно признается недопустимой разработчиками Apache и веб-браузеров. В листинге 10.3 приводится сценарий командной оболочки, извлекающий ее из журналов Apache.
Код
Листинг 10.3.Сценарий searchinfo
··#!/bin/bash
··# searchinfo — извлекает и анализирует трафик поисковых систем, указанных
··#·· в поле с информацией о ссылающихся доменах, в обобщенном формате
··#·· журналирования.
··host="intuitive.com"·· # Замените именем своего домена.
··maxmatches=20
··count=0
··temp="/tmp/$(basename $0).$$"
··trap "$(which rm) −f $temp" 0
··if [$# −eq 0]; then
····echo "Usage: $(basename $0) logfile" >&2
····exit 1
··fi
··if [! -r "$1"]; then
····echo "Error: can't open file $1 for analysis." >&2
····exit 1
··fi
··for URL in $(awk '{ if (length($11) > 4) { print $11 } }' "$1" | \
····grep −vE "(/www.$host|/$host)" | grep '?')
··do
····searchengine="$(echo $URL | cut −f— f3 | rev | cut −d. -f1-2 | rev)"
····args="$(echo $URL | cut −d\? -f2 | tr '&' '\n' | \
······grep −E '(^q=|^sid=|^p=|query=|item=|ask=|name=|topic=)' | \
······sed −e 's/+/ /g' −e 's/%20/ /g' −e 's/"//g' | cut −d= −f2)"
····if [! -z "$args"]; then
······echo "${searchengine}: $args" >> $temp
····else
······# Запрос неизвестного формата, показать всю строку GET…
······echo "${searchengine} $(echo $URL | cut −d\? -f2)" >> $temp
····fi
····count="$(($count + 1))"
··done
··echo "Search engine referrer info extracted from ${1}:"
··sort $temp | uniq −c | sort −rn | head −$maxmatches | sed 's/^/ /g'
··echo ""
··echo Scanned $count entries in log file out of $(wc −l < "$1") total.
··exit 0
Как это работает
Главный цикл for в этом сценарии извлекает все записи из файла журнала, имеющие допустимое значение в поле со ссылающимся доменом: строку длиной более четырех символов, не совпадающую с содержимым переменной $host и знаком вопроса (?), указывающим, что пользователь выполнял поиск.
Далее сценарий пытается идентифицировать имя ссылающегося домена и строку поиска, введенную пользователем . Исследования сотен поисковых запросов показывают, что типичные поисковые сайты используют небольшое количество переменных с известными именами. Например, в случае с Yahoo! строка поиска будет содержать переменную со строкой поиска p= шаблон . Google и MSN используют переменную с именем q. Команда grep проверяет присутствие p, q и других распространенных имен поисковых переменных.
Команда sed очищает извлеченные строки поиска, замещая + и %20 пробелами и убирая кавычки, а команда cut возвращает все, что следует за первым знаком «равно». Иными словами, код возвращает только искомую строку, которую ввел пользователь.
Условный блок, следующий сразу за этими строками, проверяет переменную args. Если она ничего не содержит (то есть если запрос имеет неизвестный формат) — использовалась неизвестная нам поисковая система, поэтому выводится весь запрос целиком, а не только искомая строка.
Читать дальшеИнтервал:
Закладка: