Дейв Тейлор - Сценарии командной оболочки. Linux, OS X и Unix. 2-е издание
- Название:Сценарии командной оболочки. Linux, OS X и Unix. 2-е издание
- Автор:
- Жанр:
- Издательство:Питер
- Год:2017
- Город:СПб.
- ISBN:978-5-496-03029-8
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дейв Тейлор - Сценарии командной оболочки. Linux, OS X и Unix. 2-е издание краткое содержание
Цель этой книги — продемонстрировать практические приемы программирования сценариев на bash и познакомить с самыми распространенными утилитами на коротких и компактных примерах, не вдаваясь в излишние подробности. Экспериментируйте с этими сценариями — ломайте, исправляйте и приспосабливайте их под свои нужды, чтобы понять, как они работают. Только так вы сможете решать самые сложные задачи.
Сценарии командной оболочки. Linux, OS X и Unix. 2-е издание - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
#·· внимание, что изменения определяются по чистому содержимому
#·· (используется флаг −dump, а не −source), поэтому можно не заниматься
#·· парсингом разметки HTML….
lynx −dump "$1" | uniq > $sitearchive/${fname}.new
if [-f "$sitearchive/$fname"]; then
··# Этот сайт просматривался прежде, так что сравним старую и новую
··#·· копии с помощью diff.
··diff $sitearchive/$fname $sitearchive/${fname}.new > $tmpchanges
··if [-s $tmpchanges]; then
····echo "Status: Site $1 has changed since our last check."
··else
····echo "Status: No changes for site $1 since last check."
····rm −f $sitearchive/${fname}.new··# Ничего нового…
····exit 0·························· # Изменений нет, выйти.
··fi
else
··echo "Status: first visit to $1. Copy archived for future analysis."
··mv $sitearchive/${fname}.new $sitearchive/$fname
··chmod $fileperm $sitearchive/$fname
··exit 0
fi
# Сюда сценарий попадает, когда обнаружены изменения и нужно послать
#·· пользователю содержимое файла. new и заменить им старую копию
#·· для следующего вызова сценария.
if ["$2"!= "-"]; then
··(echo "Content-type: text/html"
····echo "From: $fromaddr (Web Site Change Tracker)"
····echo "Subject: Web Site $1 Has Changed"
····echo "To: $2"
····echo ""
····lynx −s — dump $1 | \
····sed −e "s|src=\"|SRC=\"$baseurl|gi" \
········-e "s|href=\"|HREF=\"$baseurl|gi" \
········-e "s|$baseurl\/http:|http:|g"
··) | $sendmail −t
else
··# Вывод различий на экран не кажется хорошим решением.
··#·· Сможете предложить что-то получше?
··diff $sitearchive/$fname $sitearchive/${fname}.new
fi
# Обновить сохраненную копию веб-сайта.
mv $sitearchive/${fname}.new $sitearchive/$fname
chmod 755 $sitearchive/$fname
exit 0
Как это работает
Получив URL и адрес электронной почты, этот сценарий извлекает содержимое веб-страницы и сравнивает его с содержимым сайта, сохраненным при предыдущей проверке. Если сайт изменился, новая страница отправляется по электронной почте указанному адресату после небольших изменений, цель которых — обеспечить работоспособность ссылок на изображения и в атрибутах href. Остановимся подробнее на этих изменениях, начиная со строки .
Команда lynx извлекает исходный код веб-страницы , после чего команда sed вносит в него три разных изменения. Во-первых, все фрагменты SRC=" замещаются фрагментами SRC="baseurl/
, чтобы заменить все относительные пути вида SRC="logo.gif" абсолютными путями, включающими доменное имя, и тем самым обеспечить их работоспособность. Для сайта с доменным именем http://www.intuitive.com/упомянутая выше ссылка примет вид SRC="http://www.intuitive.com/logo.gif". Аналогично изменяются атрибуты href
. Затем, чтобы гарантировать целостность всех ссылок, измененных на предыдущих этапах, выполняется третье изменение, в рамках которого из исходного кода HTML удаляются строки baseurl, если они были добавлены по ошибке
. Например, ссылка HREF="http://www.intuitive.com/http://www.somewhereelse.com/link" явно недействительная, и ее следует исправить.
Обратите также внимание, что адрес получателя указан в команде echo (echo "To: $2"), а не передается команде sendmail как аргумент. Это простая предохранительная мера: передавая адрес команде sendmail во входном потоке (которая знает, что должна извлечь адрес получателя из потока благодаря флагу −t), мы избавляем себя от необходимости беспокоиться о пользователях, любящих поиграть с такими адресами, как "joe;cat /etc/passwd|mail larry". Этот прием демонстрирует безопасный способ вызова sendmail из сценариев командной оболочки.
Запуск сценария
Данный сценарий требует два параметра: URL сайта (для правильной работы сценария должны использоваться полные адреса URL, начинающиеся с http://) и адрес электронной почты (или список адресов, разделенных запятыми), куда следует послать измененную веб-страницу. Или, если хотите, вместо адреса электронной почты можно просто использовать — (дефис), чтобы только вывести на экран результаты сравнения командой diff.
Результаты
Когда сценарий загружает веб-страницу в первый раз, он автоматически посылает ее по указанному адресу, как показано в листинге 7.21.
Листинг 7.21.Первый запуск сценария changetrack
$ changetrack http://www.intuitive.com/ taylor@intuitive.com
Status: first visit to http://www.intuitive.com/. Copy archived for future
analysis.
Все последующие проверки сайта http://www.intuitive.com/будут заканчиваться отправкой копии по электронной почте, только если страница изменится после предыдущего вызова сценария. Это может быть результатом простого исправления единственной опечатки или сложного переоформления всей страницы. С помощью сценария можно следить за изменениями на любых веб-сайтах, но лучше всего, пожалуй, он будет работать с теми, которые обновляются нечасто: если выбрать целью главную страницу BBC News, проверка потребует значительного объема процессорного времени, потому что этот сайт постоянно обновляется.
Если после предыдущего вызова сценария сайт не изменился, при повторном запуске сценарий ничего не выведет и ничего не пошлет указанному адресату:
$ changetrack http://www.intuitive.com/ taylor@intuitive.com
$
Усовершенствование сценария
Очевидный недостаток текущей версии сценария — он поддерживает только ссылки с префиксом http://. То есть он будет отвергать любые веб-страницы, обслуживаемые по протоколу HTTPS. Чтобы добавить поддержку обоих протоколов, необходимо применить несколько не самых простых регулярных выражений, но в целом это возможно!
Другое усовершенствование, которое сделает сценарий более полезным: добавить аргумент, определяющий степень изменений, чтобы пользователи могли указать, что, если изменилась только одна строка, сценарий не должен считать сайт обновившимся. Подсчет изменившихся строк реализуется передачей вывода diff команде wc −l. (Имейте в виду, что для каждой измененной строки diff обычно выводит три строки.)
Этот сценарий можно сделать еще более практичным, если запускать его из ежедневного или еженедельного задания cron. У нас есть подобные сценарии, они запускаются каждую ночь и посылают нам обновившиеся веб-страницы с разных сайтов, за которыми мы установили наблюдение.
Читать дальшеИнтервал:
Закладка: