Марейн Хавербеке - Выразительный JavaScript
- Название:Выразительный JavaScript
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:неизвестен
- ISBN:978-1593275846
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Марейн Хавербеке - Выразительный JavaScript краткое содержание
В процессе чтения вы познакомитесь с основами программирования и, в частности, языка JavaScript, а также выполните несколько небольших проектов. Один из самых интересных проектов — создание своего языка программирования.
Выразительный JavaScript - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Свойство lastIndex
Метод exec тоже не даёт удобного способа начать поиск с заданной позиции в строке. Но неудобный способ даёт.
У объекта регулярок есть свойства. Одно из них – source
, содержащее строку. Ещё одно – lastIndex
, контролирующее, в некоторых условиях, где начнётся следующий поиск вхождений.
Эти условия включают необходимость присутствия глобальной опции g
, и то, что поиск должен идти с применением метода exec
. Более разумным решением было бы просто допустить дополнительный аргумент для передачи в exec
, но разумность – не основополагающая черта в интерфейсе регулярок JavaScript.
var pattern = /y/g;
pattern.lastIndex = 3;
var match = pattern.exec("xyzzy");
console.log(match.index);
// → 4
console.log(pattern.lastIndex);
// → 5
Если поиск был успешным, вызов exec
обновляет свойство lastIndex
, чтобы оно указывало на позицию после найденного вхождения. Если успеха не было, lastIndex
устанавливается в ноль – как и lastIndex
у только что созданного объекта.
При использовании глобальной переменной-регулярки и нескольких вызовов exec
эти автоматические обновления lastIndex
могут привести к проблемам. Ваша регулярка может начать поиск с позиции, оставшейся с предыдущего вызова.
var digit = /\d/g;
console.log(digit.exec("here it is: 1"));
// → ["1"]
console.log(digit.exec("and now: 1"));
// → null
Ещё один интересный эффект опции g
в том, что она меняет работу метода match
. Когда он вызывается с этой опцией, вместо возврата массива, похожего на результат работы exec
, он находит все вхождения шаблона в строке и возвращает массив из найденных подстрок.
console.log("Банан".match(/ан/g));
// → ["ан", "ан"]
Так что поосторожнее с глобальными переменными-регулярками. В случаях, когда они необходимы – вызовы replace
или места, где вы специально используете lastIndex
– пожалуй и все случаи, в которых их следует применять.
Циклы по вхождениям
Типичная задача – пройти по всем вхождениям шаблона в строку так, чтобы иметь доступ к объекту match
в теле цикла, используя lastIndex
и exec
.
var input = "Строчка с 3 числами в ней... 42 и 88.";
var number = /\b(\d+)\b/g;
var match;
while (match = number.exec(input))
console.log("Нашёл ", match[1], " на ", match.index);
// → Нашёл 3 на 10
// Нашёл 42 на 29
// Нашёл 88 на 34
Используется тот факт, что значением присвоения является присваиваемое значение. Используя конструкцию match = re.exec(input)
в качестве условия в цикле while
, мы производим поиск в начале каждой итерации, сохраняем результат в переменной, и заканчиваем цикл, когда все совпадения найдены.
Разбор INI файлы
В заключение главы рассмотрим задачу с использованием регулярок. Представьте, что мы пишем программу, собирающую сведения о наших врагах через интернет в автоматическом режиме. (Всю программу писать не будем, только ту часть, которая читает файл с настройками. Извините.) Файл выглядит так:
searchengine=http://www.google.com/search?q=$1
spitefulness=9.7
; перед комментариями ставится точка с запятой
; каждая секция относится к отдельному врагу
[larry]
fullname=Larry Doe
type=бычара из детсада
website=http://www.geocities.com/CapeCanaveral/11451
[gargamel]
fullname=Gargamel
type=злой волшебник
outputdir=/home/marijn/enemies/gargamel
Точный формат файла (который довольно широко используется, и обычно называется INI), следующий:
• Пустые строки и строки, начинающиеся с точки с запятой, игнорируются.
• Строки, заключённые в квадратные скобки, начинают новую секцию.
• Строки, содержащие алфавитно-цифровой идентификатор, за которым следует =
, добавляют настройку в данной секции.
• Всё остальное – неверные данные.
Наша задача – преобразовать такую строку в массив объектов, каждый со свойством name
и массивом настроек. Для каждой секции нужен один объект, и ещё один – для глобальных настроек сверху файла.
Так как файл надо разбирать построчно, неплохо начать с разбиения файла на строки. Для этого в главе 6 мы использовали string.split("\n")
. Некоторые операционки используют для перевода строки не один символ \n
, а два — \r\n
. Так как метод split
принимает регулярки в качестве аргумента, мы можем делить линии при помощи выражения /\r?\n/
, разрешающего и одиночные \n
и \r\n
между строками.
function parseINI(string) {
// Начнём с объекта, содержащего настройки верхнего уровня
var currentSection = {name: null, fields: []};
var categories = [currentSection];
string.split(/\r?\n/).forEach(function(line) {
var match;
if (/^\s*(;.*)?$/.test(line)) {
return;
} else if (match = line.match(/^\[(.*)\]$/)) {
currentSection = {name: match[1], fields: []};
categories.push(currentSection);
} else if (match = line.match(/^(\w+)=(.*)$/)) {
currentSection.fields.push({name: match[1],
value: match[2]});
} else {
throw new Error("Строчка '" + line + "' содержит неверные данные.");
}
});
return categories;
}
Код проходит все строки, обновляя объект текущей секции (current section). Сначала он проверяет, можно ли игнорировать строчку, при помощи регулярки /^\s(;.)?$/
. Соображаете, как это работает? Часть между скобок совпадает с комментариями, а ?
делает так, что регулярка совпадёт и со строчками, состоящими из одних пробелов.
Если строка – не комментарий, код проверяет, начинает ли она новую секцию. Если да, он создаёт новый объект для текущей секции, к которому добавляются последующие настройки.
Последняя осмысленная возможность – строка является обычной настройкой, и в этом случае она добавляется к текущему объекту.
Если ни один вариант не сработал, функция выдаёт ошибку.
Заметьте, как частое использование ^
и $
заботится о том, что выражение совпадает со всей строкой целиком, а не с частью. Если их не использовать, код в целом будет работать, но иногда будет выдавать странные результаты, и такую ошибку будет трудно отследить.
Конструкция if (match = string.match(...))
похожа на трюк, использующий присвоение как условие в цикле while
. Часто вы не уверены, что вызов match
будет успешным, поэтому вы можете получить доступ к результирующему объекту только внутри блока if
, который это проверяет. Чтобы не разбивать красивую цепочку проверок if
, мы присваиваем результат поиска переменной, и сразу используем это присвоение как проверку.
Международные символы
Из-за изначально простой реализации языка, и последующей фиксации такой реализации «в граните», регулярки JavaScript тупят с символами, не встречающимися в английском языке. К примеру, символ «буквы» с точки зрения регулярок JavaScript, может быть одним из 26 букв английского алфавита, и почему-то ещё подчёркиванием. Буквы типа é или β, однозначно являющиеся буквами, не совпадают с \w
(и совпадут с \W
, то есть с не-буквой).
Интервал:
Закладка: