Что можно приготовить из кальмаров: быстро и вкусно

Приведём несколько примеров регулярных выражений.

карова - очевидно, шаблон, под который подходит слово карова;

\b(shift|unshift|pop|push|splice)\b - любое из перечисленных слов;

^\s+ - один или несколько пробелов или знаков табуляции, стоящих в начале строки.

В регулярных выражениях алфавитно-цифровые символы обычно обозначают сами себя. Например, шаблон Hello указывает искать символ H , за которым следует e , затем l и т. д.

Точка терпит неудачу, когда двигатель достигнет пустоты после окончания строки. Двигатель помнит, что плюс повторял точку чаще, чем требуется. Вместо того, чтобы допускать отказ, двигатель отступит. Это уменьшит повторение плюса на единицу, а затем продолжит пробовать оставшуюся часть регулярного выражения.

Опять же, они не могут совпадать, в результате чего движок будет отступать дальше. Общий матч до сих пор сводится к первому типу. Последний токен в регулярном выражении сопоставлен. Двигатель сообщает, что первый был успешно согласован. Помните, что движок регулярных выражений хочет вернуть совпадение. Он не будет продолжать отступать дальше, чтобы увидеть, есть ли другое возможное совпадение. Он сообщит о первом действительном совпадении, которое он находит. Из-за жадности это самый левый самый длинный матч.

Если символ трудно или неудобно задать буквально, можно использовать уже известные нам литералы: \n , \t и другие. Это означает, что знак \ , входящий в регулярное выражение, уже не может обозначать сам себя, поскольку он меняет смысл следующего за ним символа: в частности, буква n , вместе с предшествующим знаком бэкслэш обозначает символ конца строки. Если требуется включить в шаблон знак \ как таковой, следует использовать литерал \\ .

Лень вместо жадности

Быстрое решение этой проблемы - сделать плюс ленивым, а не жадным. Ленивые квантификаторы иногда также называются «негритяными» или «неохотными». Вы можете сделать это, поставив знак вопроса после плюса в регулярном выражении. Вы можете сделать то же самое со звездой, фигурными фигурными скобками и вопросительным знаком. Давайте еще раз взглянем внутри двигателя регулярных выражений.

Следующий токен - это точка, на этот раз повторяемая ленивым плюсом. Это говорит двигателю регулярного выражения повторять точку как можно меньше. Опять же, двигатель отступит. Но на этот раз откат приведет к тому, что ленивый плюс будет расширяться, а не уменьшит его охват. Двигатель сообщает, что он был успешно согласован. В этом случае есть лучший вариант, чем плюс плюс ленивый. Причина, по которой это лучше, - это откат. Вы не заметите разницы при выполнении одного поиска в текстовом редакторе.

Имеются и другие символы, которые в шаблонах получают особый смысл вместо того, чтобы обозначать самих себя. Такие символы называются метасимволами . Приведём несколько примеров метасимволов, не указывая пока их особый смысл (список не является исчерпывающим): \.-(){}?*+^$| .

Некоторые символы оказываются метасимволами не всегда, а только тогда, когда попадают в определённый контекст. У некоторых метасимволов в зависимости от контекста оказывается разный смысл.

Только обратные ссылки, ориентированные на регулярные выражения, возвращаются. Текстовые режимы не нажимают и, таким образом, не получают штраф за скорость. Но они также не поддерживают ленивых квантификаторов. Экранированные символы рассматриваются как отдельные символы. Повторяется только звездочка. Этот сайт просто спас вас от поездки в книжный магазин? Пожалуйста, поддержите этот сайт, и вы получите всю жизнь без рекламы на этом сайте!

Что такое регулярное выражение?

Однако для работы с регулярными выражениями вам нужно знать некоторые основы, которые обобщены на этой странице. Компиляция разделена на следующие разделы, к которым вы можете перейти непосредственно. Использование регулярного выражения соответствует поиску, который может быть более общим, чем обычный поиск. Но что, если вы хотите найти все сообщения с большой буквы? Или вы используете регулярные выражения. В нем можно найти любую дату, любой адрес электронной почты или что угодно.

Если нужно вставить в регулярное выражение метасимвол, лишив его особого смысла, его следует защитить (экранировать ), поставив перед ним бэкслэш. Например, знак плюса в регулярное выражение вставляется как \+ .

Шаблон обозначает один из символов, перечисленных в квадратных скобках. Если, к примеру, нас интересует слово Hello , неважно, с большой или маленькой буквы, шаблон будет таким: ello . Вот шаблон, обозначающий маленькую гласную букву английского алфавита: . Ещё один пример - символьный класс, состоящий из обеих квадратных скобок: [\[\]] .

Вы узнаете, как это сделать в этой компиляции. Областями применения являются, например, программы обработки текста, такие как текстовый конвертер, где можно удалить, заменить или продолжить работу с текстами, например, изменить формат даты или любой адрес электронной почты текста в ссылку изменить. Обычный поиск должен был знать здесь все возможности, что почти невозможно. В этой таблице вы найдете наиболее важные условные обозначения и символы, а также их значения. Все остальные символы обычно могут использоваться как таковые.

Если вы хотите попробовать и попробовать регулярные выражения на этой странице, вы можете сделать это с помощью программы преобразования текста. Откройте любой текстовый файл и в правом столбце нажмите «Найти и заменить», а затем выберите Регулярные выражения в поле «Поиск». Уже вы можете вводить любые регулярные выражения в поле и экспериментировать с их эффектом.

Если символьный класс включает символы, идущие подряд в кодовой таблице, достаточно указать первый и последний символы, вставив между ними дефис. К примеру, класс, обозначающий любую десятичную цифру, можно задать как . Буква английского алфавита обозначается как (здесь мы полагаемся на тот факт, что в любой кодовой таблице заглавные и маленькие английские буквы идут непрерывными блоками в алфавитном порядке; однако блок маленьких букв не следует сразу за блоком заглавных).

Для описания ситуаций, когда повторяются одиночные буквы или целые классы символов, существует ряд метасимволов. Помимо самоопределенного выбора символов в квадратных скобках существуют некоторые предопределенные классы символов, которые могут сделать регулярные выражения короче и яснее.

Группировка и обратные ссылки

Скобки позволяют группировать некоторые символы, например, для применения оператора ко всем символам. В примерах показаны некоторые возможности и приложения, которые вы должны использовать в программе, например, в текстовом конвертере. Поведение регулярных выражений может быть изменено модификаторами. Тем не менее, также возможно использовать другие модификаторы для каждого выражения или даже применять модификаторы только к частям выражения. Вы узнаете, как это сделать во второй части этого раздела.

Можно определить символьный класс, состоящий из всех символов за исключением перечисленных - так называемое отрицание символьного класса . Для этого сразу за открывающей квадратной скобкой перед перечислением вставляется знак циркумфлекса ^ . Любой символ, не являющийся цифрой, можно обозначить как [^0-9] .

В текстовом конвертере могут быть изменены следующие модификаторы. Это делает регулярные выражения более читабельными, но вы должны добавить пробелы с символом \\, если он не находится в выборе символа.

Если этот модификатор активирован, точка найдена. все символы, включая пробелы.
Если модификатор активен, все эти выражения ведут себя нормально.
Если модификатор не активен, регулярные выражения не являются жадными.

Если вы хотите, чтобы модификатор применялся только к регулярному выражению или даже к части выражения, вы можете использовать следующие варианты написания для модификации модификаторов.

Для некоторых популярных классов символов есть специальные обозначения:

При успешном сопоставлении строки с регулярным выражением каждому символу или символьному классу в шаблоне соответствует какой-то символ в строке. Но имеются конструкции, которые обозначают не наличие определённого символа, а определённое (пустое) место в строке. Такие конструкции называются привязками , или анкерами

Исходный набор строк

Часто возникает вопрос, как ведут себя регулярные выражения и любые символы Юникода, например, китайские символы или символы из кириллического или греческого алфавита. Однако в представленном здесь текстовом конвертере это отличается. Следующие примеры показывают, как это работает и как вы можете выбирать символы.

Маленькая историческая справка

Благодаря знаниям, полученным на этой странице, вы можете сами писать любые регулярные выражения, комбинируя эти правила по своему усмотрению. В качестве примера можно привести следующее регулярное выражение, которое можно использовать для поиска любого адреса электронной почты из текста.

Наиболее часто используемые анкеры - привязка к началу (^) и концу ($) строки. Привязка к началу строки должна помещаться в начале шаблона, а привязка к концу - в конце.

Например, к шаблону ^анти подходят такие слова русского языка, как антидот, антисемитизм или античастица. Без привязки также подошли бы строки, не начанающиеся с «анти-», но содержащие это буквосочетание внутри, например, меркантилизм. Для поиска слов, заканчивающихся на «-ться» нужен шаблон ться$ (мы уверены почти на 100%, что все такие слова - это возвратные глаголы в инфинитиве). Ничто не мешает применять в шаблоне обе эти привязки.

Эта группа символов соответствует элементу «имя» в адресе электронной почты. Так как точка является метасимволом, она превращается в нормальный символ через \\. Группа символов для домена может содержать любое число, но хотя бы один из символов, группа символов для конца домена должна содержать не менее 2, но не более 4 символов. Используя регулярное выражение в примере, вы найдете адреса электронной почты в тексте. Но как вы можете работать с регулярным выражением? Например, в программе, такой как текстовый конвертер.

Здесь, в разделе «Заменить текст», вы можете выбрать опцию «интерпретировать как регулярное выражение» под полями и искать и заменять ее прямо на регулярные выражения. Если вы используете наш пример, вы можете ввести текст, чтобы заменить найденный адрес в тексте. Здесь также можно использовать регулярное выражение. Например, используйте следующие регулярные выражения.

Другой полезный анкер - привязка к границе между словами \b . Он соответствует месту в строке, находящемуся между символами, один из которых принадлежит классу \w , а другой - \W (в любом порядке). Эта привязка может соответствовать также началу или концу строки (в этом случае считается, что срока как бы окружена воображаемыми символами из класса \W).

Связанный адрес электронной почты связан как ссылка. Однако выражение в поле поиска должно быть сначала заключено в круглую скобку. Таким образом, скобки могут охватывать любые области поискового запроса, что позволяет другим областям приложений. Возьмем, например, следующую комбинацию.

Это приведет к поиску адреса электронной почты, который может содержать любые другие символы вокруг вас. Будет найден весь текст, включая адрес электронной почты. Теперь это заменяется только диапазоном в скобках, поэтому только адрес электронной почты. Это позволит извлечь адрес электронной почты из текста.

Если мы ищем фрагмент, который должен подойти под один из нескольких шаблонов, нужно перечислить эти шаблоны, разделив вертикальной чертой | . Например, понедельник|вторник|среда|четверг|пятница|суббота|воскресенье. Для того, чтобы сделать список альтернатив самостоятельной единицей и отделить от соседних, его нужно заключить в скобки. Например, шаблон Уважаем(ый|ая) означает строку Уважаем, за которой следует одна из строк ый или ая. Без скобок шаблон Уважаемый|ая обозначал бы одну из строк Уважаемый или ая. У скобок имеется важное побочное действие, о котором будет сказано в разделе «Группировка и захват» .

Программное обеспечение для регулярного выражения

Это используется для поиска текста перед словом «поиск», а также текста, который появляется после слова. Что бы сделать это регулярное выражение было бы проще. Однако, если вы слегка измените это выражение, вы можете, например, покрыть разные варианты написания слова или создать другие, гораздо более сложные шаблоны поиска. Текстовый конвертер позволяет искать текстовые файлы для регулярных выражений, заменять регулярные выражения текстом или другими выражениями, удалять найденные тексты или отделять текстовые файлы от регулярного выражения и сохранять их как один файл.

Для того, чтобы указать, сколько раз может повторяться шаблон, после него ставят так называемые квантификаторы (от латинского слова quantum - сколько):

Квантификаторы * , + и? являются избыточными, поскольку они могут быть выражены иначе с помощью фигурных скобок. А именно, * равносилен {0,} , + равносилен {1,} , а? - то же самое, что и {0,1} . Но данные квантификаторы очень часто используются, и этим заслужили отдельных обозначений.

Первые проблемы - и их решения

Конечно, с этой программой также возможно повторное использование найденных выражений в другом месте. Чтобы понять этот текст, поскольку это подразумевается, мы хотим принять некоторые меры для предотвращения возможных неправильных толкований. В этот момент вступает в игру так называемое «ускользание», которое знакомо многим приложениям в области информатики: особое значение имеет особое значение. Если «\\» помещается непосредственно перед символом из буквенного алфавита, оно - если применимо - имеет особое значение.

Если шаблон, к которому применяется квантификатор, представляет из себя нечто более сложное, чем просто единичный символ или класс символов, его нужно заключить в круглые скобки.

Вот несколько примеров:

^\d+$ - последовательность из одной или нескольких десятичных цифр (шаблон для целых неотрицательных чисел в десятичной записи);

Ниже приведен пример. До сих пор мы очень мало относились к очень маленьким литературным произведениям. Первое, что мы хотим внедрить в наши услуги. - точка. Чтобы все стало более комфортным, все же есть некоторые расширения, которые следует упомянуть.

С одной стороны, можно указать целые «диапазоны», т.е. «Диапазоны» допустимых символов, в выражении скобки. Но это не все так важно. Существует также возможность отрицать совпадение выражения скобки, просто записывая ^ непосредственно после открытой скобки. Особенно внимательные читатели, вероятно, заметили два незначительных несоответствия, как в случае выражений в скобках: как, например, можно ли совместить символы ^ или - внутри одного?

^\-?\d+$ - то же самое, но для всех (возможно, отрицательных) целых чисел;

^\-?(\d+(\.\d*)?|\.\d+)$ - шаблон для вещественных чисел;

Разберём последний пример подробнее. Помимо необязательного минуса в начале, в шаблоне присутствует группа с двумя альтернативами: \d+(\.\d*)? и \.\d+ . Первая альтернатива включает обязательную целую часть \d+ (как минимум одна цифра), и следующую за ней необязательную дробную (\.\d*)? . В дробной части, если она есть, имеется десятичная точка, и, возможно, несколько цифр. Таким образом, этой альтернативе соответствуют строки 15 , 15. , 15.487 . Другая альтернатива нужна для строк вида.618 с отсутствующей целой частью - во многих компьютерных языках эта запись имеет право на существование.

Поскольку ^ уже так долго занимал нас в предыдущем абзаце, давайте также уточним второй особый смысл. Более требовательным является уже, «Плюс», который «должен быть составлен как минимум 1 раз». Начнем с разделения частей строки, поздоровайтесь с красивым миром. Даже если тот или иной не хочет подписывать это заявление, мы хотим его усилить. Эта команда возвращает раздел из указанной строки. Смещение задает, сколько символов мы начинаем после начала. В примере мы имеем два приложения части Функция -Стринги.

Всегда необходимо указать переменную и смещение; без указания длины, подложка удаляется из указанного положения до конца. На самом деле, мы хотим конвертировать слова, а не только буквы, поэтому нам придется распознавать границы слов. Специальные символы в регулярных выражениях.

Если простейшие элементы регулярного выражения - символы, символьные классы и анкеры, записываются подряд, это означает, что при поиске в строке по шаблону эти элементы будут сопоставляться с частями строки последовательно, в той же последовательности. Этот порядок нарушается, если применяются альтернативы. Можно представлять себе, что составное регулярное выражение составляется из простейших при помощи двух операций: последовательного соединения (композиции ) и альтернативы. Композиция - аналог операции умножения в арифметике. Альтернатива - аналог сложения. Первое сходство с арифметикой состоит в том, что операция альтернативы имеет более низкий приоритет, чем композиция, поэтому могут потребоваться скобки для группировки, как в примере Уважаем(ый|ая) .

	Примечание
Многие, хотя и не все, законы арифметики действуют и для регулярных выражений: коммутативность альтернативы x \| y = y \| x ; ассоциативность альтернативы x \| y \| z = x \| y \| z ; ассоциативность композиции x ⁣ y ⁣ z = x ⁣ y ⁣ z ; дистрибутивность альтернативы относительно композиции (левая и правая) x ⁣ y \| z = x ⁣ y \| x ⁣ z , x \| y ⁣ z = x ⁣ z \| y ⁣ z . В этой странной арифметике регулярных выражений не имеет место закон коммутативности для композиции. Кроме того, отсутствует аналог нуля из-за очевидного соотношения x \| x = x . Роль единицы (правой и левой) для композиции выполняет пустой шаблон (обозначим его 𝟙): 𝟙 ⁣ x = x ⁣ 𝟙 = x . Квантификаторы вида { n } играют роль возведения в n -ю степень.

Примечание

Многие, хотя и не все, законы арифметики действуют и для регулярных выражений:

коммутативность альтернативы x | y = y | x ; ассоциативность альтернативы x | y | z = x | y | z ; ассоциативность композиции x ⁣ y ⁣ z = x ⁣ y ⁣ z ; дистрибутивность альтернативы относительно композиции (левая и правая) x ⁣ y | z = x ⁣ y | x ⁣ z , x | y ⁣ z = x ⁣ z | y ⁣ z .

В этой странной арифметике регулярных выражений не имеет место закон коммутативности для композиции. Кроме того, отсутствует аналог нуля из-за очевидного соотношения x | x = x . Роль единицы (правой и левой) для композиции выполняет пустой шаблон (обозначим его 𝟙): 𝟙 ⁣ x = x ⁣ 𝟙 = x . Квантификаторы вида { n } играют роль возведения в n -ю степень.

Помимо группировочной функции скобки выполняют функцию захвата. Главным результатом сопоставления строки с шаблоном является ответ на вопрос: подходит ли строка под шаблон? Но, кроме того, часто бывает нужно определить, какой фрагмент или фрагменты строки подошли к тем или иным фрагментам в регулярном выражении.

А, может быть, этилендиамин- N N N ′ N ′ -тетрауксусной кислоты?

Рассмотрим пример, в котором в тексте отыскиваются упоминания различных кислот. Наши школьные воспоминания из химии навели нас на мысль, что названия кислот оканчиваются или на вая, или на ная, или на тая, а затем, после пробела, следует слово кислота. Составляем шаблон: \S+[внт]ая кислота. Сопоставляем с шаблоном текст. Удача! Но, спрашивается, упоминание какой именно кислоты нашлось в тексте? Соляной? Серной? Азотной? Плавиковой? Хлорной? Хлорноватой? Хлорноватистой? Лимонной? Синильной? Дезоксирибонуклеиновой?

Вот здесь пригодится захват. Ту часть шаблона, который, по нашему замыслу, должен соответствовать названию, заключим в скобки: (\S+[внт]ая) кислота. Тогда машина, найдя в тексте упоминание кислоты, сохранит её название (то, что соответствует заключённому в скобки фрагменту шаблона) в специальной переменной - буфере захвата

Регулярное выражение может содержать несколько групп захвата. Такие группы могут не только следовать друг за другом, но и вкладываться одна в другую. Иными словами, регулярное выражение должно быть сбалансировано по отношению к круглым скобкам в том же смысле, какой обсуждался в главе 23. «Проверка баланса скобок » (конечно, это относится только к круглым скобкам, служащим цели группировки и захвата; скобки, которым предшествует бэкслэш, не сказываются на балансе групп). При успешном поиске каждая группа захватит какую-то часть текста: первая - в первый буфер, вторая - во второй, и так далее. Как же нумеруются группы в случае, когда они вложены друг в друга? Нумерация идёт в том порядке, в каком появляются открывающие скобки:

2 4 5 ┝┑ ┝┑┝┑ (()(()())) │ ┝━━━━┙│ │ 3 │ ┝━━━━━━━━┙ 1

При желании группу можно исключить из нумерации, то есть лишить её «захватнической» функции, оставив только группирующую. Для этого вместо ограничителей группы (⋯) используем (?: ⋯) . Здесь вопросительный знак не обозначает квантификатор, поскольку квантификатору должны предшествовать либо символ, либо символьный класс, либо группа.

Использование нумерованных групп захвата не всегда удобно, особенно в больших регулярных выражениях. Стоит только вставить в шаблон новую группу захвата, как нумерация сбивается. Тогда придётся во всех местах в программе, где происходит обращение к буферам захвата по номерам, вносить исправления. Но можно связать с группой имя, которое позволит обратиться к соответствующему буферу по этому имени. Для создания именованной группы используются ограничители (? ⋯) , где вместо name подставляется нужное имя.

Захваченные в буферы части строки могут использоваться двумя путями. Во-первых, программа, использующая регулярное выражение для поиска или замены, может обратиться к буферам как к специальным переменным. О таком использовании речь пойдёт в разделе «Операторы поиска и замены» . Вторая возможность предусматривает использование ссылок на группы прямо в регулярном выражении, см. раздел «Обратные ссылки» .

Рассмотрим задачу поиска слов, содержащих три одинаковые гласных буквы подряд. Наивное решение [аеёиоуэюя]{3} , использующее квантификаторы, не будет работать, поскольку такому шаблону соответствуют строки с тремя подряд идущими гласными, но необязательно одинаковыми. Чудовищное решение с полным перечислением альтернатив, ааа|еее|ёёё|иии|ооо|ууу|эээ|ююю|яяя, мы с негодованием отвергаем: ведь стоит взять другой, более обширный символьный класс, или заменить тройку в квантификаторе на большее значение, как размер шаблона катастрофически вырастет.

Тем не менее возможно элегантное решение, использующее группы захвата. Захватим гласную в группу, а затем сошлёмся на содержимое буфера захвата. Ссылки на первый, второй, третий буферы записываются в регулярном выражении как \g1 , \g2 , \g3 . Итак, решением будет шаблон ([аеёиоуэюя])\g1{2} . Обратите внимание, что ссылка на буфер захвата должна следовать в регулярном выражении строго после соответствующей группы.

Обратные ссылки могут ссылаться не только на нумерованные буферы, но и на именованные. Такие ссылки имеют вид \k , где, опять же таки, вместо name стоит конкретное имя. Наш пример можно переписать, применяя именованные группы: (?[аеёиоуэюя])\k{2} (vowel - гласная).

Иногда возникает необходимость в поиске, при котором не делается отличий между строчными и прописными буквами. Такой поиск называется нечуствительным к регистру (case-insensitive ). Вместо того, чтобы всюду в шаблоне заменять буквы на двухбуквенные классы (a → , b → , …), Просто заключим шаблон в специальную группу, включающую режим case-insensitive поиска: (?i: ⋯) . Такая группа не является группой захвата. Если case-insensitive поиск должен быть реализован только в части регулярного выражения, в группу следует поместить только нужную часть.

Наоборот, если какая-то часть регулярного выражения, в которой осуществляется case-insensitive поиск, нуждается в отключении этого режина, то вернуться к обычному, case-sensitive поиску можно, используя группу (?-i: ⋯).

Режимы чувствительности/нечуствительности к регистру влияют лишь на буквы. Что считается буквой, а что нет, зависит от языка, как и правила соответсвия между прописными и строчными буквами. С точки зрения английского языка, например, буквой не является символ Щ. В немецком языке имеется буква ß (между прочим, заглавный вариант этой буквы состоит из двух букв SS: Carl Friedrich Gauß → CARL FRIEDRICH GAUSS).

На статью меня натолкнула очередная просьба помочь составить регулярное выражение. Хотя на самом-то деле ничего в них сложного нет и стоит только раз в них разобраться, как потом уже никаких трудностей они вызывать не будут. Поэтому в данной статье я по быстрому пробегусь по основному синтаксису и постараюсь подробно разобрать несколько выражений. Если хотите больше информации — рекомендую к прочтению Фридла «Регулярные выражения». Все мои знания в данной области были почерпнуты именно оттуда.

Синтаксис регулярных выражений

Итак, для начала нам нужно знать что собой представляет синтаксис регулярных выражений.

. — любой единичный символ: цифра, символ, буква любого алфавита.

— любой символ из числа заключённых в скобки. будет соответствовать a или b или с. Но только одна. Можете представлять себе эти квадратные скобки как ящик с игрушками, из которого можно вытащить только одну. Чтобы не перечислять все «игрушки» поименно, можно задать интервал: — это будет соответствовать одной букве из латинского алфавита в нижнем регистре. Если нужен символ «-«, то он будет восприниматься только если он стоит сразу после или перед закрывающей скобкой: или [-abc]. Если нам нужны символы «[» или «]», достаточно, чтобы закрывающая скобка была первым символом после открывающей: соответствует «]», «[», «a» или «b».

[^ ] — любой единичный символ, из тех, которого нет в скобках. По аналогии с ящиком игрушек — можно взять любую игрушку, которая находится не в ящике. Например, [^abc] соответствует любому символу, кроме «a», «b» или «c».

^ — Начало текста или строки.

$ — конец текста или строки.

* — Звёздочка после выражения указывает на то, что мы хотим найти ноль или более вхождений этого выражения. Ну или разрешает взять из ящика с игрушками ноль или более игрушек. Т.е. без звездочки мы обязаны взять ровно одну игрушку, а со звездочкой, если ничего не нравится, вообще не брать или если нравится — взять больше одной. Например, «*» соответствует пустой строке, «x», «y», «zx», «zyx», и т. д.

+ — аналогичен *, но в отличии от нее требует ходя бы одно вхождение. Т.е. в любом случае хоть одну игрушку мы точно вытащим из ящика, но если хочется больше то никто возражать не будет.

? — Делает предыдущий символ или группу необязательной. Другими словами, в соответствующей строке она может отсутствовать, либо присутствовать ровно один раз.

| — Разделяет альтернативные варианты регулярных выражений. Например a|b означает что должно быть вхождение либо символа «а», либо «b».

{x,y} — Соответствует последнему блоку, встречающемуся не менее x и не более y раз. Например, «a{3,5}» соответствует «aaa», «aaaa» или «aaaaa». В отличие от других операторов, этот (в традиционном синтаксисе) требует бэкслеша.

() — Простая группа с захватом. Используется для группировки выражений. И бонусом может запоминать свой результат. Вещь весьма полезная, чтобы в последствии обращаться к такому результату через $n, где n — порядковый номер скобок.

На самом деле синтаксис намного богаче, и для представления всей картины желательно ознакомиться с книгой Фридла.

Что делать, если нам надо найти символ «.»? Если просто написать. — то будет найден любой символ, который может быть точкой, а может и не быть. в таком случае нам поможет метасимвол «\», который часто называют экранированием. Т.е. если нам понадобиться найти точку, то такому поиску будет соответствовать выражение: «\.»

«Жадные» выражения

*, +, {n,} — являются «жадными», т.е. они захватят все, до чего смогут дотянуться. Например, часто ожидают, что выражение (<.*>) найдёт в тексте теги HTML. Однако этому выражению соответствует целиком строка:

Википедия - свободная энциклопедия, в которой каждый может изменить или дополнить любую статью

Чтобы отучить их от жадности, используются небольшие дополнения:

*? — «не жадный» («ленивый») эквивалент *

+? — «не жадный» («ленивый») эквивалент +

{n,}? — «не жадный» («ленивый») эквивалент {n,}

Существуют так же «сверхжадные» эквиваленты всех трех приведенных символов, но пока что еще ни разу мне не потребовались. Проблемы с излишней жадностью возникают чаще, чем проблемы с их » плохим аппетитом».

Стоит отметить что стандартов регулярных выражений достаточно много, чтобы в один далеко не прекрасный момент обнаружить что проверенное временем выражение не работает из-за каких-то особенностей реализации в данной функции. В таком случае только идти и читать документацию. Но, как правило, такое встречается весьма редко и если опираться на стандарт POSIX — проблем не возникает. В данном руководстве все выражения приводятся в POSIX формате.

Построение выражений.

Ну, а теперь давайте попробуем построить парочку выражений для лучшего понимания.

Пример 1.

Для примера возьмем поиск файлов ошибок: 404.html, 502.html и т.п. по папкам сайта. Практическая польза в том, что таких файлов может быть много и находиться они могут где угодно.

Практиковаться будем на find с параметром -regex. Можно и через -iname искать, но мы тут учим регулярные выражения в конце концов. А для того чтоб все работало как надо, и не возникало никаких неприятных сюрпризов, укажем тип регулярных выражений явно: -regextype posix-egrep.

Итак, строчка уже должна выглядеть как

find /var/www/html/Joomla_2.5/ -regextype posix-egrep -regex »

А вот теперь самое время составить наше первое регулярное выражение. Во-первых, чтобы что-то найти, надо знать что будем искать. Т.к. ищем страницы сообщений об ошибках, то наверняка нам встретятся 404, 403, 502, 500. Вот и напишем выражение удовлетворяющее им всем. А для этого сначала смотрим что общего и выписываем это:

Имя файла начинается либо с 4, либо с 5
далее идет 0
затем одна цифра из множества 0,2,3,4
потом будет «.»
за точкой следует буква h
затем t
затем m
затем l

Как видите формальное описание получилось весьма подробное. И это хорошо, легче составлять выражение. Ну, и, собственно, составляем:

Из первого пункта запишем (4|5). Скобки отмечают что оператору | надо выбирать только из этих двух значений.
Из второго пункта «0» так и остается нулем
Из третьего . Это множество можно расширить, если нам вдруг потребуется находить более экзотические ошибки, например 401 или 508, следующим образом:
Четвертый пункт: «\.». Помните про экранирование?.
5-8 — аналогично 2.

Теперь записываем все это в строку:

(4|5)0\.html

Однако, если вдруг подставить это в нашу строку с find — работать не будет. По причине того что -regex у find работает весьма интересным образом (Ага, тот самый случай, когда надо залезть в документацию, или на stackoverflow). Если не вдаваться в подробности, то сложилось такое чувство, что find сравнивает с заданным шаблоном не имя конкретного файла, а полный путь до файла включая имя. В таком случае нам требуется пункт 0.

0. Все что угодно, пока не находим что-либо из п1. А все что угодно это «.*»

Т.о. получаем конечный вид выражения

.*(4|5)0\.html

И наша строка поиска приобретет вид:

find /var/www/html/Joomla_2.5/ -regextype posix-egrep -regex ‘.*(4|5)0\.html’

Кстати символы «()» воспринимаются легче, не как «Простая группа с захватом.», а как некий эквивалент математическим скобкам.

Трудно? На самом деле не так уж и сложно, как казалось в самом начале. Простейшая логика

Пример 2.

А давайте теперь найдем в той же папке все файлы, которые начинаются с «.». Например.htaccess, .htpasswd, .map, .save. Два последних, чтоб жизнь медом не казалась. Для проверки стоит их создать и поместить куда-либо в тестовую папку.

Все так же пишем:

Первый символ «.»
Затем набор букв из латинского алфавита.

Запись выглядит еще проще, чем в прошлый раз.

Ну вот и записываем:

«\.» — это нашли точку
«+» — это «один и более символов»

В результате получаем регулярное выражение:

\.+

Не забывая про особенности -regex пишем нашу строку:

find /var/www/html/Joomla_2.5/ -regextype posix-egrep -regex ‘.*\.+’

Запускаем поиск… И что мы видим? Интересный список всех файлов с расширениями. Почему все, а не только те что нам нужны? А потому что они, как ни странно, удовлетворяют полностью нашему шаблону. И вот тут наступает тот самый момент, когда надо более пристально посмотреть на то, что ищем, и выяснить, чем оно отличается от того, что получили.

/var/www/html/Joomla_2.5/tmp/test_theme/html/index.html

/var/www/html/Joomla_2.5/tmp/test_theme/favicon.ico

/var/www/html/Joomla_2.5/tmp/.save

/var/www/html/Joomla_2.5/.htaccess

Видите, что не учли при составлении? Имя файла начинается с точки ТОЛЬКО следом за символом «/». Исправляем наше выражение:

/\.+

Ну, и запускаем поиск с исправленным шаблоном:

find /var/www/html/Joomla_2.5/ -regextype posix-egrep -regex ‘.*/\.+’

Теперь находим именно то, что нам нужно. Ура!