Лаборатория CreatoR'а - Уроки регулярных выражений #1,2

» Меню сайта

» Разделы новостей

Downloads [4]

Новости о новых утилитах и об изменении существующих в разделе Downloads

Сайт [3]

Новости сайта

Operaтивные новости [0]

Новости касающиеся Opera

» Случайная цитата

Делать то, что ты любишь - свобода. Любить то, что ты делаешь - счастье! [13.06.13]	[Жизненные]
(0)

» Наш опрос

Урок 1. Введение
Урок 2. Шаблоны
Урок 3. Специальные приемы
Урок 4. Практика
Урок 5. Другие RegExp в AutoIt

Замечания, дополнения и исправления приветствуются (здесь)!

Урок 1. Введение.

Уроки ориентированы на новичков, с подробными примерами и комментариями.
Почти во всех языках программирования используются регулярные выражения, у всех языков есть свои нюансы и синтаксис, поэтому все примеры будут писаться только для AutoIt.

Регулярное выражение (RegExp) - это способ сокращенного представления текста с использованием специальных символов.
Думаю все с ними сталкивались при поиске файлов на компьютере: в строке поиска можно набрать *.exe это и есть один из примеров регулярных выражений, под него подходят все имена файлов с расширением exe.

Для чего используют RegExp:

проверка текста на соответствие шаблону
для извлечения информации из текста
для изменения информации в тексте

В AutoIt есть только две стандартные функции для работы с RegExp: StringRegExp и StringRegExpReplace
Далее рассмотрим основное назначение и синтаксис этих функций (синтаксис шаблонов рассмотрен поверхностно, более подробно он будет изучен далее)

StringRegExp
Используется для проверки на соответствие текста шаблону и для извлечения
информации из текста.
Синтаксис.

Код

StringRegExp('test', 'pattern'[, flag ][, offset]])

test - непосредственно текст, над которым производятся действия, может быть одной строкой, пустой строкой, элементом массива, многострочным текстом и т.п. (но не пытайтесь передавать в качестве текста массив - результата не будет)
pattert - шаблон текста, по которому будет работать RegExp
flag (не обязательный) - флаг выполнения RegExp, может иметь значение от 0 до 4, по умолчанию flag=0:
- flag = 0 Возвращает 0 или 1 (False/True) в зависимости от совпадения текста с шаблоном.
  Пример проверяет совпадает ли слово "слон" с шаблоном "с..н" (буква "с", два любых символа, буква "н")
  
  Код
  $sText = 'слон'
  $sPattern = 'с..н'
  If StringRegExp($sText, $sPattern, 0) Then ConsoleWrite('Совпадение!' & @CRLF)
- flag = 1 Возвращает массив совпавших элементов. То есть в массив попадают элементы которые попадают под шаблон.
  Пример выдает совпавшие элементы: "удав" (попадает под шаблон "(.*?)") и "11" (попадает под шаблон "(\d+)").
  
  Код
  $sText = 'удав 11 человек 2 крокодил 4'
  $sPattern = '\s?(.*?)\s(\d+)'
  $aResult = StringRegExp($sText, $sPattern, 1)
  For $i = 0 To UBound($aResult) - 1
  ConsoleWrite($aResult[$i] & @CRLF)
  Next
  
  Расшифровка шаблона: "\s?" - знак пробела в количестве 0 или 1 штук,
  "(.*?)" - скобки означают группа с захватом, ".*" любой символ в количестве, но символ "?" не дает звездочке "съесть" всю строку, а только до появления следующего символа (в нашем случае дальше идет"\s")
  "\s" пробел одна штука
  "(\d+)" - снова группа с захватом, "\d+" - любая цифра в любом количестве, но минимум 1 штука
- flag = 2 Возвращает массив совпавших элементов и полное совпадение с шаблоном. То есть в массив попадают те же элементы, которые были при flag=1, плюс то что попало под весь шаблон целиком.
  Пример выдает совпавшие элементы: "удав 11" (попадает под весь шаблон), "удав" (попадает под шаблон "(.*?)") и "11" (попадает под шаблон "(\d+)").
  
  Код
  $sText = 'удав 11 человек 2 крокодил 4'
  $sPattern = '\s?(.*?)\s(\d+)'
  $aResult = StringRegExp($sText, $sPattern, 2)
  For $i = 0 To UBound($aResult) - 1
  ConsoleWrite($aResult[$i] & @CRLF)
  Next
- flag = 3 Возвращает массив глобально совпавших элементов. То есть в массив попадают элементы которые попадают под шаблон, но после нахождения первого совпадения с шаблоном поиск продолжается.
  Пример выдает совпавшие элементы: "удав", "человек", "крокодил" (попадают под шаблон "(.*?)") и "11", "2", "4" (попадают под шаблон "(\d+)").
  
  Код
  $sText = 'удав 11 человек 2 крокодил 4'
  $sPattern = '\s?(.*?)\s(\d+)'
  $aResult = StringRegExp($sText, $sPattern, 3)
  For $i = 0 To UBound($aResult) - 1
  ConsoleWrite($aResult[$i] & @CRLF)
  Next
- flag = 4 Возвращает массив массивов полного совпадения с шаблоном и совпавших элементов. То есть на выходе мы получаем массив элементами которого будут являться другие массивы.
  Пример выдает массивы совпавших элементов и полное совпадение с шаблоном:
  1 массив - "удав 11", "удав", "11"
  2 массив - " человек 2", "человек", "2"
  3 массив - " крокодил 4", "крокодил", "4".
  
  Код
  $sText = 'удав 11 человек 2 крокодил 4'
  $sPattern = '\s?(.*?)\s(\d+)'
  $aResult = StringRegExp($sText, $sPattern, 4)
  For $i = 0 To UBound($aResult) - 1
    $aTemp = $aResult[$i]
    For $z = 0 To UBound($aTemp) - 1
    ConsoleWrite($aTemp[$z] & @CRLF)
    Next
  Next
Самыми распространенными являются флаги 0 и 3, поскольку при флаге 0 результат менее информативен, в примерах я буду использовать flag=3
offset (не обязательный) - указывает позицию в строке, с которой следует начинать поиск, первый символ в строке равен 1, по умолчанию offset = 1
Пример проверяет соответствие текста шаблону "с", при условии начала поиска со второй буквы, но поскольку в тексте буква "с" встречается только на первой позиции, то выдачи не будет

Код
$sText = 'слон'
$sPattern = 'с'
If StringRegExp($sText, $sPattern, 0, 2) Then ConsoleWrite('Совпадение!' & @CRLF)

StringRegExpReplace
Главным образом используется для изменения информации в тексте, но также может извлекать информацию *с ограничениями (будет рассмотрено ниже)
Синтаксис.

Код

StringRegExpReplace('test', 'pattern', 'replace',[ count])

test и pattern - те же что и в StringRegExp
replace - текст которым нужно заменить удовлетворяющие шаблону элемент/элементы
Пример заменяет в тексте все последовательности цифр на "!!!"

Код
$sText = 'удав 11 человек 2 крокодил 4'
$sPattern = '\d+'
$sResult = StringRegExpReplace($sText, $sPattern, '!!!')
ConsoleWrite($sResult & @CRLF)

Расшифровка шаблона:
"\d+" - любое количество цифровых символов, но не менее 1 штуки

Кроме обычных замен текстом replace поддерживает обратные ссылки (back-reference), то есть может манипулировать найденными по шаблону элементами. Существует ограничение на количество ссылок - максимум 10, обозначение ссылок "$0-$9" или "\0 - \9", обратная ссылка "\0" или "$0" включает в себя полное совпадение с шаблоном
Пример показывает, как используя обратные ссылки производится перестановка слов и чисел местами:

Код
$sText = 'удав 11 человек 2 крокодил 4'
$sPattern = '(\S+)\s(\d+)\s?'
$sResult = StringRegExpReplace($sText, $sPattern, '$2 $1 ')
ConsoleWrite($sResult & @CRLF)

Расшифровка шаблона:
"(\S+)" - группа с захватом (которая будет являться обратной ссылкой "$1") в которую входит любое количество "не пробелов" в количестве минимум 1 штуки
"\s" - пробел
"(\d+)" - группа с захватом (которая будет являться обратной ссылкой "$2") в которую входит любое количество цифр в количестве минимум 1 штуки
"\s?" - пробел в количестве 0 или 1 штуки
На выходе получаем "$2 $1 ", то есть "число" "пробел" "не пробелы" "пробел" и т.д. пока не кончится текст.
Или можно выводить найденные элементы без всяких перестановок.
Пример выводит число, идущее после слова "человек"

Код
$sText = 'удав 11 человек 2 крокодил 4'
$sPattern = '.*?к\s(\d+).*'
$sResult = StringRegExpReplace($sText, $sPattern, '\1')
ConsoleWrite($sResult & @CRLF)

Расшифровка шаблона:
".*?к\s" - любое количество любых символов пока не встретим русскую букву "к" с пробелом после нее "\s"
"(\d+)" - группа с захватом (которая будет являться обратной ссылкой "\1") в которую входит любое количество цифр в количестве минимум 1 штука
".*" - любое количество любых символов (это сочетание "съест" всю строчку до конца)

Важное замечание: при работе с обратными ссылками сразу после ссылки нельзя ставить цифры!, т.к. RegExp будет принимать их за ссылки и некорректно обрабатывать.
Но есть решения для данной ситуации:
1. Нужно заключить цифру ссылки в фигурные скобки.

Код
$sText = 'удав 11 человек 2 крокодил 4'
$sPattern = '(\S+)\s(\d+)\s?'
$sResult = StringRegExpReplace($sText, $sPattern, '2 ')
ConsoleWrite($sResult & @CRLF) ; выдаст неправильный результат

$sText = 'удав 11 человек 2 крокодил 4'
$sPattern = '(\S+)\s(\d+)\s?'
$sResult = StringRegExpReplace($sText, $sPattern, '${1}1$2 ') ; заключим цифру обратной ссылки в фигурные скобки
ConsoleWrite($sResult & @CRLF) ; выдаст нужный результат

Способы 2 и 3 оставлены для истории - они были составлены в те далекие времена, когда еще не было известно о способе 1

Цитата History
2. Добавить сразу после ссылки какой-либо символ (например "#" или "&#&"), а после удалить его любым способом, хоть другим RegExp-ом.
В примере нужно заменить пробелы между словом и числом на цифру "1":

Код
$sText = 'удав 11 человек 2 крокодил 4'
$sPattern = '(\S+)\s(\d+)\s?'
$sResult = StringRegExpReplace($sText, $sPattern, '2 ')
ConsoleWrite($sResult & @CRLF) ; выдаст неправильный результат

$sText = 'удав 11 человек 2 крокодил 4'
$sPattern = '(\S+)\s(\d+)\s?'
$sResult = StringRegExpReplace($sText, $sPattern, '$1&&&1$2 ') ; добавим после $1 три амперсенда
$sResult = StringRegExpReplace($sResult, '&&&', '') ; заменяем все сочетания из трех амперсендов на пусто("")
ConsoleWrite($sResult & @CRLF) ; выдаст нужный результат

3. Дописать в конец текста необходимую цифру и использовать ее через обратные ссылки.
В примере нужно заменить пробелы между словом "человек" и следующим числом на цифру "1":

Код
$sText = 'удав 11 человек 2 крокодил 4'
$sPattern = '(.*?к)\s(.*)'
$sResult = StringRegExpReplace($sText, $sPattern, '2 ')
ConsoleWrite($sResult & @CRLF) ; выдаст неправильный результат

$sText = 'удав 11 человек 2 крокодил 4'
$sPattern = '(.*?к)\s(.*)(\d)' ; меняем шаблон
$sResult = StringRegExpReplace($sText & '1', $sPattern, '03$2 ') ; дописываем к тексту "1"
ConsoleWrite($sResult & @CRLF) ; выдаст нужный результат

Расшифровка шаблона:
"(.*?к)" - группа с захватом (которая станет обратной ссылкой "$1"): любое количество любых символов пока не встретим русскую букву "к"
"\s" - пробел
"(.*)" - группа с захватом (которая будет являться обратной ссылкой "$2") в которую входит любое количество любых символов ("съедает" всю строку, но после возвращает один символ в следующую группу)
"(\d)" - группа с захватом (которая будет являться обратной ссылкой "$3") цифра как последний символ в строке (в нашем случае это "1")
Последнее решение работает только для полного шаблона. (Для данного примера не получится заменить все пробелы)
count (не обязательный) - количество замен, которые нужно сделать, по умолчанию count = 0, т.е. совершить глобальные (все возможные) замены в тексте

Урок 2. Шаблоны

Элементы шаблона
Шаблон для RegExp состоит из обычных и специальных символов.
К обычным символам (литералам)относятся:
1. буквенные символы - русский и английский алфавиты
2. цифровые символы - 0 1 2 3 4 5 6 7 8 9
3. некоторые нелитеральные символы

Код

# % = , < > ! ` ~ @ & - _ / ; : " '

Фигурные/полукруглые скобки "{" "}" , могут использоваться как спец символ для обозначения повтора (будет рассмотрено ниже)
"н{15}" - совпадает с повторением символа "н" ровно 15 раз
"н{15t}" - совпадает со строчкой вида "н{15t}"
К специальным символам (метасимволам)относятся:

Код

. ^ $ \ ( ) [ ] * + ? { } |

Любой символ обозначает себя самого, если это не метасимвол.

Метасимволы