Языки программирования Лекция 3

Языки и грамматики • • • • • • • Языки Грамматики Грамматики Хомского Иерархия грамматик Хомского Окрестные грамматики Регулярные выражения Нотация Бэкуса-Наура Языки Определение. Конечное множество объектов называется словарём. Словарь обычно обозначают как V. Определение. Элементы словаря будем называть символами. Символы будем обозначать малыми латинскими буквами (a, b, c,…). Пример. V  {a, b, c} . Определение. Цепочкой символов над словарём называется произвольная конечная последовательность символов словаря. Цепочки будем обозначать малыми греческими буквами (α, β, γ,…). Пустую цепочку (цепочку нулевой длины) будем обозначать ε (иногда обозначают λ). Пример. Если V  {a, b, c} , то можно обозначить   aabc,   ccc . Определение. Множество всех возможных цепочек составленных из символов словаря V, включая и пустую цепочку, обозначается как V*. Также обозначим V   V * {} . Пример. Если V  {a, b} , то V *  {, a, b, aa, ab, bb, ba, aaa,...}. Определение. Цепочка из n повторяющихся символов a, обозначается как a n , причём a 0   . Пример. a 4  aaaa . Определение. Операция конкатенации (склеивания цепочек) определяется на множестве цепочек V* как последовательное соединение символов этих цепочек. В общем случае эта операция не коммутативна. Для пустой цепочки: a  a  a . Определение. Языком L над словарём V называется произвольное множество цепочек над этим словарём, т.е. L  V * . Пример. Примеры языков. 1. V1  {a, b}, L1  {aaa , aabb , abba , baab} . Язык состоит только из четырех цепочек. 2. V2  {a, b}, L2  {a n b n | n  0} . Язык состоит из бесконечного числа цепочек, состоящих из двух частей одинаковой длины. 3. V3  {a, b, c}, L3  {a n bc m | n  0, m  0} . 4. V4  {a, b}, L4  { | в цепочке  число вхождений a и b равно} . 5. V5  {(, ),,,,, i}, L5  правильные арифметические выражения с операндами i. 6. V6  {слова русского языка}, L6  русский язык. 7. V7  {a,b,c,…,0,1,…,begin,end,for,…}, L7  язык Паскаль. Грамматики Определение. Грамматикой называется любой конечный механизм задания языка. Два способа задания языков: 1. Конечное множество правил порождения за конечное число шагов правильных цепочек, причём эти правила не позволяют построить никакую цепочку, не принадлежащую языку. 2. Задание механизма распознавания, который получив в качестве аргумента любую конечную цепочку над словарём V, за конченое число шагов даёт ответ, принадлежит ли эта цепочка определяемому языку или нет. В соответствии с этим бывает два типа грамматик: порождающие и распознающие. Грамматики (по способу задания языка) • Распознающие грамматики – определение принадлежности входящей цепочки языку; • Порождающие грамматики – генерация цепочек по требованию; • Перечисляющие грамматики – последовательное перечисление цепочек языка. Грамматики Хомского Определение. Порождающей грамматикой Хомского G называется четвёрка объектов: G  (T , N , S , R) , где T – конечное непустое множество (терминальный словарь). Элементы множества T называются терминальными символами; N – конечное непустое множество (нетерминальный словарь), причём N  T   . Элементы множества N называются нетерминальными символами; S – выделенный элемент нетерминального словаря (начальный символ): SN ; R – конечное непустое множество правил (продукций) вида    , где α и β – цепочки над словарём N  T . Определение. Из цепочки α непосредственно выводима цепочка β (обозначается    ), если эти цепочки можно представить в виде    (мю, тау, ню),   (мю, кси, ню) и существует продукция    . ), Определение. Из цепочки α выводима цепочка β (обозначается   * если существуют цепочки   0 , 1 ,..., n  , n  0 такие, что i 1  i , i  1, n . Пример. G1  ({a, b, c},{S , A, B}, S , R) , где R  {S  aSbAc, aS  bbAc, bAc  B, SbA  , B  b}. Примеры вывода в этой грамматике: S  aSbAc  ac , S  aSbAc  bbAcbAc  bbAcB  bBB  bbB  bbb . Или аналогично: S  *ac , S  *bbb . Заметим, грамматика Хомского не предписывает определённый единственный вывод, т.е. не задаёт алгоритм порождения. Здесь отсутствует важнейший элемент алгоритма – его детерменированность – определённая последовательность действий. Определение. Языком, порождаемым грамматикой G, называется множество терминальных цепочек, выводимых из начального символа грамматики: L(G)  {  T * | S  *} . Пример. Попробуем понять, какой язык описывается грамматикой G1 . Вывод начинается с нетерминала S. По первому правилу S можно заменять многократно, получая промежуточные цепочки вида a n S (bAc ) n . Далее для удаления нетерминала S мы используем второе или четвертое правила, получив: 1. S  *a n S (bAc ) n  a n1aS (bAc ) n  a n1bbAc (bAc ) n  *a n1b n2 . 2. S  *a n S (bAc ) n  a n SbAc (bAc ) n1  a n c(bAc ) n1  *a n cB n1  *a n cb n1 . Итого L(G1 )  {a n1b n 2 , a n cb n1 | n  0} . Определение. Две грамматики называются эквивалентными, если они порождают один и тот же язык. Вообще любой язык может быть порождён бесконечным числом грамматик! V4  {a, b}, Пример. Построим грамматику для языка L4  { | в цепочке  число вхождений a и b равно} . Можно сделать такую грамматику: S  aSb | ; ab  ba . Но в такой грамматике нельзя представить цепочки языка в форме дерева вывода. Для этого в левой части продукций должен стоять только один нетерминал. Поэтому альтернативно можно сделать такую контекстно-свободную грамматику: S  aB | bA | ; B  bS | aBB; A  aS | bAA . V5  {a, b, c} , Пример. Построим грамматику для языка L5  {a nb n c n | n  0} . Оказывается, для такого языка не существует контекстно-свободных грамматик, но есть например такая: G5 : S  aSBC | abC ; CB  BC ; bB  bb; cC  cc . Идея этой грамматики в том, что нетерминалы B и C можно будет заменять на терминалы только когда они займут требуемое место в выводимой цепочке, а для этого нужен контекст. Иерархия грамматик Хомского Тип 0 Вид правил   ,    1 A   2 A  3 A  aB | a |  Название грамматики Свободные (неограниченные) Контекстно-зависимые (грамматики непосредственных составляющих). Совпадает с классом неукорачивающих грамматик Контекстносвободные Автоматные (регулярные) Распознающие устройства Машины Тьюринга Линейно-ограниченные автоматы Автоматы с магазинной памятью Конечные автоматы Теорема об отношениях между грамматиками Теорема. Существует строгое вложение как классов грамматик Хомского: 3  2  1  0 (готические буквы I), так и порождаемых ими языков: L3  L2  L1  L0 . Пример. Доказано, что язык L2  {a n b n | n  0} является КС-языком, но его нельзя породить никакой автоматной грамматикой. Доказано, что язык L5  {a nb n c n | n  0} является контекстно-зависимым, но его нельзя породить никакой контекстно-свободной грамматикой Окрестностные грамматики Определение: Набор окрестностей определенных для каждого символа алфавита языка образуют грамматику. «Окрестность» — конечное число заданных для каждого символа языка цепочек, содержащих данный символ (центр окрестности) внутри. Пример: A = {a+a, a+a+a, a+a+a+a,...} окрестности «a»: #a+, +a+, +a# «+»: a+a Регулярные выражения Определение. Регулярными выражениями над словарём V называются конструкции следующего вида: 1. a, a V (любой символ словаря). 2. ε – пустая строка. 3. (a  b) (объединение), где a и b – регулярные выражения. (a  b) – объединение языков, определяемых регулярными выражениями a и b. 4. (ab) (конкатенация), где a и b – регулярные выражения. (ab) – определяет язык, состоящий из строк вида xy, где x – строка из языка L(a ) , а y – строка из языка L(b) . 5. a * (замыкание Клини), где a – регулярное выражение. a * – определяет язык, состоящий из строк вида , s1 , s1 s 2 , s1 s 2 s3 ,..., где si – любая строка из языка L(a ) . Т.к. объединение и конкатенация являются ассоциативными операциями, то многочисленные скобки ставить не обязательно. На практике обычно используется два основных синтаксиса задания выражений: устаревший POSIX и современный «перловский» – PerlCompatible Regular Expression (PCRE). Нотация Бэкуса-Наура Нотация Бэкуса – Наура (БНФ-нотация) исторически являлась предшественницей нотацией грамматик Хомского. БНФ-нотация является просто альтернативной (более удобной) формой описания КС-грамматик: 1. Нетерминалы описываются в угловых скобках. 2. Вместо стрелки  используется последовательность символов ::= 3. В правой части альтернативы перечисляются через знак | 4. Фигурные скобки описывают альтернативы из 0 или более повторений. 5. Квадратные скобки описывают опцию – необязательный элемент. Бывает БНФ и расширенная БНФ. Расширенная нотация Бэкуса-Наура • Правила: идентификатор = выражение. • Выражения: – Конкатенация A = BC. – Выбор A = B|C|D. – Условное вхождение A = [B]. – Повторение A = {B}. – Группировка A = (B|C)(D|E). • Пример. БНФ. <digit> ::= 0|1|2|3|4|5|6|7|8|9 <integer-constant> ::= [+|–]<digit>{<digit>} <variable-declaration-part> ::= var <variable-declaration> {; <variable-declaration>} <ident> ::= <letter> {<letter> <digit>} • Пример. Расширенная БНФ. digit = ‘0’|‘1’|‘2’|‘3’|‘4’|‘5’|‘6’|‘7’|‘8’|‘9’ integer-constant = [‘+’|‘–’] digit {digit} variable-declaration-part = ‘var’ variable-declaration {; variable-declaration} ident = letter {letter digit} Синтаксическая диаграмма

Языки программирования Лекция 3

Related documents

Products

Support

Языки программирования Лекция 3

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib