Языки программирования Лекция 7

Восходящие методы синтаксического анализа Пример. Дана грамматика: S  aABe , A  Abc , A b, Bd . Терминальная цепочка: abbcde. Свертка цепочки: abbcde, aAbcde, aAde, aABe, S. Последовательность вывода: S S a A a A b b e d e B A a B c d e a A b c d e a b b c d e Грамматики предшествования Разбора грамматик простого предшествования – это анализ, между какими парами символов могут лежать левые и правые границы связки. В итоге это сводится к анализу следующих трёх бинарных отношений между символами (отношений предшествования):     XY          связка X Y       XY       связка  X Y          XY     связка X Y 1). X   Y – если X может стоять перед левой границей связки, начинающейся с Y (т.е. X может свернуться позже, чем Y); формально: X   Y  (A  aXM  R) : M  Y .  2). X  Y – если оба символа могут стоять рядом внутри связи, а потому могут свернуться одновременно; формально:  X  Y  (A  aXY  R) . 3). X   Y – если X может стоять последним в связке, а его сосед не принадлежит связке (т.е. X может свернуться раньше, чем Y); формально: X   Y  (A  aMX  R) : M  Y . Вывод. Если для каждой пары символов грамматики существует не более одного отношения предшествования, то в любой промежуточной цепочке вывода границы связки определяются однозначно. Замечание. Для анализа отношений предшествования обычно в грамматику добавляется новый начальный нетерминал S', новый терминал #, и новую продукцию S ' # S # . Пример. Дана грамматика: S ' # S # , S  a, S  aT , S  [S ] T b, T  bT Пример вывода: S '  # S #  #[ S ]#  #[aT ]#  #[abT ]#  #[abb]# Рассмотрим отношение   . Для этого просмотрим все правые части всех правил, в которых идёт терминал, а за ним нетерминал. Это правила: S '  # S # , S  aT , S  [S ] , T  bT . Смотрим, на какие терминалы могут начаться строки, выводимые из соответствующих нетерминалов, т.е. анализируем их множества FIRST: FIRST (S) = { a, [ }. FIRST (T) = { b }. S T [ ] a b [  S T # # ] a            b       Рассмотрим отношение   . Для этого просмотрим все правые части всех правил, в которых идёт нетерминал, а за ним терминал. Это правила: S ' # S # , S  [S ] . Смотрим, какими символами (терминальными и нетерминальными) могут заканчиваться строки, выводимые из соответствующих нетерминалов (в нашем случае S), т.е. анализируем их множества LAST: LAST (S) = {a, T, b, [}. S T [ ] a b [  S T # # ] a                  b         Например, для цепочки #[abb]# получаем следующие отношения предшествования: #   [   a   b   b   ]   # . В данном случае, очевидно второе вхождение b является связкой, а потому её надо свернуть к T. Далее:  #  [  a b T  ] #  #  [  a T  ] #   #  [  S  ] #   # S  # S Весь разбор реализуется с помощью стека, в котором хранится начало ещё не свёрнутой цепочки до текущего анализируемого символа. В стеке элементы находятся между собой в отношении   , а  самые верхние могут в отношении  . Если между символами нет отношения, значит здесь ошибка. Определение. КС-грамматика называется грамматикой предшествования, если: 1). Она не содержит  -правил. 2). Она не содержит разных правил с одинаковыми правыми частями. 3). Для каждой пары символов существует не более одного отношения предшествования. Замечание. В грамматике предшествования требуется, чтобы правые части всех правил были разные, иначе может быть не ясно, к какому нетерминалу надо сворачивать связку. Вывод. На практике метод мало применяется, т.к. очень мало грамматик можно впихнуть в рамки грамматик предшествования. Грамматики предшествования изучают больше из теоретических соображений, т.к. метод их разбора прост и ясен, но не более! LR(k)-грамматики LR(k)-грамматики – это наиболее широкий класс КС-грамматик, допускающих эффективный восходящий детерминированный разбор. Это наиболее распространённый класс грамматик, для которого строятся промышленные компиляторы. При поиске самой левой сворачиваемой связки, в отличие от грамматик предшествования, учитывается информация не только о парах соседних символах, но и о обо всей просмотренной слева до связки части входной цепочки. Определение. Ситуацией (помеченной продукцией) называется запись вида  A    ;   , где большая точка указывает позицию (точку просмотра) внутри продукции A   , (  и  – две части продукции, возможно пустые), а  – правый контекст длиной k. Текущее состояние LR(k)-анализатора обозначается множеством возможных ситуаций, которое конечно. Т.е. LR(k)-анализатор можно смоделировать конечным автоматом. LR(k)- анализатор LR(k) означает: • входная цепочка обрабатывается слева направо • выполняется правый вывод • не более k символов цепочки для принятия решения Доступные операции: • перенос ("shift") - Символы входной цепочки переносятся в магазин • свертка ("reduce") - Замена извлекаемой цепочки из магазина на нетерминал (в правой части – цепочка) Управляющая программа анализатора • Управляющая программа одинакова для всех LRанализаторов • Рассматривается пара: sm – текущее состояние на вершине магазина, ai – текущий входной символ; после этого вычисляется action [sm, ai]: 1. shift s, где s – состояние, 2. свертка по правилу A–>β, 3. допуск (accept) 4. ошибка. LR(0)-грамматики Пример. Пусть дана грамматика: S ' # S # , S  aSc , S  b . В начале разбора текущее состояние анализатора – это ситуация S '  # S # . После попадания в заключительное состояние автомата необходимо выполнить свёртку, а затем начать разбор новой свёрнутой цепочки этим же автоматом с самого начала цепочки. q0 S '  # S # # q1 q2 S ' #S # S S ' # S # S  aSc S  b q5 a S  aSc S  b # S  b b q6 S S  aS  c S ' # S # q4 b S  a  Sc a q3 q7 c S  aSc  LR(k)-грамматики Пример. Пусть дана грамматика: S ' # S # , S  aSc , S   . Если мы попытаемся построить LR(0)-анализатор, то получим уже во втором состоянии конфликтную ситуацию: q0 S '  # S # q1 # S ' #S # S  aSc S  Здесь во втором состоянии не ясно, что нужно делать в зависимости от следующего символа, т.к. имеется ситуация S   . Вывод. Эта грамматика не является LR(0)-грамматикой. Более того, любая грамматика с  -правилами не является LR(0)грамматикой! Основная идея LR(k)-анализа заключается в добавлении к каждой ситуации правого контекста – следующих k символов, которые могут идти после нетерминала в левой части ситуации. Определение. Контекст – это цепочка длиной k из терминальный символов, в котором может находиться данная продукция A   в текущем выводе. В начале разбора текущее состояние LR(k)-анализатора – это ситуация  S '  # S # ;$ k  . q0 S '  # S # ;$ # q1 q2 S ' #S # ;$ S S  aSc; # S ' # S # ;$ S  ; # q3 # a S  ; c q7 c a S  a  Sc; c S a S  aSc; c S  ; c # c S ' # S #;$ $ [редукция 0] # [редукция 1] c [редукция 1] [редукция 2] q5 S  a  Sc; # S S  aSc; c q4 S  aS  c; # q6 c S  aSc; # [редукция 2] q8 q9 S  aS  c; c c S  aSc; c [редукция 2] Главный недостаток LR(k)-анализаторов – это большая громоздкость. Например, LR(1)-анализатор для простого языка типа классического Pascal содержит многие тысячи состояний. SLR(k)-грамматики и LALR(k)грамматики Главный недостаток LR(k)-анализаторов – это громоздкость почти для всех практически важных языков. Идея заключается в том, чтобы анализ контекста выполняеть только в случае возникновения коллизий. Именно это и делает в SLR(k)-грамматиках (simple) и LALR(k)-грамматиках (look-ahead). Их общая идея: строится обычный LR(0)-анализатор, а в случае конфликтов начинают локально анализировать контекст. В SLR(k)-грамматиках при появлении ситуации  A    просто анализируется, какие терминальные цепочки длины k могут идти после A во всех возможных промежуточных цепочках вывода. В LALR(k)-анализируется контекст конфликтных ситуаций и предшествующие им ситуации. Множество LALR(k)-грамматик покрывает все SLR(k)-грамматики. Неоднозначные грамматики. Конфликты «перенос-свертка» Вопрос неоднозначности становится особенно важным в процессе построения управляющей таблицы анализатора LR(k)-языка, так как неоднозначность грамматики приводит к конфликтам при построении таблицы. Пример. Пусть дана грамматика G1, имеющая следующий набор правил: (1) stmt → if expr then stmt (2) stmt → if expr then stmt else stmt (3) stmt → other , где other мы используем для обозначения других операторов. Имеется следующая входная цепочка: if E1 then if E2 then S1 else S2. Неоднозначные грамматики. Конфликты «перенос-свертка» Имеется следующая входная цепочка: if E1 then if E2 then S1 else S2. Содержимое стека Необработанная часть входной цепочки Действие $ if E1 then if E2 then S1 else S2 shift $if E1 then if E2 then S1 else S2 shift $ if E1 then if E2 then S1 else S2 shift $ if E1 then if E2 then S1 else S2 shift $ if E1 then if E2 then S1 else S2 shift $ if E1 then if E2 then S1 else S2 shift $ if E1 then if E2 then S1 else S2 shift $ if E1 then if E2 then S1 else S2 shift Следующий шаг - две альтернативы: (а) применить свертку по правилу 1 к последовательности if E2 then S1 на вершине стека (б) перенести символ else на вершину стека. Разрешение конфликта перенос-свертка Вариант 1: (1) stmt → matched_stmt (2) stmt → unmatched_stmt (3) matched_stmt → if expr then matched_stmt else matched_stmt (4) matched_stmt → Other (5) unmatched_stmt → if expr then stmt (6) unmatched_stmt → if expr then matched_stmt else unmatched_stmt Новая грамматика порождает тот же язык, что и старая, но вывод цепочки if E1 then if E2 then S1 else S2 теперь не содержит конфликтов. Вариант 2: Соглашение, что в случае конфликта перенос-свертка, перенос приоритетен Содержимое стека Необработанная часть входной цепочки Действие $ if E1 then if E2 then S1 else S2 Shift $ if E1 then if E2 then S1 else reduce [2] $ if E1 then S1 reduce [1] $ Неоднозначные грамматики. Конфликт перенос-перенос Пример. Рассмотрим грамматику G2 ('id', '(', ')', '=' и ',' – терминалы). (1) stmt → id (parameters_list) (2) stmt → expr = expr (3) parameter_list → parameter_list, parameter (4) parameter_list → Parameter (5) parameter → id (6) expr → id (expr_list) (7) expr → id (8) expr_list → expr_list, expr (9) expr_list → Expr Содержимое стека Необработанная часть входной цепочки Действие $ id (id, id) shift $ id (id, id) shift $ id ( id, id) shift $ id (id , id) shift

Языки программирования Лекция 7

Похожие документы

Разделы

Поддержка

Языки программирования Лекция 7

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib