Вестник ЧитГУ № 5 (62) 2010 УДК 811.111 Богословская Инна Валентиновна Inna Bogoslovskaya АЛГОРИТМ ПОСТРОЕНИЯ ФОРМУЛЫ СЛОЖНОСТИ ПОНИМАНИЯ НАУЧНОПОПУЛЯРНОГО ТЕКСТА ALGORITHM OF SCIENTIFIC TEXT COMPLEXITY FORMULA DEVELOPMENT Обосновывается актуальность создания формулы сложности понимания текста, определяются компоненты сложности глубинного уровня, предлагается алгоритм построения формулы This paper gives proof of the urgency of the text complexity formula development. It describes the components of the text complexity and offers the formula development algorithm Ключевые слова: формализация, имплицитная и эксплицитная информация, денотатный граф, компоненты сложности глубинного уровня Key words: formalization, explicit and implicit information, denotation graph, complexity components of deep level П Формула создается на основе однотипных текстов и применяется для вычисления сложности любых текстов одного жанра и направленности [2]. В данном исследовании объектом формализации стал текст с рядом специфических свойств, которые отличают его от других объектов формализации – научно-популярный текст технического характера. Первый этап. Выявление компонентов сложности. Подробный лингвистический анализ текста позволяет выявить сложности, влияющие на успешность понимания текста. Сложность текста, выявленная исследователем, должна быть подтверждена читателем, поскольку, если данный вид сложности не вызывает трудности понимания, то он таковым и не является. Следовательно, после лингвистического анализа необходимо проведение психолингвистического исследования. В результате выполненной экспериментальной работы выявлен ряд семантических критериев сложности понимания научно-популярного текста. Во-первых, следует принять во внимание важность функционального разделения информации. Первый тип информации – новое знание, позволяющее изменить пре- араметры формул, используемые при оценке текста и отраженные в формулах, описаны в работах Р. Андерсона, А. Дэвисона, Е. Бейкера, Н. Атвуда, Т. Даффи, Б. Брюса и А. Рубина, а также в работах Я.А. Микка. Они касаются, главным образом, процесса восприятия, во многом связанного с обработкой сенсорной, перцептивной информации. Эти параметры релевантны для разных видов текста в том числе и для научно-популярного. Они относятся к поверхностной структуре текста, к ее дискретным единицам и практически не затрагивают другие уровни его организации, связанные со смысловой структурой. Процесс понимания текста не находит в них отражение, он не сводится к анализу отдельных слов и предложений. Мы полагаем, что на глубинном уровне также имеются компоненты сложности, играющие роль в успехе понимания, именно эти компоненты сложности должны войти в новую формулу сложности текста. Итак, рассмотренные ранее [1] подходы к решению проблемы подводят к необходимости определить факторы, которые могли бы явиться компонентами сложности, и предложить алгоритм построения формулы. 28 Филологические науки жние знания; – второй тип – старое знание, которое используется для декодирования новой информации. Таким образом, один тип информации является своего рода «ключом» для декодирования другого типа информации. Часть информации выражается в тексте языковыми средствами, другая в явном виде не содержится, ее необходимо восполнить. Информация, которая имеет непосредственное выражение в тексте и которую человек использует для декодирования, называется эксплицитной, или лингвистической. Имплицитной называется информация, которая не имеет непосредственного выражения в тексте. Эксплицитная информация – это набор лексико-грамматических средств, позволяющий ориентироваться в тексте и являющийся необходимым, но недостаточным условием для определения содержания. Соотношение имплицитной и эксплицитной информации может выступать в качестве параметра, определяющего степень сложности понимания текста. Выбор именно этого параметра объясняется тем, что имплицитная информация является той сложностью, которая является определяющим фактором при понимании или непонимании. Во-вторых, в научно-популярном тексте содержатся зоны непонимания, связанные с трудностью идентификации подтем, введением немотивированных субподтем. В-третьих, одной из существенных причин сложности научно-популярного текста является замена терминологии на общеупотребительную лексику, которая приводит к многозначности и потому к ошибкам в восприятии текста. Второй этап. Измерение трудности понимания текста. существует множество методов измерения трудности текста. для получения наиболее достоверных результатов и для подтверждения правильности ранее сделанных предположений нами использованы сразу несколько методов. Экспертная оценка трудности текста. Трудность текста определяется при помощи постановки вопросов к тексту. Испытуемым предлагается ответить на эти вопросы. по ответам экспериментатор может сделать вывод о степени понимания текста. Методика дополнения. Техника применения данного метода заключается в следующем. В тексте намеренно пропускаются слова, и испытуемые должны восполнить эти пробелы. Как правило, пропускается каждое седьмое слово: по экспериментальным данным, интервал в семь слов наиболее оптимальный; интервал меньше чем в пять слов отрицательно влияет на понимание, т.к. читателю приходится не только восстанавливать связь между словами, но и задействовать кратковременную память. С одной стороны, интервал пропуска меньше чем в пять слов позволяет читателю продемонстрировать свою способность к запоминанию лучше, чем при большем пропуске. С другой стороны, восстановить пробел при таких частых пропусках гораздо сложнее. Соответственно, при более редких пропусках (допустим, до одиннадцати) восстановить пробелы оказывается проще. Однако, согласно исследованиям Дж. Миллера, кратковременная память способна единовременно удерживать до семи единиц информации. В результате понимания текста испытуемый может заполнить пробел синонимом, и его слово будет более удачным, чем авторский вариант. Мы считали правильным и восстановленный авторский вариант, и контекстуальные эквиваленты. Пересказ – это вспомогательный метод оценки трудности текста. О трудности текста можно судить по пересказу. На полноту пересказа влияет не только понимание, но и запоминание. Некоторые детали текста могут вызвать у испытуемого ряд важных ассоциаций. в результате он может углубиться в ассоциации и забыть про текст. Составление схем текста. В качестве такой схемы нами использованы денотативные графы текста-пересказа и сравнение денотатных графов на текстыпересказы с эталонным денотатным графом. 29 Вестник ЧитГУ № 5 (62) 2010 m – количество денотатов в тексте; n – количество эквивалентов; ni – количество эквивалентов для каждого денотата. Значение R может быть >1 или < 1. Значение R=1 примем за исходное и идеальное, когда количество скрытой и явной информации в тексте поровну. Степень отклонения в сторону преобладания той или иной информации назовем степенью имплицитности, если R>1, или степенью эксплицитности в случае R < 1. Если предположить, что количество эксплицитной информации будет значительно меньшим, чем имплицитной, то «вследствие этого нарушалась бы управляющая функция со стороны языковых явлений по первичной ориентировке в тексте» [3; С. 190]. С одной стороны, понятно, что преобладание имплицитной информации над эксплицитной затрудняет понимание, поскольку читателю приходится эксплицировать информацию на основе другой информации или знания, уже сформированного в его памяти. С другой стороны, большой процент эксплицитной информации затрудняет переход к денотатной структуре при определении предметных отношений и при включении денотатных пар в общую структуру содержания. Для определения показателя соотношения R прежде всего необходимо определить количество денотатов и эквивалентов в тексте. В эксперименте мы исследовали научно-популярный текст А. Ильина «Бегущая по волнам», опубликованный в журнале «Юный техник» (№ 5, 1997). Построенный ранее денотатный граф текста позволяет быстро посчитать денотаты. их 19. По определению А.И. Новикова, денотат – «конкретное представление о том, что обозначается данным языковым s m , выражением в целом. Денотат составля+1− m R= ет содержание языкового выражения»[3; k+s n 104]. Далее, для определения количества i i =1 где R – показатель соотношения экспли- эквивалентов денотатам необходимо обратиться к тексту. Эквивалентами называем цитной и имплицитной информации; K – количество эксплицитной инфор- любые авторские замены денотатов. Просчитываем все замены денотатов, которые мации; S – количество имплицитной информа- использованы в тексте. Эквивалентов денотатам оказалось чуть больше 20. Это местоции; Третий этап. Определение степени связанности всех рассматриваемых компонентов сложности между собой. Анализ позволил выявить связь между предполагаемыми компонентами сложности и влияние компонентов на трудность понимания. Полагаем, что компоненты сложности, установленные нами в экспериментальном исследовании (а именно: преобладание имплицитной информации над эксплицитной, трудность идентификации подтем и субподтем, немотивированное введение новой подтемы), находятся в тесном взаимодействии. Количество сложностей способствует увеличению количества имплицитной информации и, следовательно, при вычислении соотношения эксплицитной и имплицитной информации перевес будет на стороне последней. Четвертый этап. Вычисление формулы. Основываясь на данных математической теории информации и исследованиях А.И. Новикова [3], полагаем, что количество информации можно выразить числом, как это можно сделать с расстоянием, массой, временем, количеством тепла и т.д. «Единица информации – это количество информации, которое можно записать (закодировать) при помощи нуля либо единицы» [4; С. 209-210]. Исследуя исходный текст, фиксируем каждый случай использования имплицитной и эксплицитной информации. Имея определенное количество той или иной информации, вычисляем соотношение, взяв за основу формулы алгоритм, предложенный А.И. Новиковым [3]. Итак, формула, включающая компоненты сложности глубинного уровня, представляет собой следующее уравнение: ∑ 30 Филологические науки имения и существительные, например, для латы в качестве эквивалента автор использует местоимение «она» и существительное «доска». Количество эксплицитной информации равно количеству предложений в тексте – 69. Для определения имплицитной информации необходимо восстановить смысловые скважины в тексте. Их количество считается количеством имплицитной информации в тексте. Подставив полученные результаты в формулу, получим показатель соотношения R: R= 47 19 + 1− = 0, 9 1 11 6 39 . Таблица1 Компоненты предлагаемой формулы сложности Количество денотатов в тексте m 19 Количество эквивалентов n 20 Количество эксплицитной информации K 69 Итак, значение R= 0,91 почти достигает идеального случая, при R=1, и позволяет говорить о том, что текст характеризуется незначительной степенью преобладания эксплицитной информации. Следовательно, показатель сложности текста, измеренный по формуле, свидетельствует, что исследуемый текст не сложный. Таким образом, предлагаемая формула позволила подтвердить вывод, сделанный еще на втором этапе – измерения трудности понимания текста. Чтобы убедиться, что формула создана Количество имплицитной информации S 47 Показатель соотношения R 0,91 не для одного текста, следует просчитать значение R еще для девяти текстов. Эти тексты нами использовались ранее [1] для подтверждения гипотезы о качественном составе компонентов сложности научно-популярного текста. Тексты, представленные в табл. 1, «прошли» все этапы исследования, необходимые для получения цифровых показателей предлагаемой формулы сложности. Нет необходимости описывать процедуру получения цифровых показателей – она идентична для всех текстов. В табл. 2 приведен показатель соотношения R. Таблица 2 Показатель соотношения R в исследуемых текстах Название текста 1. А не поставить ли паровой котел на крыло 2. И мороз не страшен, коль печь в кармане 3. С тепловым насосом тепло даже в Сибири 4. Знакомьтесь: велокат 5. Фотоны по... желобам 6. Катайтесь на брайтоне 7. Ускоритель на все руки 8. Автомобиль без мотора, катайся качаясь 9. Говорящий свет Показатель соотношения R 0,87 0,90 0,85 0,92 0,78 0,88 0,79 0,93 0,83 Литература 1. Богословская И.В. Научно-популярный текст: сложность понимания: автореф. дис. … канд. филол. наук. – Москва, 2001. – 18 с. 2. Микк Я.А. Оптимизация сложности учебного текста. – М.: Просвещение, 1981. – 106 с. 3.Новиков А.И. Семантика текста и её формализация. – М.: Наука, 1983. – 211 с. 4. Реньи А. Трилогия о математике. Диалоги о математике. Письма о вероятности. Дневникзаписки студента по теории информации. – М.: Мир, 1980. – 374 с. 31 Вестник ЧитГУ № 5 (62) 2010 Коротко об авторе Briefly about the author Богословская И.В., канд. филол. наук, доцент, каф. языковой коммуникации и психолингвистики, Уфимский государственный авиационный технический университет [email protected] I. Bogoslovskaya, Candidate of Science, Associate Professor, Language Communication and Psycholinguistics Department, Ufa State Aviation Technical University Научные интересы: исследования в области психолингвистики Area of expertise: psycholinguistics 32