Для обсуждения на заседании Президиума РАО 23.01.2013г. СПРАВКА Теоретические основания создания тезауруса по педагогике как репрезентатора отраслевой терминосистемы и как метаязыка образовательной информации Сообщение Маркаровой Т.С., директора ФГНУ «НПБ имени К.Д. Ушинского» РАО, к.филол.н. Стремительное развитие прикладной лингвистики (в частности, лингвистического обеспечения информационных систем) связано в первую очередь с целым комплексом изменений в ценностях, задачах и позитивных установках в традиционной лингвистике. Прежде всего, это достижения в области синтаксиса и семантики текста – текстообразования. Однако, если понятие «синтаксис предложения» представляется весьма определенным теоретически, то неопределенным и недостаточно очерченным оказывается понятие «синтаксис текста». Актуальным в данном контексте становится поиск единого языка и общих принципов описания текстового структурообразования и текстовых последовательностей. Поиск метаязыка и общих принципов описания текста как целого, как «информационной упаковки» предполагает неизбежную итерацию не только со смежными областями гуманитарного знания, но и со сферой естественных наук. Тезисы «текст как природный объект» и « текст как информационное представление отрасли» отражают характерную тенденцию к сближению естественных и гуманитарных наук. Основой лингвистического анализа текста и лингвистического обеспечения научно-информационных систем является морфологическая и семантико-синтаксическая структура вербального языка. Любой информационно-смысловой фрагмент каким-то образом соотносится с онтологическим характером языка, сознанием индивидуума и отражаемой языком действительностью (экстралингвистической ситуацией). В традиционном языкознании положение о том, что языковые единицы определенным образом соотносятся с экстралингвистической действительностью, стало признаваться основными методологическими лингвистическими школами сравнительно недавно. Это направление языкознания получило название теории референции и референциальной семантики. В основу этого подхода положено следующее представление о сущности референции: каждый из участников коммуникации – и говорящий, и адресат речи – имеет свое собственное представление о мире («картину 1 мира»). При этом в картину мира говорящего (пишущего) входит представление о том, какова картина мира адресата (потребителя, пользователя) речи (информации), а в картину мира адресата речи – представление о том, какова картина мира говорящего. В процессе коммуникации говорящий осуществляет референцию к объектам, входящим в его картину мира, выбирая то или иное языковое средство в зависимости от того, какое место (по его представлению) занимают соответствующие объекты в картине мира адресата речи. Воспринимая полученную информацию, адресат речи тем или иным образом модифицирует свою картину мира (возможно лишь тот ее фрагмент, который относится к его представлениям о картине мира говорящего). Таким образом, все правила, регулирующие осуществление референции средствами языка, содержат явную или неявную отсылку к участникам коммуникации и картине мира каждого из них. Используя языковые единицы, мы, во-первых, осуществляем референцию к внеязыковым объектам, а во-вторых, приписываем (предицируем) им какие-то свойства. При таком подходе можно говорить о референции любых языковых единиц, тем или иным образом соотносящихся с картиной мира участников коммуникации, независимо от того, какому уровню языковой системы они принадлежат. Прикладные информационно-лингвистические системы, использующие для решения своих задач фундаментальные лингвистические теории создают для лингвистических систем новую уникальную среду – полигон для проверки истинности лингвистических средств обработки информационных массивов. Встраивание стандартной лингвистической теории в лингвокомпьютерную среду, в среду лингвистического процессора, приводит к: построению специальных блоков правил интерпретации поверхностносинтаксических структур в терминах лексико-семантических функций; разработке единых правил разбиения и объединения информационных массивов; выявлению ядерных и периферийных семем (грамматико-смысловые единицы) внутри информационных массивов; построению единого блока правил, проводящих семантическую и синтаксическую перестройку информации одновременно; созданию поисковой лингвистической базы информационных систем. интегрированной информационноданных для корпоративных научно- В настоящее время актуальным становится создание и развитие информационно-лингвистических ресурсов и систем, обеспечивающих 2 исследования в области информационного поиска по распределенным интегрированным полнотекстовым базам данных, контентным содержанием (текстом) которых является научная информация. Несмотря на то, что уже давно разработан и постоянно совершенствуется лингвистический аппарат автоматической обработки текстов, пока отсутствует координация деятельности исследователей в области лингвистического обеспечения информационных систем и не решены многие теоретические проблемы, необходимые для успешного решения такого рода задач. В результате, российское научное сообщество практически не имеет единого корпоративного профессионально организованного источника электронных лингвистических ресурсов всех возможных типов, обеспечивающих поисковую систему научноинформационных ресурсов. Совершенно очевидно, что назрела необходимость как в координации деятельности ученых-лингвистов, так и в интеграционном обновлении информационно-поисковых лингвистических ресурсов. Однако, на наш взгляд, корпоративные информационные блоки, подлежащие лингвистическому анализу, не имеют прямой связи с классификационными системами. Нет исходного положения о том, что каждый информационный объект должен попасть в определенный класс, который окажется семантически релевантным. Поэтому стоит задача объединения, а не разбиения (деления, классификации) как информационных объектов, так и семантически релевантных им лингвистических ресурсов. Под интеграцией лингвистических ресурсов понимается их объединение с целью использования с помощью удобного и унифицированного пользовательского интерфейса различной информации с сохранением ее свойств, особенностей представления и пользовательских возможностей манипулирования с ней. При этом объединение ресурсов не обязательно должно осуществляться физически - оно может быть виртуальным. Главное – оно должно обеспечивать пользователю доступ к базе метаданных как к единому информационно-лингвистическому пространству. Все информационно-лингвистическое пространство, доступное пользователю, должно быть представлено в виде совокупности самостоятельных объектов. До последнего времени в российских информационно-библиотечных системах, проблема коммуникабельности информационных массивов решалась путём формирования двух групп национальных и международных стандартов – стандартов библиографического описания источников информации и стандартов информационно-поисковых языков (ИПЯ): иерархического (рубрикаторы) и дескрипторного (тезаурусы) типа, идентифицирующих контентное наполнение источников. Однако, на наш взгляд, этот набор лингвистических средств не вполне удовлетворяет запросам научных сообществ. А опора на традиционные лингвистические теории не только открывает широкий спектр возможностей для обработки/переработки текстовых массивов, но и обеспечивает качественный и корректный полнотекстовый поиск в научно-информационных массивах, 3 предназначенных для корпоративных научных сообществ. По нашему мнению, информационно-лингвистические системы должны носить интегральный характер, который состоит в том, что различные компоненты лингвистического инструментария (параметры информационно-поисковых лингвистических схем и единицы и уровни традиционного языкознания) должны быть согласованы между собой и в совокупности давать полное представление об описываемой экстралингвистической ситуации и об информационном объекте. Требование согласованности различных частей, выход за рамки какого-либо одного уровня идентификации составляет существенную методологическую предпосылку целого ряда современных лингвистических исследований и теорий. Тем не менее вот уже на протяжении более чем 30 лет основным вербальным информационно-поисковым языком дескрипторного типа является отраслевой тезаурус. При разработке принципов упорядочения и стандартизации отраслевой терминологии в центре внимания находится пара "понятие - термин" и, соответственно, "система понятий - система терминов". С проблемой "система понятий - система терминов" связан вопрос о полной или частичной эквивалентности терминов. Предметом нашего рассмотрения является отраслевой тезаурус, вбирающий в себя понятийно-терминологический аппарат такой интегрированной области человеческого знания как педагогика (педагогическая наука). В настоящее время ведутся исследования по практике и теории создания педагогических словарей в рамках международной педагогической лексикографии. В новых информационнокоммуникативных условиях многоязычного глобального мира международная педагогическая информация рассматривается как трансдисциплинарная (на стыке педагогики, лингвистики и информатики) область знания, синтез различных наук и научных направлений, объединенных целями исследования общего объекта – терминологической системы мировой педагогической науки. В ряду немногочисленных международных педагогических тезаурусов самым репрезентативным, на наш взгляд, является Тезаурус ЮНЕСКО – Международного бюро просвещения по образованию (UNESCO: IBE education thesaurus, 5-е изд., 1990 г.) На базе Тезауруса ЮНЕСКО в 1998 году был создан национальный русско-английский тезаурус по педагогике ФГНУ НПБ им. К.Д. Ушинского РАО, который применяется в качестве информационно-поискового языка в поисково-библиографической базе данных ряда библиотек образовательных учреждений. В основу структуры информационно-поискового тезауруса легла полевая модель языка. Наиболее полно диалектические связи между языковыми знаками и реалиями экстралингвистической действительности раскрываются с помощью полевой модели системы языка. Поле в лингвистике становится одной из важнейших категорий, в которой системно и синтетически рассматриваются однородные по своему содержанию единицы; при этом описывается не только сам язык, но и система 4 соответствующих понятий, а иногда и главным образом она. Поле задается определенным смысловым содержанием, доминантой поля. В нем выделяется ядро (лексема-понятие или группа лексем-понятий), центр (классы основных понятий, реалем с их синонимическими, антонимическими и другими отношениями) и периферия (система смежных реалий, смежных полей - слов - понятий вторичной семантической функции). Поле, представляя собой определенную семантическую структуру, отражает иерархию его основных классов слов (реалем) и соотносительных языковых средств. Такая структура может быть описана с помощью родовидовых отношений, отражающих предметно-понятийную классификацию элементов. Лексическая наполненность и семантический потенциал логикопонятийных полей информационно-поискового тезауруса по педагогике, на наш взгляд, позволяют ему не только функционировать в качестве информационно-поискового языка, но и в равной мере представлять достаточно интегрированную и постоянно обновляющуюся педагогическую терминологию. Система отслеживания и распространения современной мировой педагогической терминологии позволяет достичь согласованности отечественной научной педагогической терминологии с наиболее распространенной в мире терминологической системой. Функциональная значимость отраслевого тезауруса определяется тем, что он, репрезентируя терминосистему науки, одновременно является одним из наиболее оптимальных способов классификации, хранения и передачи специальной информации, средством создания поискового образа документов в электронных библиотечных информационно-поисковых системах. Концептуальный диапазон языка позволяет синтезировать информацию, сохраняя при этом потенциальную возможность этой информации к разложимости на составляющие. С учетом общемировых тенденций в области распределенного сетевого доступа к научной информации на базе сети Интернет, интеграционных процессов в разнотипных информационных системах (библиотеки, архивы и т.д.) особенно остро становится вопрос о разработке универсального лингвистического аппарата, кумулирующего в себе средства обработки разнородной, разножанровой и разноадресной информации. Однако до сих пор не только не найдено удовлетворительных решений этой проблемы, но даже отсутствует решение локальных задач, таких, как корректная лингвистическая модель автоматизированной обработки информационных (библиотечных и архивных) документов, коррелирующая с лингвистическим аппаратом традиционного электронного каталога. Это связано как со спецификой контента различных систем и каталогов, так и с отсутствием универсального формата представления данных для самих электронных каталогов. Необходимо разработать схему такой типовой модели, которая позволила бы на своей основе создать распределенную лингвистическую базу, реализующую возможности поисковой навигации в базах данных библиотек и архивов. Это 5 позволит перейти в будущем не только к сквозному поиску в электронном каталоге и справочном аппарате архива, но и к практической разработке полнофункциональных, многопользовательских распределенных систем актуальной научной информации как в синхроническом, так и в диахроническом срезе. Данная проблематика включена коллективом научных сотрудников НПБ им. К.Д. Ушинского в «План фундаментальных научных исследований РАО на 2013-2020 годы», проект 8.3., тема 22 «Методология и технология формирования информационного фонда научно-педагогических материалов, реализованных в электронном виде (для представления в электронной библиотеке РАО)». 6