Тезаурус по педагогике как репрезентатор отраслевой

реклама
Для обсуждения на заседании
Президиума РАО 23.01.2013г.
СПРАВКА
Теоретические основания создания тезауруса по педагогике как
репрезентатора отраслевой терминосистемы и как метаязыка
образовательной информации
Сообщение Маркаровой Т.С.,
директора ФГНУ «НПБ
имени К.Д. Ушинского» РАО,
к.филол.н.
Стремительное развитие прикладной лингвистики (в частности,
лингвистического обеспечения информационных систем) связано в первую
очередь с целым комплексом изменений в ценностях, задачах и позитивных
установках в традиционной лингвистике. Прежде всего, это достижения в
области синтаксиса и семантики текста – текстообразования. Однако, если
понятие «синтаксис предложения» представляется весьма определенным
теоретически, то неопределенным и недостаточно очерченным оказывается
понятие «синтаксис текста». Актуальным в данном контексте становится
поиск единого языка и общих принципов описания текстового
структурообразования и текстовых последовательностей. Поиск метаязыка и
общих принципов описания текста как целого, как «информационной
упаковки» предполагает неизбежную итерацию не только со смежными
областями гуманитарного знания, но и со сферой естественных наук. Тезисы
«текст как природный объект» и « текст как информационное представление
отрасли» отражают характерную тенденцию к сближению естественных и
гуманитарных наук.
Основой лингвистического анализа текста и лингвистического
обеспечения научно-информационных систем является морфологическая и
семантико-синтаксическая структура вербального языка.
Любой информационно-смысловой фрагмент каким-то образом
соотносится с онтологическим характером языка, сознанием индивидуума и
отражаемой языком действительностью (экстралингвистической ситуацией).
В традиционном языкознании положение о том, что языковые единицы
определенным
образом
соотносятся
с
экстралингвистической
действительностью, стало признаваться основными методологическими
лингвистическими школами сравнительно недавно. Это направление
языкознания получило название теории референции и референциальной
семантики. В основу этого подхода положено следующее представление о
сущности референции: каждый из участников коммуникации – и говорящий,
и адресат речи – имеет свое собственное представление о мире («картину
1
мира»). При этом в картину мира говорящего (пишущего) входит
представление о том, какова картина мира адресата (потребителя,
пользователя) речи (информации), а в картину мира адресата речи –
представление о том, какова картина мира говорящего. В процессе
коммуникации говорящий осуществляет референцию к объектам, входящим
в его картину мира, выбирая то или иное языковое средство в зависимости от
того, какое место (по его представлению) занимают соответствующие
объекты в картине мира адресата речи. Воспринимая полученную
информацию, адресат речи тем или иным образом модифицирует свою
картину мира (возможно лишь тот ее фрагмент, который относится к его
представлениям о картине мира говорящего). Таким образом, все правила,
регулирующие осуществление референции средствами языка, содержат
явную или неявную отсылку к участникам коммуникации и картине мира
каждого из них. Используя языковые единицы, мы, во-первых, осуществляем
референцию к внеязыковым объектам, а во-вторых, приписываем
(предицируем) им какие-то свойства. При таком подходе можно говорить о
референции любых языковых единиц, тем или иным образом соотносящихся
с картиной мира участников коммуникации, независимо от того, какому
уровню языковой системы они принадлежат.
Прикладные информационно-лингвистические системы, использующие
для решения своих задач фундаментальные лингвистические теории создают
для лингвистических систем новую уникальную среду – полигон для
проверки истинности лингвистических средств обработки информационных
массивов.
Встраивание стандартной лингвистической теории в лингвокомпьютерную среду, в среду лингвистического процессора, приводит к:
 построению специальных блоков правил интерпретации поверхностносинтаксических структур в терминах лексико-семантических функций;
 разработке единых правил разбиения и объединения информационных
массивов;
 выявлению ядерных и периферийных семем (грамматико-смысловые
единицы) внутри информационных массивов;
 построению единого блока правил, проводящих семантическую и
синтаксическую перестройку информации одновременно;
 созданию
поисковой
лингвистической базы
информационных систем.
интегрированной
информационноданных для корпоративных научно-
В настоящее время актуальным становится создание и развитие
информационно-лингвистических ресурсов и систем, обеспечивающих
2
исследования в области информационного поиска по распределенным
интегрированным полнотекстовым базам данных, контентным содержанием
(текстом) которых является научная информация.
Несмотря на то, что уже давно разработан и постоянно
совершенствуется лингвистический аппарат автоматической обработки
текстов, пока отсутствует координация деятельности исследователей в
области лингвистического обеспечения информационных систем и не
решены многие теоретические проблемы, необходимые для успешного
решения такого рода задач. В результате, российское научное сообщество
практически не имеет единого корпоративного профессионально
организованного источника электронных лингвистических ресурсов всех
возможных типов, обеспечивающих поисковую систему научноинформационных ресурсов. Совершенно очевидно, что назрела
необходимость как в координации деятельности ученых-лингвистов, так и в
интеграционном обновлении информационно-поисковых лингвистических
ресурсов.
Однако, на наш взгляд, корпоративные информационные блоки,
подлежащие лингвистическому анализу, не имеют прямой связи с
классификационными системами. Нет исходного положения о том, что
каждый информационный объект должен попасть в определенный класс,
который окажется семантически релевантным. Поэтому стоит задача
объединения, а не разбиения (деления, классификации) как информационных
объектов, так и семантически релевантных им лингвистических ресурсов.
Под интеграцией лингвистических ресурсов понимается их объединение с
целью использования с помощью удобного и унифицированного
пользовательского интерфейса различной информации с сохранением ее
свойств, особенностей представления и пользовательских возможностей
манипулирования с ней. При этом объединение ресурсов не обязательно
должно осуществляться физически - оно может быть виртуальным. Главное –
оно должно обеспечивать пользователю доступ к базе метаданных как к
единому
информационно-лингвистическому
пространству.
Все
информационно-лингвистическое пространство, доступное пользователю,
должно быть представлено в виде совокупности самостоятельных объектов.
До последнего времени в российских информационно-библиотечных
системах, проблема коммуникабельности информационных массивов
решалась путём формирования двух групп национальных и международных
стандартов – стандартов библиографического описания источников
информации и стандартов информационно-поисковых языков (ИПЯ):
иерархического (рубрикаторы) и дескрипторного (тезаурусы) типа,
идентифицирующих контентное наполнение источников. Однако, на наш
взгляд, этот набор лингвистических средств не вполне удовлетворяет
запросам научных сообществ. А опора на традиционные лингвистические
теории не только открывает широкий спектр возможностей для
обработки/переработки текстовых массивов, но и обеспечивает качественный
и корректный полнотекстовый поиск в научно-информационных массивах,
3
предназначенных для корпоративных научных сообществ. По нашему
мнению, информационно-лингвистические системы должны носить
интегральный характер, который состоит в том, что различные компоненты
лингвистического инструментария (параметры информационно-поисковых
лингвистических схем и единицы и уровни традиционного языкознания)
должны быть согласованы между собой и в совокупности давать полное
представление об описываемой экстралингвистической ситуации и об
информационном объекте. Требование согласованности различных частей,
выход за рамки какого-либо одного уровня идентификации составляет
существенную методологическую предпосылку целого ряда современных
лингвистических исследований и теорий.
Тем не менее вот уже на протяжении более чем 30 лет основным
вербальным информационно-поисковым языком дескрипторного типа
является отраслевой тезаурус. При разработке принципов упорядочения и
стандартизации отраслевой терминологии в центре внимания находится пара
"понятие - термин" и, соответственно, "система понятий - система терминов".
С проблемой "система понятий - система терминов" связан вопрос о полной
или частичной эквивалентности терминов.
Предметом нашего рассмотрения является отраслевой тезаурус,
вбирающий в себя понятийно-терминологический аппарат такой
интегрированной области человеческого знания как педагогика
(педагогическая наука). В настоящее время ведутся исследования по
практике и теории создания педагогических словарей в рамках
международной педагогической лексикографии. В новых информационнокоммуникативных
условиях
многоязычного
глобального
мира
международная
педагогическая
информация
рассматривается
как
трансдисциплинарная (на стыке педагогики, лингвистики и информатики)
область знания, синтез различных наук и научных направлений,
объединенных целями исследования общего объекта – терминологической
системы мировой педагогической науки.
В ряду немногочисленных международных педагогических тезаурусов
самым репрезентативным, на наш взгляд, является Тезаурус ЮНЕСКО –
Международного бюро просвещения по образованию (UNESCO: IBE
education thesaurus, 5-е изд., 1990 г.) На базе Тезауруса ЮНЕСКО в 1998
году был создан национальный русско-английский тезаурус по педагогике
ФГНУ НПБ им. К.Д. Ушинского РАО, который применяется в качестве
информационно-поискового языка в поисково-библиографической базе
данных ряда библиотек образовательных учреждений.
В основу структуры информационно-поискового тезауруса легла
полевая модель языка. Наиболее полно диалектические связи между
языковыми знаками и реалиями экстралингвистической действительности
раскрываются с помощью полевой модели системы языка. Поле в
лингвистике становится одной из важнейших категорий, в которой системно
и синтетически рассматриваются однородные по своему содержанию
единицы; при этом описывается не только сам язык, но и система
4
соответствующих понятий, а иногда и главным образом она. Поле задается
определенным смысловым содержанием, доминантой поля. В нем
выделяется ядро (лексема-понятие или группа лексем-понятий), центр
(классы основных понятий, реалем с их синонимическими, антонимическими
и другими отношениями) и периферия (система смежных реалий, смежных
полей - слов - понятий вторичной семантической функции).
Поле, представляя собой определенную семантическую структуру,
отражает иерархию его основных классов слов (реалем) и соотносительных
языковых средств. Такая структура может быть описана с помощью родовидовых отношений, отражающих предметно-понятийную классификацию
элементов.
Лексическая наполненность и семантический потенциал логикопонятийных полей информационно-поискового тезауруса по педагогике, на
наш взгляд, позволяют ему не только функционировать в качестве
информационно-поискового языка, но и в равной мере представлять
достаточно интегрированную и постоянно обновляющуюся педагогическую
терминологию. Система отслеживания и распространения современной
мировой педагогической терминологии позволяет достичь согласованности
отечественной научной педагогической терминологии с наиболее
распространенной в мире терминологической системой.
Функциональная значимость отраслевого тезауруса определяется тем,
что он, репрезентируя терминосистему науки, одновременно является одним
из наиболее оптимальных способов классификации, хранения и передачи
специальной информации, средством создания поискового образа
документов в электронных библиотечных информационно-поисковых
системах. Концептуальный диапазон языка позволяет синтезировать
информацию, сохраняя при этом потенциальную возможность этой
информации к разложимости на составляющие.
С учетом общемировых тенденций в области распределенного сетевого
доступа к научной информации на базе сети Интернет, интеграционных
процессов в разнотипных информационных системах (библиотеки, архивы и
т.д.) особенно остро становится вопрос о разработке универсального
лингвистического аппарата, кумулирующего в себе средства обработки
разнородной, разножанровой и разноадресной информации. Однако до сих
пор не только не найдено удовлетворительных решений этой проблемы, но
даже отсутствует решение локальных задач, таких, как корректная
лингвистическая
модель
автоматизированной
обработки
информационных
(библиотечных
и
архивных)
документов,
коррелирующая с лингвистическим аппаратом традиционного
электронного каталога. Это связано как со спецификой контента различных
систем и каталогов, так и с отсутствием универсального формата
представления данных для самих электронных каталогов. Необходимо
разработать схему такой типовой модели, которая позволила бы на своей
основе создать распределенную лингвистическую базу, реализующую
возможности поисковой навигации в базах данных библиотек и архивов. Это
5
позволит перейти в будущем не только к сквозному поиску в электронном
каталоге и справочном аппарате архива, но и к практической разработке
полнофункциональных, многопользовательских распределенных систем
актуальной научной информации как в синхроническом, так и в
диахроническом срезе.
Данная проблематика включена коллективом научных сотрудников
НПБ им. К.Д. Ушинского в «План фундаментальных научных исследований
РАО на 2013-2020 годы», проект 8.3., тема 22 «Методология и технология
формирования информационного фонда научно-педагогических материалов,
реализованных в электронном виде (для представления в электронной
библиотеке РАО)».
6
Скачать