Современные технологии анализа контента в образовании 1

реклама
УДК 004.822 (378.147)
Современные технологии анализа контента в образовании1
Бонч-Осмоловская Анастасия Александровна,
к. филол. наук, профессор,
факультет филологии,
старший научный сотрудник,
Научно-образовательный центр семантических технологий
НИУ “Высшая школа экономики”
e-mail: [email protected]
Клинцов Виктор Петрович,
Заместитель директора,
Институт информационных технологий
НИУ “Высшая школа экономики”
Толдова Светлана Юрьевна,
старший научный сотрудник,
Научно-образовательный центр семантических технологий,
к. филол. наук, доцент,
Институт лингвистики
ФГБОУ ВПО “Российский государственный гуманитарный университет”
e-mail: [email protected],
+7(499) 973-47-55,
125993, ГСП-3, Москва, Миусская площадь, д. 6.
Аннотация. В статье обсуждаются принципиальные новые требования к
навыкам и задачам приобретения знаний, обусловленные развитием cети
Интернет. Принципиальная смена носителя информации, а именно
активный переход к Интернету как источнику знаний существенным
образом повлиял на множество компетенций, которыми должен обладать
современный специалист. Главным, по мнению авторов, является переход от
линейного восприятия информации как текста к оперированию понятийной
структурой контента, системой концептов, которая составляет основу
интеграции всех типов знаний, как неструктурированных, так и знаний из
структурированных источников. Статья посвящена компьютерным
ресурсам и технологиям анализа контента, которые помогают решить
данные задачи, знакомство с которыми должно входить в систему обучения
1 Работа проводилась при финансовой поддержке Министерства образования и науки Российской
Федерации в рамках государственного контракта № 07.524.11.4005 от «20» октября 2011 г., заключенного
между Министерством образования и науки Российской Федерации и ЗАО «Эвентос».
современным информационным технологиям. В центре внимания два типа
технологий: корпусные технологии работы с текстами и технологии
связанных открытых данных.
Ключевые слова: информационные технологии, анализ контента, корпуса
текстов, семантический Веб, связанные открытые данные.
Введение
В последнее время практически ни одно обсуждение современного
состояния знаний не обходится без тезиса о том, что произошли
качественные изменения методов приобретения знаний, их структуры и
содержания. Принципиальным образом изменились представления о том,
какие именно знания и операции с ними являются ценными для
современного
специалиста
и
исследователя.
Основным
источником
информации становится Всемирная паутина, аккумулирующая все виды
производимой
и
потребляемой
информации.
Бурное
развитие
информационной среды, ее доступность повлияли на смену парадигм в
методах научных исследований, на саму структуру и развитие различных
отраслей знаний, и соответственно на требования к навыкам и умениям
современных специалистов и исследователей. В профессиональной карьере
скорее выигрывает не тот, кто помнит наизусть большое количество
сведений, но тот, кто умеет ориентироваться в огромном информационном
потоке, знает, где и как “добывать” нужную информацию, умеет ее быстро
анализировать, систематизировать, активно пользоваться предоставляемыми
в сети ресурсами и инструментами.
Настоящая статья опирается на опыт разработки семантически
ориентированных программных продуктов, в частности, работы над
проектом по созданию ресурса связанных открытых данных в области
нанотехнологий, проводимой Центром семантических технологий НИУ
ВШЭ. В основе подхода лежит принцип интеграции знаний, извлекаемых из
разных типов источников, как из корпусов текстов (неструктурированных
источников информации), посвященных некоторой тематике, так и из
специализированных баз данных и онтологий. Основу данных технологий
составляет опора на концептуальную структуру некоторой области знаний.
Представляется,
что
данные
технологии
могут
служить
мощным
инструментом и в научных исследованиях, и в создании образовательных
ресурсов. Основная цель настоящей статьи состоит в том, чтобы показать
каким образом новые возможности, связанные с компьютерной обработкой
текстов и представлением знаний, могут быть использованы для расширения
образовательных компонентов, так или иначе связанных с поиском и
анализом информации.
В центре внимания – современные технологии анализа текста, с одной
стороны, и технологии семантического веба, открытых связанных данных, с
другой.
Знакомство
с
этими
технологиями
может
помочь
создать
представление о некотором объекте действительности или понятии на
принципиально новом уровне. Становится доступна интеграция всей
информации о некотором объекте действительности или понятии, о
совершенно разных сторонах и аспектах этого объекта или понятия, включая
как логическую организацию знаний о нем, так и полную картину о его
языковых номинациях, о его “языковом” портрете. Иными словами,
становится возможен переход от аналитических знаний к синтетическим.
Новые качества информации (знаний)
По масштабности происходящий информационный сдвиг сравнивают с
изобретением письменности. Если продуктивность исследователей раньше
определялась объемом запоминаемой информации, то теперь акцент
обучения смещается скорее в сторону освоения различных технологий
быстрой и квалифицированной “добычи” необходимой информации, а также
технологий ее когнитивной обработки: поиску, систематизации, анализу,
установлению связей. Качественные изменения информации обусловлены не
только ее доступностью и скоростью приобретения, но и принципиально
новыми
технологическими
возможностями
содержательного
анализа.
Отметим следующие значимые свойства доступной в сети информации,
влияющие на изменения в технологиях:
1) мобильность: чрезвычайно быстро меняется не только контент в
Интернете, но и сами ресурсы: перестают существовать или
устаревают одни, возникают новые, основанные на более
“продвинутых” технологиях; новые знания в любой области
практически сразу же становятся доступными;
2) агрегация данных (агрегаторы контента): в сети существует
множество порталов и сервисов, предоставляющих информацию,
агрегированную из разных источников (ср. например, новостные
сервисы поисковых систем Яндекс, Google, Yahoo);
3) “рафинирование”
(подсветка
релевантных
фрагментов,
выделение объектов, таких как персоны, организации и т.п.,
событий), выделение ключевых слов (ср. облака тегов по
странице) и т.п., аналитические резюме, в том числе статистика
упоминаний некоторого объекта, понятия;
4) интеллектуализация
информации
контента
гиперссылками
на
(снабжение
фрагментов
авторитетные
источники:
словари, энциклопедии, глоссарии, онтологии);
5) компрессия:
реферирование,
тегирование,
аналитические
статистические графики, диаграммы и т.п.;
6) “хронография”:
сервисы,
которые
позволяют
отслеживать
динамику изменения некоторого информационного объекта во
времени;
7) визуализация
и
инфографика:
наглядное
представление
результатов анализа контента в удобной для быстрого анализа
форме в виде графиков, диаграмм, семантических карт, облаков
тегов, сетей и т.п.
8) структурирование: формальное представление знаний в виде
онтологий (упорядоченной системы концептов и отношений
между ними);
9) развитие семантического поиска (поиска в терминах сущностей,
связей между сущностями, фактов);
10)
связывание данных и ориентация на их открытость и
интероперабельность:
публикации
и
связывания
структурированных данных в Интернете.
Последние из вышеперечисленных свойств обеспечиваются новым
направлением
в
развитии
информационных
технологий:
развитием
Семантического Веба, которым занимается Всемирный веб-консорциум
(Worldwide Web Consortium)2. На смену поиску в разрозненных источниках
неструктурированной
информации
приходят
технологии
объектного
семантического поиска. Поиск в рамках концепции семантического веба
основывается на интеграции знаний, накопленных в Интернете, об объектах
и понятиях реального мира, фактах, событиях, и представления их в виде
структурированных онтологий, связанных между собой.
Специальные инструменты для обработки больших массивов текстов,
ресурсы семантического веба оказываются востребованными не только для
исследований, связанных с текстами и языком, но и для существенно более
широкого круга задач, решение которых так или иначе связано с анализом
информации. Соответственно, требуется обновление подходов в принципах
обучения информационным технологиям.
Ниже будут представлены два ключевых направления современных
технологий анализа контента: это, во-первых, работа с массивами текстов
(корпусные технологии), а, во-вторых, работа с массивами связанных между
собой объектов. Для каждого из выделенных направлений будет дан обзор
Подробнее о деятельности Всемирного веб консорциума, или, сокращенно, W3C можно узнать на
профильном сайте www.w3.org.
2
базовых ресурсов, а также представлены иллюстративные кейсы решения
аналитических задач.
Корпусные технологии как базовые технологии анализа контента
Анализ текстов
Глубинный анализ контента (добыча данных) является точкой, в
которой сходятся актуальные IT технологии совершенно разных областей
науки, индустрии и бизнеса. С одной стороны, текст является основой
филологического, лингвистического анализа, основным материалом, на
котором строится лингвистическое исследование. С другой стороны, текст
как
один
из
основных
носителей
контента,
представляет
собой
концептуализацию той или иной области, сферы нашей жизни. В целом ряде
дисциплин, таких как социология, психология, история, политология и
других, в некоторых областях экономической деятельности, например, в
бизнес-разведке, маркетинговых исследованиях давно применяется метод
контент-анализа: методология извлечения из текстов представлений о тех
или иных концептуальных единицах, фактах, их взаимодействии на основе
количественных и/или качественных наблюдений. В задачи данного метода
входит
извлечение
количественного
и
из
документов
качественного
их
скрытого
анализа.
содержания
С
третьей
путем
стороны,
концептуальный анализ текстов является актуальным направлением в
области автоматического анализа текстов: извлечение информации из
текстов (объектов интереса, событий), их количественная оценка.
С какой стороны мы бы ни подходили к задаче анализа контента (как
лингвисты, как IT-аналитики, как аналитики гуманитарной сферы и т.д.), для
ее решения требуется умение собрать релевантные тексты (фрагменты
текстов) или корпуса (как принято такие собрания текстов называть в
лингвистике), умение использовать определенные инструменты поиска и
аннотирования текстовых данных, подвергать их математической обработке,
применять статистические и концептуальные процедуры анализа (как
автоматического, так и экспертного).
Таким образом, важной частью образования в сфере информационных
технологий является освоение технологий работы с текстовыми корпусами.
Необходимо, во-первых, иметь
представление о том, какие корпуса
доступны для исследования – будь то специальный профессионально
подготовленный
лингвистически
размеченный
Национальный
корпус
русского языка, архив СМИ РФ компании Интегрум3, новостной поток
одного из агрегаторов новостей, например, Яндекс-новостей или новостного
портала Гугл, или лента блогов социальной сети. Далее необходимо уметь
составить на их основе собственный репрезентативный исследовательский
корпус, соответствующий исследовательской задаче. Наконец, необходимо
понимать какие в целом имеются технологии и инструменты извлечения
данных, и какие могут быть реально использованы для анализа текстов на
русском языке.
Ниже рассмотрим примеры того, как можно усовершенствовать
процедуру анализа контента с помощью использования Национального
корпуса русского языка.
Современные корпусные технологии
Корпусные технологии – это технологии работы с корпусами текстов –
специально собранными исследователем для решения некоторой проблемы
или имеющиеся в интернете. Корпус текстов представляет собой собрание
текстов на данном языке в электронной форме, отобранных исходя из
некоторых исследовательских принципов. В корпусе тексты
имеют
специальную разметку, в которой закладывается информация как о
характеристиках текстов (источник, дата создания и пр.), так и о языковых
элементах текста.
Система Артефакт компании Интергум Электронный ресурс. // группа разработчиков компании
“Интегрум”. URL: http://www.integrum.ru/
3
Особую роль играют национальные корпуса, в которых представлены
максимально все жанры, типы и варианты языка. Объем таких корпусов
достигает сотен миллионов словоупотреблений. Параметры аннотации
позволяют пользователю быстро отбирать тексты, соответствующие его
исследовательской задаче. Четкие принципы отбора текстов (какого типа
тексты и в какой пропорции попадают в корпус), стандарты так называемой
“метатекстовой” аннотации, которая отражает жанр, тематику, дату создания,
объем аудитории и другие параметры текстов, позволяют пользователю
делать
выборки
подкорпусов
практически
по
любому
экстралингвистическому параметру. Например, в Национальном корпусе
русского языка (НКРЯ, [20]) можно создать подкорпус, состоящий только из
блогов или из газетных текстов определенной тематики и вышедших в
определенный год (подробнее о метаразметке корпуса см. [22]). Пример
метаразметки можно увидеть на pис.1.
Рисунок 1 Фрагмент метаразметки текста из подкопруса “Интернет коммуникация”
Примеры использования корпуса в лингвистических исследованиях, в
обучении русскому и иностранным языкам можно найти в [17], [3], [24] и др. В
рамках данной статьи лишь проиллюстрируем некоторые возможности корпуса
на примере. Допустим, нас интересует вопрос, как оценивается понятие
“технология” в разных источниках: в СМИ, в блогах, в художественной литературе. Используя корпусные данные, можем получить следующую статистику
по встречаемости в текстах существительного технологии (см. табл. 1).
Таблица 1. Количество употреблений лексемы технология по различным типам и
жанрам текстов.
Значение
Найдено
Найдено
документов словоформ
3740
7604
%
публицистика |
0,01
нехудожественная
реклама | нехудожественная
242
581
0.10
Художественная
195
448
0,008
Вполне ожидаемо лексема технология крайне редко встречается в
художественных текстах, значительно реже, чем в публицистике. Интересно,
что чаще, чем во всех остальных жанрах, это существительное встречается в
рекламе.
Более того, если брать “срезы” текстов по годам, можно увидеть, какие
изменения произошли в оценке этого понятия со временем. На диаграмме
распределения по годам видно, что наблюдается всплеск употребления этого
термина в конце 60-х, начале 70-х гг. и “провал” в 90-х (см. рис. 2):
Рисунок 2. Диаграмма распределения употребления лексемы технология по годам
Для более точного и глубокого анализа мы можем воспользоваться
лингвистической квалифицированной разметкой. Во-первых, в корпусах,
имеющих лингвистическую разметку, можно искать по исходной форме
слова. Во-вторых, мы можем смотреть не просто слова, которые встретились
рядом, а ограничиться только одной конструкцией, одной частью речи, что
позволит избавиться от “шума”, слов, которые встречаются рядом, но не
служат ответом на поставленный вопрос. Например, фрагмент ответа на
запрос к подкорпусу нехудожественных текстов сочетания ‘качественное
прилагательное + технология’ приведен на рис. 3.
Рисунок 3. Фрагмент выдачи из корпуса на запрос ‘Прилагательное + технология’
в специальном формате
В примере на рис. 3 результат представлен в специальном формате (так
называемый формат KWIC – keywordincontext) так, что интересующие нас
словосочетания расположены в середине экрана. Это позволяет быстро
оценить материал. Сразу можно увидеть, что контексты распадаются на два
класса: относящиеся к развитию науки и производства и относящиеся к
области политтехнологий. Для первого класса частотны прилагательные
высокий и передовой, а для второго грязный. Корпус дает возможность при
этом посмотреть сразу и источник примера и развернуть более широкий
контекст примера.
Использование грамматических фильтров (поиск слов с заранее
заданными грамматическими параметрами) могут оказаться полезными не
только для лингвистов. Например, если мы хотим ответить на вопрос: “Кто и
какие мероприятия проводит”, то нас будут интересовать контексты, в
которых действующее лицо (объект поиска) является активным в ситуации.
На грамматическом уровне активному участнику, как правило, соответствует
позиция
подлежащего
в
предложении,
то
есть
он
выражается
существительным в именительном падеже.
Простая обработка результатов – возможность смотреть результаты в
разных форматах и по-разному их упорядочивать может помочь быстро
оценить данные, сформулировать рабочую гипотезу. Статистический
аппарат, обслуживающий корпус, может позволить отследить динамику
изменения употребления того или иного понятия, наиболее частотные и
устойчивые ассоциативные связи.
Несомненно, корпус, создававшийся для целей исследования языка, не
может
служить
корпусом
для
проведения
исследования
в
другой
гуманитарной области, например, в истории. Вряд ли количество и
специфика
исторических
текстов,
включенных
в
корпус,
должна
соответствовать именно тонкостям исторической науки. Однако, как можно
видеть из примера, использование лингвистического корпуса может помочь
оценить,
сформулировать
некоторую
гипотезу.
Использование
дополнительных лингвистических признаков может облегчить процедуру
индексирования, аннотирования материала, формулировать более сложные
запросы к текстам, извлекать более точную информацию. Удобная выдача и
возможности по-разному ее представлять, инфографика, позволяющая
оценить частоту встречаемости того или иного слова, группы слов, понятия,
могут
являться
удобными
инструментами
не
только
для
сугубо
лингвистического анализа.
Таким образом, корпус типа НКРЯ и ряд других национальных
корпусов могут служить некоторым тренажером для овладения различными
методиками анализа контента. На примере анализа того, какую информацию
можно извлечь из таких лингвистически “рафинированных” корпусов, можно
представить, какими дополнительными возможностями должны обладать
специализированные корпуса и программы для извлечения из текстов
необходимой информации, какими лингвистическими аннотациями и
технологиями было бы полезно для этого воспользоваться.
Создание общих корпусов в некоторой научной области, целью
которых являлось бы обеспечить релевантными текстовыми данными ту или
иную область знаний, с одной стороны, а также отрабатывать технологии
извлечения необходимых данных по проблемной области, с другой,
безусловно, имеет перспективы как в обучении, так и в научных
исследованиях.
К сожалению, для многих современных студентов гуманитарных
специальностей
такие
технологии
абсолютно
неизвестны.
Обработка
большого корпуса данных для них до сих пор представляет собой очень
трудоемкую задачу, требующую часы ручного труда, в то время, как
использование инструментов работы с большими массивами текстов не
только в состоянии уменьшить трудоемкость, но и вывести исследование на
качественно новый уровень – получать выводы и обобщения, которые
невозможно увидеть при ручном анализе многочисленных примеров,
получить на малом объеме данных.
Анализ
корпусных
данных
дает
представление
о
языковых
выражениях, связанных с некоторым концептом, об ассоциативных связях,
позволяет вскрыть некоторые онтологические особенности объектов,
отражающиеся в текстах в виде особенностей сочетаемости языковых
выражений для исследуемых понятий (ср., например, положительно
окрашенные
метафорические
прилагательные
высокий,
передовой
встречающиеся с понятием технология). С другой стороны, в текстах мы
оперируем, прежде всего, языковыми выражениями. При этом один и тот же
концепт может быть назван по-разному в разных источниках, в разных
собраниях текстов. То есть корпус позволяет получить интегральную
картину поведения языковых выражений, ассоциированных с этим объектом,
в разного типа текстах, различающихся жанром, тематикой, временем
создания. Таким образом, корпусные технологии предполагают, что в
пределах
одного
корпуса
мы
можем
составить
объемный
“стереоскопический” языковой портрет некоторого объекта (концепта).
Кроме того, информация о некотором концепте может быть отражена и
в структурированных источниках: на порталах знаний, в энциклопедических
и словарных источниках. Таким образом, актуальной также остается задача
распознать тождественные концепты в разных текстовых источниках, а
также интегрировать эту информацию с информацией из структурированных
источников. Информация о структурированных источниках, в свою очередь,
позволит точнее и полнее проинтерпретировать
информацию из текста.
Современные технологии Семантического Веба существенным образом
могут облегчить такую задачу. Ниже речь пойдет о таких технологиях,
предоставляющих доступ к обобщенной информации об объектах и
категориях, представленных в структурированном виде.
Технологии открытых связанных данных как инструмент
обобщения и систематизации знаний
Технологии
семантического
Веба
являются
принципиально
инновационными в области освоения и обмена научными знаниями. Они
ориентированы на содержательное представление контента в Интернете и
предполагают формирование баз знаний “для создания практически
значимых систем семантической навигации по информационным ресурсам и
сервисов аналитики на знаниях” ([5]). На наш взгляд, знакомство с данным
направлением и обучение навыкам использования ресурсов и инструментов
семантических
технологий
должны
входить
в
современные
курсы
информационных технологий. В частности, это касается проекта открытых
связанных данных (Linked Open Data [9], [1]).Технологии связанных
открытых данных предоставляют доступ к научной и образовательной
информации в различных областях науки в совершенно новом формате: они
позволяют
осуществлять
фактографический
поиск,
предполагают
интеграцию, систематизацию накопленной в Интернете разносторонней и
компетентной информации на основе семантической модели той или иной
области знаний.
Порталы знаний и концепция Семантического Веба
В соответствие с концепцией семантического Веба операции с
контентом в Интернете (например, поиск) должны происходить не в
терминах единиц текста (модели мешка слов, распространенной в системах
автоматического поиска и извлечения информации), а в терминах объектов
(реальных и абстрактных), или точнее концептов (или концепций). Для
возможности оперирования такими семантическими объектами в рамках
направления
консорциумом W3C разрабатываются стандарты описания
различных классов концептов и объектов реального мира (см. [23]). Одной из
задач является представить информацию в удобном для машинной обработки
виде. Такой подход требует специальной формализации некоторой области
знаний, т.е. моделирования онтологии (ср. определение онтологии в [7], см.
также [8]). Построение онтологии некоторой предметной области позволяет
упорядочить знания в этой области, выявить ее понятийную структуру, а
также автоматически агрегировать всю релевантную информацию.
Развитие
направления
Семантического
Веба
мотивировано
перманентным ростом разнородных ресурсов в той или иной области знаний,
содержащих
неструктурированных
структурированные
источники
(т.е.
обычные)
информации:
тексты,
таблицы,
так
и
глоссарии,
рубрикаторы, базы данных. Это создает проблему организации эффективного
доступа
к
информации,
возникает
необходимость
агрегации
и
систематизации ресурсов. Для решения данной проблемы в последнее время
активно разрабатываются порталы знаний, которые призваны обеспечить
интеграцию
доступных
информационных
ресурсов
в
единое
информационное пространство. Примерами могут служить портал знаний по
компьютерной лингвистике (см. [18]), археологический портал знаний (см.
[15]), портал знаний по нанотехнологиям (см. [19]). Информационную основу
Интернет-портала знаний, который должен обеспечить интеграцию и
систематизацию научных знаний и информационных ресурсов определенной
тематики,
составляют
онтологии
(или
рубрикаторы),
призванные
“обеспечить такое представление понятий данной области и отношений
между ними, на основе которого можно было бы автоматически строить
внутренние хранилища данных портала, осуществлять навигацию по
информационному пространству портала и организовывать содержательный
поиск” [16].
Такие
порталы
ориентированы
на
преподавателей,
студентов,
исследователей, работающих в данной отрасли науки. Они объединяют
разрозненную информацию из Интернета, обеспечивают компетентность
данной информации. Кроме того, как указывается в [14], онтологии, лежащие
в их основе, позволяют составить некоторое системное представление о
данной отрасли.
Таким образом, в Интернете доступно не только огромное количество
источников неструктурированной информации, которую один человек не в
состоянии
полностью
переработать,
но
и
большое
количество
структурированных источников: рубрикаторов, баз данных, онтологий
различного типа.
Однако со временем и структурированные источники приобретают тот
же недостаток, что и неструктурированные: они представляют собой
большой объем несвязанных между собой данных. Нередко для одной и той
же предметной области разрабатываются разные онтологии в зависимости от
специфики задачи, возможностей разработчиков. Так, например, различные
рубрикаторы, онтологии, тезаурусы и базы данных в области нанотехнологий
в русскоязычном интернете представлены в большом количестве (ср.,
например, рубрикаторы и тезаурусы [21], [23]). При этом даже общая
структура понятий в разных рубрикаторах может не совпадать.
Такое многообразие концептуализаций, плохо соотносимых друг с
другом, требует унификации, разработки единого формата представления,
“провязывания” связей между понятиями, обозначающими одни и те же
объекты. Провязывание открытых данных является одной из задач нового
направления в рамках проекта “Семантический веб” – связанные открытые
данные (Linked Open Data, или сокращенно – LOD).
Cвязанные открытые данные
Проект открытых связанных данных призван решить проблемы
обобщения знаний из разных источников. Главная содержательная идея
проекта состоит в открытости и доступности большого количества данных
разного характера, начиная от правительственных данных и кончая
новейшими
разработками
в
отдельных
областях
науки,
различных
географических карт и изображений, а также образовательных ресурсов.
Связанные открытые данные представляют собой множество наборов
данных из разных областей и разной степени подробности, представленных в
едином унифицированном формате, где сущность (концепт) в одном наборе
имеет связь с соответствующей сущностью, концептом в другом наборе. Они
базируются на следующих принципах обмена большими наборами данных,
сформулированными
Тимом
Бернерсом
Ли
([4]):
использование
универсальных идентификаторов ресурсов (URI) в качестве имен объектов,
специального универсального формата разметки RDF и специального языка
запросов SPARQL, включение ссылок на другие URI, позволяющих найти
дополнительную информацию. Благодаря этим технологиям все большее
количество данных становятся доступными не только для ручного поиска, но
и для автоматической машинной обработки. Использование единого формата
представления данных, удобного для чтения и интерпретации этого формата
машинами, позволит автоматически устанавливать соответствия между
одними и теми же понятиями, по-разному представленными в разных
информационных источниках. Использование связей между разнородными
источниками дает возможность получать более объемное представление об
объекте. Общая структура наборов данных, имеющихся в проекте LOD
приведена на рис. 4.
Рисунок 4. Состав наборов данных
Статистика имеющихся наборов данных в LOD в разных сферах
приведена на табл. 2 (приводится по [12])
Таблица 2. Статистика наборов в разных сферах:
Кол-во
наборов
Количество
триплов
(предикатов)
%
Количество
связей
%
25
1,841,852,061
5.82 %
50,440,705
10.01
%
31
6,145,532,484
35,812,328
7.11 %
49
13,315,009,400
19,343,519
3.84 %
Публикации
87
2,950,720,693
9.33 % 139,925,218
Меж-доменные
41
4,184,635,715
13.23
%
41
3,036,336,004
9.60 % 191,844,090
20
134,127,413
295
31,634,213,770
Область
Медиа
Географические
данные
Правительственные
данные
Данные наук о
живой природе
Пользовательский
контент
19.43
%
42.09
%
0.42 %
63,183,065
3,449,143
27.76
%
12.54
%
38.06
%
0.68 %
503,998,829
Технологии связанных открытых данных позволяют агрегировать
различные ресурсы в некоторой области исследования. В силу того, что
данные имеют семантическую разметку, наборы открытых данных связаны
ссылками
между
собой,
и
таким
разностороннюю
информацию
онтологическую,
словарную,
об
образом
можно
получать
сразу
объекте:
энциклопедическую,
мультиязычную,
библиографическую,
конкретно ориентированную на узкую предметную область, географическую
и т.п. При обычном поиске пользователи сами должны искать в одних
источниках переводы терминов, в других смотреть учебные материалы по
данной тематике, пользуясь специфической классификацией и методами
навигации по странице или страницам, предусмотренные именно для данного
конкретного ресурса. Даже в пределах одного портала информация может
быть не связана между собой. Так, например, есть взять активно
развивающуюся область нанотехнологий, в русскоязычной сети существует
несколько порталов, призванный агрегировать информацию, например, такие
как [19], [23]. Однако каждый из них использует свои принципы
классификации контента. Не совпадают названия организаций, обозначения
персон, области исследования, ссылки на публикации в данной области. Это
обстоятельство существенно затрудняет поиск информации относительного
какого-то проекта, разработки какого-то наноматериала и т.д. И именно эта
проблема решается с помощью подхода связанных открытых данных.
Унификация
представления
специально
разработанных
тезаурусов,
классификационных
структурированных
представляющий
формальных
данных
собой
данных
тип
схем,
([25]).
ресурса
поддерживается
языков
для
таксономий
Таким
или
и
семейством
представления
других
типов
образом,
любой
объект,
сущность,
описывается с
использованием словарей контролируемых терминов, созданных на основе
Системы организации простых значений (Simple Knowledge Organization
System – SKOS [11]) – семейства формальных языков для представления
тезаурусов, классификационных схем, таксономий, систем предметных
заголовков
и
других
типов
структурированных
данных.
Например,
существуют специальные словари для описания метаданных ресурсов
(проект Дублинское ядро), описания людей (словарь FOAF – Friend-ofFriend), описания продуктов, сервисов в электронной коммерции (Good
Relation Ontology), онтология библиографических описаний (the Bibliographic
Ontology - BIBO) и др. Эти списки разработаны для классификации
различных сущностей – концептов, людей, животных, публикаций и т.п.
Представление о таких контролируемых списках позволяет в полной мере
воспользоваться данными, опубликованными в Интернете, а также сделать
собственные данные более доступными.
Иными словами, в результате применения технологий связанных
данных мы получаем возможность интегрировать различные представления о
некотором объекте действительности или концепте. Существует целый ряд
специальных открытых ресурсов - онтологий, входящих в состав наборов
связанных открытых данных, таких как DBPedia, Freebase4 и др. Они
представляют информацию в едином, структурированном и сжатом виде, в
форматах, обеспечивающих интероперабельность этой информации. В
результате,
информация
об
объекте
оказывается
доступна
в
формализованном виде: его характеристики (атрибуты), связи объекта с
другими объектами, связи с описаниями данного объекта в других ресурсах
(например, библиографических), описания объекта сразу на многих языках,
переводы на другие языки и т.п. То есть такие ресурсы могут служить
некоторой точкой референции, “диспетчерским пунктом”, точкой доступа к
объемному многоаспектному знанию об объекте. Так, например, на странице
DbPedia мы получаем мультиязычное и мультикультурное представление о
концепте: приводятся описания концепта из Википедии на всех языках, для
которых существует такая страница, а также просто возможные переводные
эквиваленты для разных языков. Мы получаем ссылки на различные базы
знаний, в которых отражен данный концепт. Кроме того возможно
проследить связи данного объекта с персонами, организациями, областями
знаний и т.п. Связь с таким ресурсом как WordNet позволяет получить
представление о концептуальных связях данного понятия и о связанных с
ним языковых выражениях. Связи с областью геоданных позволит наглядно
на карте увидеть ассоциированные с данным концептом географические
объекты.
Связи
с
библиографической
областью
информацию о работах, посвященных объекту изучения.
4
http://dbpedia.org/About, http://www.freebase.com/
позволит
получить
Таким образом, подход, принятый в технологиях связанных открытых
данных, позволяет интегрировать многоаспектные данные о некотором
объекте действительности или понятии на концептуальном уровне, на уровне
энциклопедических знаний, получать интегральные знания об объекте.
Открытые данные и электронное обучение
В связи с тем, что проект связанных открытых данных ставит целью
интеграцию, легкодоступность, интероперабельность разнородных данных,
помимо технических функций обеспечения унификации данных для
компьютерной
обработки,
помимо
задач
обеспечения
открытости
информации, его достижения могут быть использованы и в технологиях
электронного обучения.
Во всем мире активно используются технологии так называемого
электронного обучения (E-learning) и, как и в других областях использования
Интернет-ресурсов, на сегодняшний день разработчики и пользователи
сталкиваются с той же проблемой: вопросом об интероперабельности (ср.
стандарт learning Object Metadata – LOM [6]). Возникает необходимость
единых стандартов для разработки систем дистанционного обучения, для
универсальной разметки объектов, входящих в такие системы. Как
отмечается многими исследователями ([2], [6], [10]), технологии открытых
данных позволяют объединить, унифицировать, связать доступные для
обучения разнородные ресурсы, снабдить их ссылками на другие наборы
данных.
В наборах открытых данных отдельный сегмент занимают набор
данных, относящихся к открытым образовательным ресурсам (mEducator –
LinkedEducationalResources). Существует специальная открытая платформа
LinkedEducation.org, целью которой является продвижение технологий
связанных
открытых
данных
в
образовательных
целях,
обмену
и
совместному использованию образовательных данных в преодолении границ
образовательных учреждений и стран.
Таким образом, связанные открытые данные не просто обеспечивают
открытость большого набора данных в Сети, но и обладают огромным
потенциалом в коренном изменении высшего образования. Это направление,
как отмечается в [10], является основой создания новой науки обучения,
которая может в корне изменить образовательную практику.
Выводы
Выше были рассмотрены два направления современных технологий
работы с контентом: анализ корпусов и использование связанных данных.
В представленной в заключении таблице (см. табл. 3) обобщаются основные
практики, которые возникают в рамках решения задач по анализу контента и
извлечению информации. Каждой практике сопоставлены списки ключевых
ресурсов и инструментов, которые могут быть использованы, а также
специально выделены возможности, предоставляемые семантическим Вебом.
Таблица 3. Основные практики, возникающие в рамках решения задачи анализа
контента
Задачи работы с
Интернетом
Инструменты и ресурсы
Возможности
семантического
Веба
Поиск
неструктурированной
информации по теме:
поиск компетентных
ресурсов
Академические/экспертные
сайты, использование
методов расширенного
поиска в поисковых
машинах, использование
фактографических систем
поиска
Семантическое
тегирование
контента, поиск по
семантическим
тегам
Объединение
информации,
полученной из разных
источников
Корпуса, технологии работы
с корпусами, инструменты
работы с корпусами,
Специальные инструменты
для агрегации контента
MashUp, системы
семантического
поиска
Поиск экспертных
Основные типы справочных
структурированных /
источников (баз данных,
Полуструктурированных онтологий инструментов,
порталов знаний)
Онтологии
“Сублимация” контента Методы: контент- анализ
Инструменты:
конкордансеры, системы
выделения объектов,
специальные пакеты
обработки текстов,
используемые для контентанализа
Интеллектуальная
агрегация,
семантическое
моделирование
предметной области,
интеграция данных
Иными
словами,
Онтологии
Составление онтологий и
Связанные
семантических карт
открытые данные
предметной области, порталы
знаний
современные
интернет-технологии
позволяют
работать с контентом на совершенно новом уровне. Они позволяют
приобретать знания в некоторой предметной области не только с точки
зрения одного аспекта или одного способа описания, но получать
многоаспектную, организованную в некоторую структуру информацию об
основных объектах этой области. Таким образом, представляется, что
знакомство с новыми возможностями компьютерной обработки текстов и
представлений знаний в рамках курсов по информационным технологиям
может существенным образом повлиять на методологию приобретения
учащимися знаний в конкретных областях, в том числе на обогащение
традиционного аналитического подхода к освоению знаний интегральным
синтетическим видением предмета изучения.
Список литературы
1. Bauer, F., Kaltenboeck, M., Linked Open Data, The Essentials, 2011.
[Электронный ресурс: URL: http://www.reeep.org/LOD-theEssentials.pdf. Загл. с экрана, доступ свободный].
2. Benjamins V. R., Fensel D., et. all, 1998, “Community is Knowledge! in
KA2”, Proceedings of the KAW'98, Banff, Canada, 1998.
3. Bernardini, Silvia. 2004. Corpora in the classroom. An overview and some
reflections on future developments. In: Sinclair, John McH., ed. How to use
corpora in language teaching. - Amsterdam [u.a.] :Benjamins, 2004. - VI,
307 р. - (Studies in corpus linguistics.
4. Berners-Lee, Tim. The Se man tic Web and Re search Chal len ges.
[Электронный ресурс: http://www.w3.org/2003/Talks/01-sweb-tbl/slide150.html. Загл. с экрана, доступ свободный].
5. Daniel Hladky, Victor Klintsov, Ali Khalili, Sцren Auer: From WYSIWYG
to WYSIWYM – Content and Value Enrichment with Semantic Metadata.
In Proceedings of XIX Всероссийская научно-методическая
конференция “Телематика'2012” (Telematika 2012).
6. Derek McAuley, HanifRahemtulla, James Goulding and Catherine Souch
How Open Data, data literacy and Linked Data will revolutionise higher
education –[Электронный ресурс: URL:
http://pearsonblueskies.com/2011/how-open-data-data-literacy-and-linkeddata-will-revolutionise-higher-education/. Загл. с экрана, доступ
свободный].
7. Gruber, Thomas R.. Towards Principles for the Design of Ontologies Used
for Knowledge Sharing // Inter-national Workshop on Formal Ontology,
March, Padova, Italy, 1993.
8. Guariano N., Giaretta P. Ontologies and Knowledge Bases. Towards a
Terminological Clarification // Towards Very Large Knowledge Bases / Ed.
by N. J. I. Mars.| Amsterdam: IOS Press, 1995.
9. Linked Data – Connect Distributed Data across the Web, . [Электронный
ресурс: URL: http://linkeddata.org/. Загл. с экрана, доступ свободный].
10.Meltzoff, A. N., Kuhl, P. K., Movellan, J., and Sejnowski, T. J. (2009).
Foundations for a new science of learning. Science 325, PP. 284–288.
11.Resource Description Framework (RDF) Model and Syntax Specification.
[Электронный ресурс: URL: http://www.w3.org/TR/PR-rdf-syntax/ Загл. с
экрана, доступ свободный].
12.State of the LOD Cloud. [Электронный ресурс: URL:
http://linkeddata.uriburner.com/ode/. Загл. с экрана, доступ свободный].
13.W3C Semantic Web Activity. [Электронный ресурс: URL:
http://www.w3.org/2001/sw/Activity. Загл. с экрана, доступ свободный].
14.Zagorulko Yu., Borovikova O., Bulgakov S., Sidorova E. Ontology-based
approach to development of adjustable knowledge internet portal for support
of research activity// Bull. of NCC. Ser.: Comput. Sci. – 2005. – Is. 23: PP.
45–56.
15.Андреева О.А., Боровикова О.И., Булгаков С.В., Загорулько Ю.А.,
Сидорова Е.А., Циркин Б.Г., Холюшкин Ю.П. Археологический портал
знаний: содержательный доступ к знаниям и информационным
ресурсам по археологии // КИИ-2005. Т.3. С. 832-840.
16.Боровикова О.И. Организация порталов знаний на основе онтологий//
Компьютерная лингвистика и интеллектуальные технологии : тр.
междунар. конф. “Диалог 2002”. - Протвино, 2002. - Т. 2. - С. 76-82; То
же [Электронный ресурс: URL: http://www.hrportal.ru/article/organizatsiya-portalov-znanii-na-osnove-ontologii. Загл. с
экрана, доступ свободный].
17.Добрушина Н. Р. Корпусные методики обучения русскому языку //
Национальный корпус русского языка: 2006-2008. Новые результаты и
перспективы. СПб.: Нестор-История, 2009, С. 335-352.
18.Загорулько Ю.А. Подход к построению предметной онтологии для
портала знаний по компьютерной лингвистике / Ю.А. Загорулько и др.
// Компьютерная лингвистика и интеллектуальные технологии : тр.
междунар. конференции “Диалог 2006”. – М., 2006. - С. 148-151 ; То же
[Электронный ресурс: URL: http://www.dialog21.ru/dialog2006/materials/html/Zagorulko.htm. Загл. с экрана, доступ
свободный].
19.Нанотехнологии и наноматериалы. Федеральный интернет-портал.
[Электронный ресурс: URL: http://www.portalnano.ru/. Загл. с экрана,
доступ свободный].
20.Национальный корпус русского языка. [Электронный ресурс: URL:
http://ruscorpora.ru/ Загл. с экрана, доступ свободный].
21.Рубрикатор “Нанотехнологии и наноматериалы”. Режим доступа: URL:
www.nanonewsnet.ru/files/Rubrikator.doc.
22.Савчук С. О. Метатекстовая разметка в Национальном корпусе
русского языка: базовые принципы и основные функции //
Национальный корпус русского языка: 2003-2005. Результаты и
перспективы. – М., 2005, С. 62-88.
23.Словарь нанотехнологических и связанных с нанотехнологиями
терминов. [Электронный ресурс: URL: http://thesaurus.rusnano.com/.
Загл. с экрана, доступ свободный].
24.Соснина, Е.П. Параллельные корпусы в обучении языку и переводу/
Е.П.Соснина// Статья [Электронный ресурс: URL:
http://ling.ulstu.ru/linguistics/resourses/literature/articles/corpus_education_t
ranslation/. Загл. с экрана, доступ свободный].
25.Сысоев Т. М., Нестеренко А. К., Бездушный А. А., Кулагин М. В.
SemanticWeb и OWL-онтологии в разработке ИСИР-систем // Научный
сервис в сети Интернет: Труды Всероссийской научной конференции
(20-25 сентября 2004 г. г.Новороссийск).- М.: Изд-во МГУ, 2004. С.
188-191.
Скачать