Т.В. Романова, профессор (НИУ ВШЭ – Нижний Новгород)

advertisement
База практики



АЦ «Ассоциации Электронных Торговых
Площадок»
ЗАО «АЦ Фонд»
ООО «Диктум»
Цели организации практик


1 этап научно-исследовательская
2 этап производственная

Научно-исследовательская практика как этап
производственной практики магистров проводится
с целью сбора, анализа и обобщения научного
материала, разработки оригинальных научных
предложений и научных идей для подготовки
магистерской диссертации, получения навыков
самостоятельной научно-исследовательской
работы, практического участия в научноисследовательской работе коллективов
исследователей.

Производственная практика магистров
проводится с целью обеспечения тесной связи
между научно-теоретической и практической
подготовкой студентов, приобретения ими опыта
практической деятельности в соответствии с
особенностями магистерской программы, создания
условий для формирования практических
компетенций и сбора материала для подготовки
выпускной квалификационной работы
(магистерской диссертации).
Содержание практики

исследование устной речи и письменных текстов;
совокупности явлений, охватывающих все
элементы языковой структуры (фонетики,
морфологии, лексики, синтаксиса, семантики,
дискурса); электронные языковые ресурсы
(языковые корпуса, машинные фонды, электронные
словари и др. базы данных); лингвистические
технологии, в том числе применяемые в
электронных информационных системах
различного назначения.
Основная цель практики

– обеспечить навыками алгоритмического
решения задач обработки языковых данных и
программирования, прикладными
аспектами компьютерной лингвистики,
корпусной лингвистики на основе
компетентностной модели.
компетенции


- Институциональные компетенции, характеризующие способности
выпускника-магистра применять на практике теоретические знания,
необходимые для внедрения лингвистических технологий в
электронные информационные системы, системы машинного перевода;
- Экспертно-аналитические компетенции, выражающимися в
способности магистров сопоставлять различные типы дискурсов,
проводить компаративный анализ информации из разных предметных
областей, разрабатывать экспертные оценки и делать краткосрочные и
среднесрочные прогнозы в области языковой политики и языкового
планирования, осуществлять мониторинг массивов информации с
применением современных компьютерных инструментов
лингвистического исследования;




- Инструментальные компетенции, характеризующие умение магистра
ориентироваться в различных научных методологиях и подходах, готовить
качественные аналитические документы на русском и иностранных языках.
- Технологические компетенции, закрепляющие умения использовать в
научно-практической деятельности информационные технологии;
- Научно-исследовательские компетенции, развивающие исследовательские
навыки, полученные на уровне бакалавриата и заключающиеся в умении
выпускников-магистров организовывать и проводить исследования с целью
разработки и создания инновационных электронных языковых ресурсов
(корпусов текстов, словарей, фонетических, лексических, терминологических баз
данных);
- Социально-личностные компетенции, призванные подготовить выпускника
к эффективной публичной деятельности, в том числе и в качестве преподавателя
университета.
Практические задачи от
работодателя







Выделение объектов и их идентификация.
Определение индекса цитирования.
Выявление клауз и других синтаксических
структур.
Семантический анализ синтаксических структур
описывающих объект.
Анализ содержимого в тексте.
Создание и работа с корпусом текста.
Создание Экспертной системы для анализа
полученной информации.
Образовательные задачи от
работодателя

Знакомство с актуальными прикладными задачами
компьютерной лингвистики, в частности - выделение в тексте
упоминаний о персонах и организациях (объектов).

В рамках стажировки студент получит возможность практиковаться в
работе с базами данных, с морфологическим анализатором.
Обработка текста также подразумевает работу с регулярными
выражениями, составление семантических графов, деревьев
синтаксического разбора, и работы с тезаурусом. Студенту
представится возможность поработать над решением интересных,
нетривиальных задач, что положительно отразится как в
совершенствовании навыков ведения научной дискуссии, так и на
государственном экзамене.

Знакомство и работа с основными видами автоматического
анализа текста. Морфологический, статистический,
синтаксический и семантический анализ.

В процессе прохождения практики предусмотрена ежедневная
деятельность по разработке на С++ и использованию различных
видов автоматического анализа текста, использование баз данных, в
частности MSSQL. А также создание графических частей
приложений с использованием С#/DevExpress.
Полученные в результате такой работы навыки и некоторые данные
можно эффективно интегрировать в материалы исследования в
рамках курсовых и магистерских работ.


Экспертные системы.

Построение базы знаний на основе математической
логики, семантических сетей и фреймов. Применение
нечёткой логики и методов вероятностного вывода, в том
числе механизмов обучения Байесовских сетей, неявных
Марковских сетей.
Прохождение практики предполагает как формирование у
обучаемых базовых представлений о принципах и методах
компьютерной лингвистики, так и получение
практических решений задач, которые будут ставиться в
процессе работы.

Задачи для студентов ВШЭ-НН









1. Автоматизация проверки актуальности информации справочников.
Данная задача необходима для обновления данных подавляющего большинства
справочников, содержащих экстралингвистическую информацию.
Описание
Предлагается продумать и реализовать систему автоматической проверки актуальности
содержащейся в справочнике информации. В ходе выполнения задачи необходимо
ответить на следующие вопросы:
- какие ресурсы могут использоваться как основание для обновления информации
справочника;
- каким образом и с каким интервалом представляется целесообразным отслеживать
обновления;
- как должна проходить процедура обновления информации непосредственно в карточках
справочника?
Предоставляемые материалы:
Предполагается обеспечить практиканту отчет, дающий доступ к справочнику «Персоны».
Количество единиц, отображаемых в справочнике планируется сократить до 100.









2. Реструктуризация справочника «География мира» путем внесения в
него деления на крупные территориальные единица типа земли,
автономные округи, штаты и т.д.
Описание:
Для решения этой задачи необходимо будет продумать следующие вопросы:
- каким образом следует перестроить структуру справочника «География мира»
для пополнения его необходимыми данными;
- составить корпус единиц для внесения в справочник;
- пополнить выбранным для этого способом справочник «География мира»
единицами территориального деления стран мира;
- проверить полученный результат.
Предоставляемые материалы:
Предполагается обеспечить практиканту доступ к справочнику «География
мира».









3. Составление алгоритма разрешения анафор в текстах новостных
сообщений.
Данная задача необходима для реализации других более крупных задач: подсчета
упоминаемости, определения интонации высказывания об объекте, ИЦ и др.
Описание
Предлагается продумать, прописать правила разрешения анафор в тексте для
таких классов объектов как: персоны и компании. Оформить правила в виде
технического задания.
В ходе выполнения задачи необходимо ответить на следующие вопросы:
- какие справочники необходимы для решения задачи;
- можно ли пременять одинаковые правила для персон и компаний;
Предоставляемые материалы:
Предполагается обеспечить практиканту корпус размеченных новостных текстов
с анафорой.













4. Автоматическое (автоматизированное) заполнение справочника органов законодательной
власти субъектов РФ
Задача выполняется в рамках создания методологии выделения наименований органов законодательной
власти субъектов Российской Федерации.
Описание
В информационно-аналитической системе имеется справочник органов государственной власти. В
справочнике имеется множество карточек органов законодательной власти субъектов Российской
Федерации, у которых заполнено только поле «Название».
Требуется заполнить в этих карточках поле «Варианты названия». В данном поле должен находиться
перечень наименований, референтных органам законодательной власти, употребляемых в текстах
новостных сообщений.
Предлагается централизованно автоматически сгенерировать варианты названия в карточках
справочника. Для этого необходимо создать список моделей (шаблонов) генерации вариантов
названия, которые учитывал бы значительную вариативность лингвистического выражения и типичные
особенности образования вариантов названия органов законодательной власти субъектов Российской
Федерации.
В ходе выполнения задачи необходимо ответить на следующие вопросы:
- какие шаблоны можно прописать для автогенерации;
- как продумать автоматическое заполнение парадигмы
- как предусмотреть отсутствие омонимии
- написать ТЗ для программистов, чтобы залить шаблоны.
Предоставляемые материалы:
Карточки справочника












5. Мониторинг информационно-аналитических систем автоматической обработки текста
Задача: проанализировать российские и зарубежные системы автоматической обработки СМИ,
социальных сетей, других текстовых данных (не менее 10).
Необходимо запросить демо-доступ к аналитическим системам (например, Интегрум, Медиалогия,
Public.ru, Интерфакс Скан, IQBuzz, Recorded Future, Youscan, Buzzlook, Buzzware, Kribrum,
Brandspotter, Wobot, Babkee, Brandoscope, SemanticForce, InfoStream, Ontos и т.п.), протестировать
функциональные возможности выбранных систем, оценить визуализацию представления данных.
Обратить внимание на такие параметры, как
виды и количество источников,
удобство в использовании для пользователя,
качество предоставляемых данных,
формы представления информации,
технологии анализа,
варианты использования системы (для кого? зачем?),
пакеты услуг и тарифы
и т.д.
Результат: подробный отчет со сравнительной характеристикой программных продуктов. Отдельно
указать “сильные” и “слабые” стороны каждой из систем. Предложить свои идеи по использованию тех
или иных функциональных возможностей в контексте автоматической обработки текста.
Download